[B! prompt][gpu] sh19910711のブックマーク

sh19910711 id:sh19910711

promptとgpuに関するsh19910711のブックマーク (5)

Vertex AI と NeMo Framework で大規模言語モデル（LLM）のマルチノード分散学習を体験する
はじめに 2024年4月3日に、下記の Google Cloud 公式ブログ記事が公開されました。 GKE の NVIDIA NeMo フレームワークで、生成 AI への取り組みを加速この記事で紹介されているチュートリアル nvidia-nemo-on-gke に従うと、Google Cloud で次の処理が体験できます。 NVIDIA H100 Tensor Core GPU を接続したノードによる Google Kubernetes Engine（GKE）のクラスターを構築する NVIDIA NeMo Framework のサンプルコードを利用して、LLM（Megatron GPT）の事前学習を実行するとはいえ・・・、「わざわざ GKE クラスターを構築するのは面倒なので、Vetrex AI のマネージドサービスだけで LLM の学習処理を体験してみたい！」という方もいるかもしれま
sh19910711 2024/05/18
"NVIDIA NeMo Framework のサンプルコードを利用して、LLM（Megatron GPT）の事前学習 / NeMo Framework: ハイパーパラメーターの設定、PyTorch Lightning を用いたチェックポイントの生成、TensorBoard 用のログの出力などをまとめて管理"

*infra

gcloud

prompt

gpu
リンク
1つの大きなLLM（大規模言語モデル）を複数のGPUで力を合わせて動かそう | IIJ Engineers Blog
地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 LLM群雄割拠の時代昨今、ローカルGPUで駆動できるようなLLM（大規模言語モデル）もかなり増えてきて、キャッチコピー的に「ついに我が家にもGPT-4が！」とか言われるようになってまいりました。パラメータ規模で言えば70億～130億(7B-13B)パラメータ、700億(70B)パラメータ、1400億(140B)パラメータあたりのモデルが活発にリリースされているように見受けられます。大きなモデルをGPU寄せ集めしつつ遊びたい！しかしながら、コンシュマー向けのGPUにおいては、7B
sh19910711 2024/05/08
"ディスパッチ: 単一GPUでは処理し切れないものを複数のGPUあるいはCPU、ストレージも含めて余裕あるリソースに対して処理を派遣 / 異なるGPUの組み合わせでも動かすことが出来ます"

*tech

gpu

prompt
リンク
Flash AttentionとDeep Speedを使ってLLMをGPU1枚でフルファインチューニングする - Qiita
TL;DR Deep Speedのoffload_optimizer機能を使って、VRAM40GBのGPU1枚で3.6BパラメータのLLMをファインチューニングしました。さらに、Flash Attentionを使うことで、学習を高速化しつつ使用メモリ量も減らし、より長い系列長で学習を行うことができました。はじめに Flash AttentionはAttentionの計算で使用するGPUメモリ量を系列長の2乗のオーダーから1乗に削減する技術で、xformersやoptimum、さらにはtransf ormersライブラリでも簡単に使用できるようになってきています。前回の記事(1, 2)では、LLMの推論においてFlash Attentionを使ってみたのですが、推論ではあまり効果が見られないという結論を得ました。今回はFlash Attentionが本領を発揮するであろう学習（ファイン
sh19910711 2024/04/28
"Flash Attention: 推論ではあまり効果が見られない / GPU1枚で学習を行うためにDeep SpeedのZeRO-2を使用 / 系列長を長くして1ステップ当たりに含まれるトークン数を増やすと、学習が効率化されて高速化される傾向" 2023

*program

prompt

gpu
リンク
MLX で Llama2 を動かしてみる
Appleシリコン上での実行に対応した機械学習ライブラリMLXが公開されました。今回は公式が公開している"mlx-examples"リポジトリの"llama"を使って、llama2-7b-chatの実行を試してみます。 commit: 3cf436b529ea58d6c0c0a29c0dd799908cd4497d 2023/12/22 検証環境 MacBook Pro Apple M3 Pro メモリ 36GB 公式要件としては、以下の環境が示されています。以下要件を満たしていてもメモリが少ない場合、実行するモデルによっては推論ができない可能性があります。 Using an M series chip (Apple silicon) Using a native Python >= 3.8 macOS >= 13.3 環境構築まず"mlx-examples"のリポジトリをローカルにク
sh19910711 2024/04/27
"mlx-example: 頻繁に更新が行われており整備が進んでいる / M3 Pro: Prompt processingに0.665秒、Full generationに11.515秒 / iPhone,iPadを始め、2024年発売予定のVision Pro上での活用も視野に入れながらMLXの動向をウォッチしていきたい" 2023

*tech

prompt

gpu

--

ガジェット
リンク
LiLM 小規模言語モデル TinyLlama 1.1B の日本語追加事前学習(incremental pretrain) を試したメモ
背景日本語性能のよい軽量 LLM, LiLM, Lightweight Language Model ほしい... スマホで動かしたり, ブラウザで動かしたり... ドメインは知識応答系. Code 生成とか数学とかのドメインは今は考えない. Chinese LLaMa https://zenn.dev/syoyo/scraps/6c3e92402e6fd0 でいい感じに incremental pretrain(追加事前学習) するといけるっぽいことがわかった! ん－, でも 7B or 14 B 規模で試して本当にうまくいくのかわからん... (後日たぶん似たような方法で rinna ちゃんが Youri 7B, ELYZA ちゃんが Japanese LLaMa 7B 出してきた! それなりにいい感じになったようだよ) あと 7B だとやっぱりまだちょっと大きい. 量子化してギリ
sh19910711 2024/04/20
"追加事前学習: CPU mem は 160 GB くらい + 192 GB or 256 GB あると安心 + 学習は 225 W に powerlimit した 3090 x 2 でおよそ 100 日 / WASM でブラウザ動作デモできるようにやっぱりどこかの時点で公開するかも" 2023

*program

prompt

--

wasm

gpu
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx