[B! *algorithm][GPU] sh19910711のブックマーク

DirectMLで試す、非NVIDIA系GPUで機械学習 - Qiita

はじめに株式会社ピーアールオー（あったらいいな！を作ります） Advent Calendar 2022の3日目になります。前日は私の「Wingetで簡単！開発PCセットアップ（Windows）」でした。 MLをやってみたいけど MLを気軽に試してみたいけど、最大の障壁となるのはやはり高価なGPUが必要という点かと思います。PC ゲームをやる方ならまだしも、そうでない人間には数万～数十万もするdGPU/eGPUを用意することは簡単ではありません。特にこの分野ではcudaコアを有するNVIDIAのGPUが一強という感じですが、まともに使えそうなボードをそろえようとするとやはり十万程度の出費が必要になります（この辺は諸説あるでしょうが・・・）。もちろん、CPUのみで挑むというやり方もありますが、あまりに時間がかかるのはやはり敬遠しがちになります。また、クラウドGPUみたいなものもあるので、

sh19910711 2024/04/14

"CPU統合型GPU（iGPU）の性能も向上してきている / DirectML: Microsft謹製 + cudaの代わりにDirectX12を使うことで、非NvidiaのGPUでもMLを可能に / PlaidML: AMD Radeon系のGPUをターゲットにしたライブラリ" 2022

リンク

70Bモデルのホスティング

こんにちは、@ken11です。今日はSpiral.AI株式会社のエンジニアブログとして、70BのLLMをホスティングした話をご紹介したいと思います。 70B 春先に「とりあえず6B、話はそれからだ」と言った人がいたような気もしますが、たしかに最近のLLMはパラメータ数が7B/13B/70Bというのが多いのではないでしょうか。そうですね、Llama2をファインチューニングしたものも多いので、余計にそういったパラメータ数を見かけることが多くなった気がします。さて、みんな大好きOpenAIのGPT-3.5が175BだとかGPT-4はおそらく500B~だとかいろいろ言われており、Llama2最大サイズの70Bでも遠く及ばないわけですが、それでも70Bは市場に出回っている(誰でも使える)モデルの大きさとしては現状最大級となっているわけです。とはいえ実際に使おうと思うと、7Bですら結構な推論コ

sh19910711 2024/03/06

"7Bですら結構な推論コストがかかり、70Bとなるといよいよ莫大になってきます / どんなにいいモデルでもホスティングして実際に使えなければ意味がない / cerebrium: サーバレスGPU + 推論に特化したサービス" 2023

リンク

ABCIの大規模言語モデル分散学習ハッカソンを振り返る

７月6日〜14日の9日間、ABCIの主催で第1回大規模言語モデル分散学習ハッカソンが開催されました。自分はいいだしっぺ兼チューターとして参加したのですが、今回のイベントは個人的な学びも多かったし、なにより楽しかったので、忘れないうちに振り返っておこうと思います。いいだしっぺというのは、3月に上記の tweet をしたら NVIDIA の @sfuruyaz さんが拾って諸々進めてくれた、という話です。自分はイベント内容の案をだしたり、技術検証やサンプルプログラムを作成したりしました。イベント概要イベント概要は以下の通りです期間: 2023/07/06 - 2023/07/14 （9日間）場所: オンライン（初日・最終日はオフラインとのハイブリッド開催）参加数: 20チーム提供リソース: Vノード（1000 ABCIポイント）サポート: チューター（言語モデルや機械学

sh19910711 2023/08/16

"チーム毎に1000ポイント付与 + V100を4000時間利用できる / NVIDIAの中の人に分散処理のあれこれを質問できて、一緒に問題解決に取り組んでもらえる機会はなかなかない"

リンク

MLC-LLM で Vulkan など Graphics API + C/C++ で LLM が流行ってほしいメモ

いきなり彗星のごとく(?)現れた MLC-LLM Vicuna-7b が iPhone でオンデバイスでうごく... いいね! とりまで cli サンプル試せます. 3090(160W powerlimit) での結果 cli サンプルでは word 単位での streamling ではないため, tokens/sec 推測しずらいですが, RWKV ほど爆速というわけではないものの, そこそこ実用的な速度にはできそう? あと日本語はダメダメでした. Tokenizer 書き直さないとダメかも? GPU メモリ消費は 3.5 GB くらいでした. しくみ Apache TVM をベースにしています. TVM, なんかあんまり流行って無い気もしていましたが, 着実に発展していたのですね. (MLIR はどうなるじゃろか... https://qiita.com/syoyo/it ems/6d

sh19910711 2023/05/04

"MLC-LLM: Vicuna-7b が iPhone でオンデバイスでうごく / 日本語はダメダメでした. Tokenizer 書き直さないとダメかも / Apache TVM をベース + あんまり流行って無い気もしていましたが, 着実に発展していた"

リンク

実験用 GPU 環境をどう準備したらいい？（非情報系が機械学習を使う研究をしたいとき） - 木曜不足

深層学習が著しく発展し、今まで人間にしかできないと思われていたことができるようになってきました。そのおかげで、今まで機械学習と縁が薄かった分野でも、機械学習を使った研究がしたいという声が上がるようになっています。前々回は、それを裏付けるように非情報系の学生さんが機械学習を使った研究をしたいという応募がサイボウズ・ラボユースに増えているという話、前回はいままで機械学習や深層学習に縁のなかった人が何から勉強したらいいかという話を書きました。今回はその続き、研究に必要な実験用 PC 環境をどのように準備したらいいかというお話です。深層学習の実験をするには、十分な性能の GPU を積んだ PC が必要です。今どきの機械学習関連の研究室では、院生有志がメンテナンスしている GPU のクラスタがあって、それを使わせてもらえることが期待できます。自分用の PC を手配する場合も、研究テーマに適し

sh19910711 2022/11/13

"非情報系の学生さんが機械学習を使った研究をしたいという応募がサイボウズ・ラボユースに増えている / NVIDIA 公式ブログの記事: ほかのソフトウェアではあまり問題にならないような機械学習特有の諸問題について"

リンク

GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog

1. はじめに 2. 並列学習環境を調べる並列学習方法を調べるネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築するコンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リポジトリをクローン ssh/config を作成 authorized_keys を作成 hostfile を作成 Docker を build 6. つまずいたポイント学習途中に出力したファイルを再利用するのでNFSが必要に NFSのリージョンを間違えて速度が出なかった大量のGPUの調達はリソースを確保できないかもしれないので要サポート確認コンパクトプレースメントポリシーは邪魔になりそうだった 7. 結果 8. まとめ

sh19910711 2022/10/02

GCPでやったのか👀 / "DeepSpeed が優秀過ぎてちょっと環境整えるだけ / GCP側もgVNICやFast Socket等のプリセット・環境が整備 / リージョンによっては A100 が無いリージョンがあったり、ゾーンによっても利用できる量が異なり"

リンク

DeepStream プラグイン入門1 〜サンプルプラグインを実行してみる〜 - 技ラボ

DeepStream をきちんと使えるようになりたい！！ということで、オリジナルのプラグインを作ってストリーム処理に組み込むことを最終目標に DeepStream の勉強をしてみました。まず今回は手始めに配布されているサンプルのプラグインを実行し動作確認、さらにそこから『何もしない』サンプルプラグインを作ってみます。 DeepStreamとは？ NVIDIA DeepStream SDK NVIDIA が提供する IVA (Intelligent Video Analytics) 向けのライブラリ。GPU を使って高速に映像の入出力、物体検出等を行うことができます。マルチメディアフレームワーク「GStreamer」がベースとなっていて、GStreamer のプラグインと合わせて使用することも可能です。環境本シリーズ記事では、以下の環境で動作確認を行ってます。 Jetson Nan

sh19910711 2022/07/11

2021 / "DeepStream: NVIDIA が提供する IVA (Intelligent Video Analytics) 向けのライブラリ。GPU を使って高速に映像の入出力、物体検出等を行うことができます"

リンク

オセロを速く解く話/solveothello

京大マイコンクラブの春合宿で、オセロを速く「解く」ことについて特化して話したスライドです。

sh19910711 2022/03/21

"オセロ専用回路: OthelloソルバーとFPGAは相性が良い > FPGAにとって苦手な演算がいらない + 乗算器の数も余裕がある + ビット演算などが得意"

リンク

WebGLで暴力的な並列ソートに挑戦する

日照時間足りてますか？やまだです。 KLab Advent Calender 11日目の記事です。最近WebGLで実装できるちょっと強そうなソートアルゴリズムを知ったので書いてみました。 WebGLよくわかんないやーって人も雰囲気だけでも伝われば幸いです。強さの秘訣 WebGLは3Dを描くAPIとして著名ですが、2Dはもちろん、工夫次第で汎用計算（GPGPU）にも応用できます。 WebGLでの演算は通常のJavaScript演算とは違い、GPUを使った並列な浮動小数点演算を可能とします。そして、ソートアルゴリズムの中には計算量こそ地味なものの、並列処理が可能なものがあります。そのうちの一つがバイトニックソートです。 GPUを使い、物量で計算する暴力的な並列ソートをやっていきましょう。バイトニックソートとは前述のとおり、並列処理が可能なソートアルゴリズムです。配列を小さい領域に

sh19910711 2020/03/20

バイトニックソート

リンク

趣味のTensorFlowのハードウェアとGPUクラウド事情 - Qiita

目次自分がやっていること、カジュアルディープラーニング TensorFlowで遊ぶために必要なハードウェア自前PC編クラウドサービス編自分がやっていること、カジュアルディープラーニングもともとはカーネル主成分分析系統の理論で顔画像認識とかやったり諸々のコンピュータビジョンのあれこれでお仕事してたりしてました。最近はコンピュータビジョンのお仕事からは離れてフツーの開発をしています。趣味でプログラミングもしていて今年はTensorFlowを始めました。TensorFlow将棋ソフト開発日誌目次という形で開発の経過を書いています。最近は自宅のPCの能力が不足気味（GTX 1080）でちょっと開発速度が低下気味。年内中に1手指したいのだけれどどうなることやら。こういうどう考えてもお金にならない完全に趣味なディープラーニングを自分は「カジュアルディープラーニング」と呼んでいます。デ

sh19910711 2017/05/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

*algorithmとGPUに関するsh19910711のブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス