単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ｜shi3z

テクノロジーカテゴリーの変更を依頼記事元:

note.com/shi3zblog

26 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

isrc 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、ベースはllama-7B／「どんな情報も入力できるマルチモーダルモデル」のプロトタイプ／ものすごくシンプルなのだ。

機械学習

2024/01/06 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ｜shi3z

お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。中... お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。中国のテンセントがとんでもないオープンソースをぶっ込んできた。 https://crypto-code.github.io/M2UGen-Demo/ 動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32GB一つで推論可能(CPUのRAMは49GB以上必要)どころか学習も可能。ホントかよ!! しかもしれっと日本語でも命令できるし。ほんとにテクノっぽい音楽が流れるなんかこの研究の名前はかなり控えめに「音楽理解できるマルチモーダルモデル」みたいに書いてあるんだけど、とんでもない。実際にはこれは「どんな情報も入力できるマルチモーダルモデル」のプロトタイプである。 MU2GENのモデル構造図音声、画像、動画とい

ブックマークしたユーザー

torisanda2024/01/22
akishin9992024/01/07
pascal2562024/01/06
lilpacy2024/01/06
shodai2024/01/06
nekopunch2222024/01/06
ara382024/01/06
dhesusan46492024/01/06
plank2024/01/06
shounenA2024/01/06
share_stream2024/01/06
marton2024/01/06
behuckleberry022024/01/06
isrc2024/01/06
yuiseki2024/01/05

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx