[B! コンピュータビジョン][Apple] misshikiのブックマーク

misshiki id:misshiki

コンピュータビジョンとAppleに関するmisshikiのブックマーク (2)

アップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮複数（30億、70億、300億）のパラメータサイズを備えるMM1は、10億以上の画像および30兆語以上のテキスト、GitHubのコード例などの多様なデータセットを用い、教師なし学習と教師あり学習を組み合わせる独自の方法で学習され、多様なタスクに対して高い精度を示すという。各種ベンチマークの結果によると、30億および70億パラメーターのモデルはそれぞれのモデルサイズにおいて過去最高を記録。特にVQAv2（画像理解）、TextVQA（画像内のテキスト情報）、ScienceQA（科学知識）、MMBench（マルチモーダル）、MathVista（数学）などの
misshiki 2024/03/19
“画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。”

Apple

人工知能

自然言語処理

コンピュータビジョン
リンク
Appleの研究者、マルチモーダルLLM「MM1」の論文発表　視覚タスクではGPT-4Vに匹敵
MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts（MoE）や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。視覚タスクでは、米OpenAIの「GPT-4V」や米Googleの「Gemini」に匹敵している。 MM1のアーキテクチャなどは公開されていない。Appleの研究者らは論文の結論を「ここで得られた知見が、コミュニティが特定の単一モデルアーキテクチャやデータ戦略を超えて、強力なモデルを構築するのに役立つことを願っている」と結んだ。 Appleの研究者らは、昨年12月ごろから複数のLLM関連の論文を発表してきた。 Appleのティム・クックCEOは2月の業績発表で、年内にAI分
misshiki 2024/03/18
“米Appleの研究者らは3月14日（現地時間）、独自開発のマルチモーダルLLM（MLLM）「MM1」の論文を発表した。画像へのキャプション追加や画像とテキストを使った質問への回答、自然言語推論を行えるよう設計したとしている

Apple

自然言語処理

コンピュータビジョン
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx