★AIDB会員限定Discordを開設いたしました! 会員登録/ログインの上、マイページをご覧ください。 Geminiは、テキストと画像を組み合わせたマルチモーダル推論に特化したLLMです。開発元であるGoogleは、Geminiは人間のような柔軟性と理解力を持つことを目指す存在だとしています。 本記事では、様々な常識推論タスクを通じてGeminiの性能を評価した研究を紹介します。 Geminiは登場からまだ間もなく、実験結果は貴重なデータかもしれません。 関連研究:Googleが「人間の専門家レベルを超える最初のモデル」とする『Gemini』発表、GPT-4を凌駕 参照論文情報 タイトル:Gemini in Reasoning: Unveiling Commonsense in Multimodal Large Language Models 著者:Yuqing Wang, Yun Zh