OpenAIの開発したGPT-4などの基盤モデルは、多様なタスクにおいて高い能力を発揮しています。一方で深い専門知識が試される領域においては、専門知識でトレーニングされた特化型モデルと比較して、汎用モデルの性能は劣るだろうと考えられてきました。しかし、Microsoftの研究者たちが最近行った実験によると、その前提には一考の余地がありそうです。 研究では、医学分野において、特殊なトレーニングを施されていない(と考えられている)GPT-4が、プロンプトの工夫を通して、専門モデルと同等あるいはそれ以上の成績を収めることが示唆されました。研究結果は、単に基盤モデルの性能を評価するだけでなく、プロンプトの工夫がAIの能力をいかに引き出すかという視点を提供しています。 本記事では実験結果を中心に報告内容を見ていきます。 参照論文情報 タイトル:Can Generalist Foundation Mo