このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 最近の研究では、スマートフォンのタスク自動化に着目している。方法の一つとして、画面画像をテキストで説明し、大規模言語モデル(LLM)で処理するアプローチがある。今回は、大規模マルチモーダルモデル(LMM)の効果を生かし、GPT-4Vを使用したゼロショットのスマートフォンGUIナビゲーションシステム「MM-Navigator」を提案する。 MM-Navigatorは、人間のユーザーと同様にスマートフォンの画面と対話し、与えられた指示を遂行するための次の行動を決定できる。 LMMを使用したGUIナビゲーションには、2つの主要な課題がある。これら