2022年2月9日(水)- 11日(金)第6回 統計・機械学習若手シンポジウム での講演資料です。 CNNの画像認識におけるブレークスルーから10年、Transformerの機械翻訳におけるブレークスルーから5年。異なる様態のデータに対する機械学習応用の相互参入障壁が大きく緩和された現在、画像情報と言語情報による理解や変換・生成を目的とするVision and Languageは、その周辺分野も巻き込みながら勢いを増している研究分野です。本講演では、Vision and Languageと呼ばれる各研究課題の生い立ちや発展、そして今後の課題について概観します。 いままでもビジョン&ランゲージの講演は何度とやらせて頂いておりますが、今回少し気合を入れて更新しました。ビジョン&ランゲージは本当にタスクが色々増えて来て収集が付かない状況ですが、90分の講演で自分が考え得る限りでは最大のカバレッジ