「GPT-4」を上回る性能で、グラフィカルな文書を読解するLLM技術:NTTの「tsuzumi」にも採用 NTTは2024年4月12日、大規模言語モデル(LLM)の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解/応答する「視覚読解技術」を実現したと発表した。 NTTは2024年4月12日、大規模言語モデル(LLM)の活用により、文書に含まれる図表やグラフなども含めて理解し、自然言語での指示に従って読解/応答する「視覚読解技術」を実現したと発表した。今後、カスタマーサポート業務の補助や自然言語指示による作業の自動化など、オフィスDX(デジタルトランスフォーメーション)の推進への貢献が期待できる。 視覚読解技術とは、実世界の文書を視覚的に(画像として)理解し読解する技術だ。今日では、図表やグラフ、文字の見た目、レイアウトなどの視覚情報を用いた文書が多く扱