日本電信電話株式会社(本社:東京都千代田区、代表取締役社長:島田 明、以下「NTT」)は、複数の話者や話題が混在した音声信号から、話している内容が、画像や音声などで指定した「意味」に適合する音声信号を分離抽出する技術を考案しました(図1)。本技術は、複数の音声が混在した信号から、話されている内容に基づいて目的の音声を取り出すことができる世界初の技術であり、これまでの手法で用いられていた音の到来方向などに依存することなく適用できるという利点があります。 本成果は、6月1日より開催される、コミュニケーション科学基礎研究所オープンハウス2023に出展いたします。 1.研究の背景 近年、音声認識や、音声情報からの情報抽出の技術が盛んに活用されるようになっています。私たち人間は、にぎやかな場所であっても、話している人や話題に注意を向けて話を聞き取ることができますが、コンピュータにとっては、目的とする