(c)MONEYTODAY 【03月08日 KOREA WAVE】米オープンAI社は2日(現地時間)、音声テキスト変換モデルの「ウィスパー」(Whisper)APIを公開した。人工知能(AI)が人の言葉を理解し、適切な答えを出せるようAIコールセンターが一歩近づいた形だ。 オープンAIが昨年9月に公開したウィスパーは、ウェブで収集した68万時間の多言語やマルチタスクデータで学習した自動音声認識(ASR)システムだ。様々な言語の音声を認識したり、これを英語に翻訳してくれる。当時オープンAIは「大規模なデータセットをベースにイントネーションや周辺の騒音に対する堅牢性(robustness)が向上した。データセットの3分の1は非英語データだ」と説明した。 ウィスパーAPIは毎分0.006ドルで、さまざまなファイル形式(m4a・mp3・mp4・mpeg・mpga・wav・webm)に適用できる。オ
![チャットGPT、音声も聞き取る…韓国で英会話学習に急速に普及](https://cdn-ak-scissors.b.st-hatena.com/image/square/4019edf5f75500e238262e57fe92393f69ebb819/height=288;version=1;width=512/https%3A%2F%2Fafpbb.ismcdn.jp%2Fmwimgs%2F8%2F6%2F400w%2Fimg_861ea6d46d424a20bd17a9c664e17fe065940.jpg)