世界では今、インプットされたデータから文章や画像などを自動で作り出す「生成AI」の技術が急速に進化しています。こうした中、中国では「生成AI」を使って亡くなった人を「復活」させるビジネスが登場し、論争を…
大規模言語モデルの能力を活かすことで高精度な音声認識を実現 rinna株式会社(本社:東京都渋谷区/代表取締役:ジャン"クリフ"チェン、以下rinna)は、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表します。 ■ rinnaのモデル公開活動 AI技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあります。このような飛躍的な進展は、大量のデータから事前学習された基盤モデルを上手く活用することで達成されています。特にテキストを処理するための基盤モデルである大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し多くのサービスで利用されるようになりました。テキストだけでなく画像や音声の処理においても、タスクに適した基盤モデルを活用することで、高い性能が達成できることが報告
Our natively multimodal AI model Gemini is capable of reasoning across text, images, audio, video and code. Here are favorite moments with Gemini Learn more and try the model: https://deepmind.google/gemini Explore Gemini: https://goo.gle/how-its-made-gemini For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity. Subscribe to our Channel: h
はじめまして、CyberAgent AI Lab Intaractive Agentチームの技術研究員の大平といいます。 この記事は CyberAgent Developers Advent Calendar 2023 1日目の記事です。 ChatGPTの登場以降、自然なチャット対話はAPI呼び出しだけで簡単に実装できるようになりました。 更に人間のようなインタラクションを実現しようとすれば、音声対話に発展させたいと思う方も多いかと思われます。 しかし実際にLLMを使って音声対話システムを構築してみると、そのレスポンスの遅さに不満を感じることになります。 この記事ではよくあるシンプルなLLMを用いた音声対話に対していくつかの工夫を施し、その応答速度をできるだけ早めてみようという試みになります。 よくある構成として、以下を用います。 音声認識 Google STT LLM ChatGPT 3
A Large Language Model That Can Speak and Listen |paper| Paul Rubenstein*, Chulayuth Asawaroengchai*, Duc Dung Nguyen*, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く