[B! 音声][LLM] stealthinuのブックマーク

「パパ、ママ、会いに来たよ」AIで死者を“復活” 中国で新ビジネスが論争に「冒とく」か「心の救済」か | TBS NEWS DIG

世界では今、インプットされたデータから文章や画像などを自動で作り出す「生成AI」の技術が急速に進化しています。こうした中、中国では「生成AI」を使って亡くなった人を「復活」させるビジネスが登場し、論争を…

stealthinu 2024/04/19

これまだ動画だけどすぐインタラクティブに出来るようになる。現代版のイタコ。リアルに「哲学的ゾンビ」の問題になる。

リンク

GitHub - nu-dialogue/real-persona-chat: RealPersonaChat: A Realistic Persona Chat Corpus with Interlocutors' Own Personalities

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

stealthinu 2024/03/13

リアルな会話の話者IDとそのペルソナ付きコーパス。単に色んな人の音声データというだけではなく続きの会話になっているので、どんな属性の人がどんな話をしたかという情報も取れる。すげえ。

リンク

rinna、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を公開｜rinna株式会社

大規模言語モデルの能力を活かすことで高精度な音声認識を実現 rinna株式会社（本社：東京都渋谷区/代表取締役：ジャン"クリフ"チェン、以下rinna）は、大規模言語モデルGPTを活用した日本語音声認識モデル「Nue ASR」を開発し、商用利用可能なライセンスで公開したことを発表します。 ■ rinnaのモデル公開活動 AI 技術の進歩により、従来では困難であった処理もAIで実現可能となりつつあります。このような飛躍的な進展は、大量のデータから事前学習された基盤モデルを上手く活用することで達成されています。特にテキストを処理するための基盤モデルである大規模言語モデルGPTは、自然言語による人間とコンピュータのインターフェースを実現し多くのサービスで利用されるようになりました。テキストだけでなく画像や音声の処理においても、タスクに適した基盤モデルを活用することで、高い性能が達成できることが報告

stealthinu 2023/12/12

rinnaの音声認識モデル。whisper-largeと比べてもめちゃ性能高い。LLMと組ませて日本語認識に特化させてるのが大きそう。

リンク

The capabilities of multimodal AI | Gemini Demo

Our natively multimodal AI model Gemini is capable of reasoning across text, images, audio, video and code. Here are favorite moments with Gemini Learn more and try the model: https://deepmind.google/gemini Explore Gemini: https://goo.gle/how-its-made-gemini For the purposes of this demo, latency has been reduced and Gemini outputs have been shortened for brevity. Subscribe to our Channel: h

stealthinu 2023/12/07

これは…ほんとにこのレベル出てるならまた世界かわるわ。LLMのUIで一線超すには音声や動画のストリーミング入出力が必要だった、ということなんだな。スマホの次を取りに来てる。

リンク

LLM音声対話システムの応答を高速化してみた | CyberAgent Developers Blog

はじめまして、CyberAgent AI Lab　Intaractive Agentチームの技術研究員の大平といいます。この記事は CyberAgent Developers Advent Calendar 2023 1日目の記事です。 ChatGPTの登場以降、自然なチャット対話はAPI呼び出しだけで簡単に実装できるようになりました。更に人間のようなインタラクションを実現しようとすれば、音声対話に発展させたいと思う方も多いかと思われます。しかし実際にLLMを使って音声対話システムを構築してみると、そのレスポンスの遅さに不満を感じることになります。この記事ではよくあるシンプルなLLMを用いた音声対話に対していくつかの工夫を施し、その応答速度をできるだけ早めてみようという試みになります。よくある構成として、以下を用います。音声認識　 Google STT LLM　ChatGPT 3

stealthinu 2023/12/01

音声でのリアルタイム応答を速くした手法の説明。streamで途中から音声化するのとLLM自体を速くするのとあたりで十分「人間並み」の速度で返せてる。

リンク

AudioPaLM

A Large Language Model That Can Speak and Listen |paper| Paul Rubenstein*, Chulayuth Asawaroengchai*, Duc Dung Nguyen*, Ankur Bapna, Zalán Borsos, Félix de Chaumont Quitry, Peter Chen, Dalia El Badawy, Wei Han, Eugene Kharitonov, Hannah Muckenhirn, Dirk Padfield, James Qin, Danny Rozenberg, Tara Sainath, Johan Schalkwyk, Matt Sharifi, Michelle Tadmor Ramanovich, Marco Tagliasacchi, Alexandru Tudor

stealthinu 2023/06/26

マルチモーダルでで音声から音声への直接翻訳を行う。多国語対応だが既にWhisperあるしなあ。本題とずれるが日本語が…　Low-resource扱いになっててしかもいくつか翻訳失敗してる。別の意味でヤバい。

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

音声とLLMに関するstealthinuのブックマーク (6)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス