並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 593件

新着順 人気順

音声の検索結果1 - 40 件 / 593件

  • zenncast - 技術トレンドをAIがラジオに変換

    Zennのトレンド記事をまとめてAIがラジオをつくります。毎朝7時に更新。 お便りも募集中。送っていただいたお便りはAIパーソナリティが読み上げます。

      zenncast - 技術トレンドをAIがラジオに変換
    • AIによる「声」の復活とその脅威

      The Atlantic誌に「外国語教育の終焉」(The End of Foreign-Language Education)という記事が載っていた。 この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試しに作ってみるとなんだか不気味ですらある。自分であって自分でない、確かにシミュラクルだ。 とすると外国語を学ぶモチベーションが落ちるのもやむを得ないところで、記事によれば米国の大学における英語以外の言語コースの総登録者数は、2009年から2021年にかけて29.3%減少したという。オーストラリアでは2021年の高校3年生の8.6%しか外国語を学んでおらず、韓国やニュージーランドでも、外国語学科を閉鎖する大学が相次いでいるそうだ。逆に非英語圏では、

        AIによる「声」の復活とその脅威
      • ChatGPTと“声”で会話する方法解説書が発売 ~ブラウザーやAlexaにも組み込める!/『ChatGPTと音声で会話する3つの方法』発売【Book Watch/ニュース】

          ChatGPTと“声”で会話する方法解説書が発売 ~ブラウザーやAlexaにも組み込める!/『ChatGPTと音声で会話する3つの方法』発売【Book Watch/ニュース】
        • 最新のAI声質変換技術を採用したボイチェン「Voidol3R」

            最新のAI声質変換技術を採用したボイチェン「Voidol3R」
          • 「パパ、ママ、会いに来たよ」AIで死者を“復活” 中国で新ビジネスが論争に 「冒とく」か「心の救済」か | TBS NEWS DIG

            世界では今、インプットされたデータから文章や画像などを自動で作り出す「生成AI」の技術が急速に進化しています。こうした中、中国では「生成AI」を使って亡くなった人を「復活」させるビジネスが登場し、論争を…

              「パパ、ママ、会いに来たよ」AIで死者を“復活” 中国で新ビジネスが論争に 「冒とく」か「心の救済」か | TBS NEWS DIG
            • Vocoflex | Dreamtonics株式会社

              Vocoflexは、Dreamtonicsの音声モーフィング技術研究により生まれた 実験的な製品です。

                Vocoflex | Dreamtonics株式会社
              • kotoba-tech/kotoba-whisper-v1.0 · Hugging Face

                ","eos_token":"<|endoftext|>","pad_token":"<|endoftext|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":1177,"downloadsAllTime":1177,"id":"kotoba-tech/kotoba-whisper-v1.0","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-04-22T01:56:19.000Z","likes":27,"pipeline_tag":"automatic-speech-recognition","library_name":"transformers","librariesO

                  kotoba-tech/kotoba-whisper-v1.0 · Hugging Face
                • AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載|DTMステーション

                  昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか?」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。 文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハー

                    AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載|DTMステーション
                  • Gemini API でラジオ番組の音声からの文字起こしを試す|npaka

                    「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

                      Gemini API でラジオ番組の音声からの文字起こしを試す|npaka
                    • Suno

                      Suno is building a future where anyone can make great music.

                        Suno
                      • AI作曲サービスの新星「Udio」が誰でも利用可能に。Sunoを超えたか、試してみた(CloseBox) | テクノエッジ TechnoEdge

                        Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。

                          AI作曲サービスの新星「Udio」が誰でも利用可能に。Sunoを超えたか、試してみた(CloseBox) | テクノエッジ TechnoEdge
                        • 音声を盗んだりアーティストを置き換えたりする「略奪的AI」を非難する書簡にビリー・アイリッシュやスティーヴィー・ワンダーなど200人以上の著名人が署名

                          近年ではAIの発展により、人間のアーティストの歌声などを学習して新たな楽曲を作り出す技術が登場しています。アーティストの権利団体「Artist Rights Alliance(ARA)」は2024年4月2日、「人間のアーティストの権利を侵害し、音楽の価値を下げかねないAIの使用は控えるべき」との書簡を発表しました。この書簡には、ビリー・アイリッシュ氏やスティーヴィー・ワンダー氏など、200名以上の著名アーティストが署名しています。 200+ Artists Urge Tech Platforms: Stop Devaluing Music - Artist Rights Alliance - Medium https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb

                            音声を盗んだりアーティストを置き換えたりする「略奪的AI」を非難する書簡にビリー・アイリッシュやスティーヴィー・ワンダーなど200人以上の著名人が署名
                          • 「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】

                              「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】
                            • ニッポン放送、AMステレオ放送をモノラルに。「保守・維持が困難」

                                ニッポン放送、AMステレオ放送をモノラルに。「保守・維持が困難」
                              • AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール

                                  AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール
                                • AIボイチェンアプリ「Voidol」が無償化 ~誰でも美少女・イケメンボイスになれる!/クリムゾンテクノロジーが初代「Voidol」と「Voidol Plugin Package」を無料公開中

                                    AIボイチェンアプリ「Voidol」が無償化 ~誰でも美少女・イケメンボイスになれる!/クリムゾンテクノロジーが初代「Voidol」と「Voidol Plugin Package」を無料公開中
                                  • 顔も名前も知らなかったコンビが異例の1万DL達成!? 同人音声作品『カス嘘お姉さんASMR』の嘘じゃない誕生秘話

                                    こんにちは。ASMR作品を聴きまくった結果、風間くん※みたいなザコ耳になってしまったライター、シュゴウです。どちらかというと、右耳が弱いです。 ※編集部注:蛇足ですが『クレヨンしんちゃん』の風間くん ちなみにASMR(エー・エス・エム・アール。Autonomous Sensory Meridian Responseの略)とは、簡単に言うと「なんかゾワゾワする立体的な音声」のこと。 最近はASMR動画がYouTubeにたくさん投稿されていますし、同人作品販売サイト「DLsite」では、同人サークルが制作したASMR作品がいろいろと販売されています。 そんな、一部の人は日常的に聴くけど、なじみのない人は全然知らないであろうASMR作品ですが、最近ネットで猛烈に話題になったASMR作品があるのをご存じでしょうか? それがこちら、『ダウナー系お姉さんに毎日カスの嘘を流し込まれる音声』(以下、カス嘘

                                      顔も名前も知らなかったコンビが異例の1万DL達成!? 同人音声作品『カス嘘お姉さんASMR』の嘘じゃない誕生秘話
                                    • AIボイチェンソフト「Voidol 1」が無償化

                                        AIボイチェンソフト「Voidol 1」が無償化
                                      • ファンタジーで美しいエルフ語を作る方法:人工言語の印象を決める要素が判明! - ナゾロジー

                                        異世界の言語学です。 ドイツのフンボルト大学ベルリン(HU Berlin)で行われた研究によって、ファンタジーやSFの世界で使われている人工言語のどんな要素が、美しさや邪悪さなどの音声的な印象に繋がっているかが調べられました。 調査対象となった人工言語には、有名なフィクション作品で創作された優雅な響きを持つエルフ語や醜く凶悪なオークたちのオーク語、理知的な異星人たちのバルカン語、荒々しい戦闘民族の使うクリンゴン語など12種類が含まれています。 本研究は、ファンタジーやSFの世界が好きな人たちならば、一度は考えたことがある異世界言語の音声学的な魅力を分析したものと言えるでしょう。 研究内容の詳細は『Language and Speech』にて公開されています。 From Star Trek’s Klingon to Tolkien’s Orkish: Unraveling the audit

                                          ファンタジーで美しいエルフ語を作る方法:人工言語の印象を決める要素が判明! - ナゾロジー
                                        • Shinnosuke Takamichi (高道 慎之介) - 東京大学を離れるにあたって

                                          博士課程当時,研究職に就くつもりはありませんでした.理由は2つ. 1つは,研究より教育が好きなこと.保育士や塾講師をやっていたこともあり,子どもたちが喜んでくれる職に就きたかったのです.今も,教育のコンテンツとして研究をやっています. もう1つは,単純に研究の才能を持たなかったこと.悲しい.研究をやっていく上では,様々な能力が必要とされます.いわゆる研究活動,広報活動,資金繰り活動あたりですかね.どれをとっても,まあ人並みの域を越えてない自覚がありました. D3当時,博士論文研究を辞めて自由に研究している時期でした.補足すると,D2終了時点で学位取得の見通しができたので,最後の1年は博士論文の研究をせず,自由研究で遊んでいました.で,ゆったり就職活動をやっていました.以下,その履歴です. 学振PD: (書類が面倒で) 出さなかった.結果論で就職できましたが,やっておくべきだった 企業・研究

                                          • 『オーディオ愛好者必見!グランドループがもたらすサウンドのクリアさ』

                                            ミニツーストア(mini2x)トレーディングカードサプライ、ゲームグッズ、コレクショングッズのオリジナル製品を卸し販売しております。当店だけのオリジナル商品(mini2xブランド)を販売中!www.sw-inc.net ◆特別お得なセール 開催中です!!◆ プレゼント選びに迷ったらこれ! ノイズ除去アイテムの魅力を解説♪♪ 本体サイズ:約 6.5×1.8cm ケーブルの長さ:約16.5cm ※誤差がある場合がございます。 重さ:約 26g 【小さくて便利】 小さくて便利なこのガジェットは、場所を取らず、持ち運びも簡単です。 【使いやすい】 このノイズフィルタプラグアンドプレイ、充電を必要とせず、バッテリーを内蔵していません。 【製品の特徴】 現在のサウンドフィルターを接続した後、クリアで純粋な音楽を実現します。 オーディオソースが再生機器に接続されているときに発生する可能性のあるグランドル

                                              『オーディオ愛好者必見!グランドループがもたらすサウンドのクリアさ』
                                            • Adobeが生成AI搭載の音楽版Photoshop「Project Music GenAI Control」を発表

                                              Adobeが生成AI搭載の音楽生成および編集ソフトウェア「Project Music GenAI Control」を発表しました。Project Music GenAI Controlを使うことで、ユーザーはテキストプロンプトから音楽を生成し、そのまま生成した音楽を使って音声を編集することができるとのことです。 Here’s how generative AI is about to revolutionize audio creation and editing | Adobe Blog https://blog.adobe.com/en/publish/2024/02/28/adobe-research-audio-creation-editing Adobe announces new prototype AI tool for creating and editing audio

                                                Adobeが生成AI搭載の音楽版Photoshop「Project Music GenAI Control」を発表
                                              • 面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー

                                                ウェブサイトにログインしたり問い合わせフォームを送信したりすると、「私はロボットではありません」といった文言のボット排除システム「CAPTCHA」に遭遇しがちです。CAPTCHAでは「バスを含む画像をクリック」などの問題が出題されますが、「バスの画像を正しく選択しているはずなのに人間と認めてもらえない!」という事態が頻繁に発生します。無料のブラウザ拡張機能「Buster」を使えば、ワンクリックでCAPTCHAを突破できるとのことなので、実際に使ってみました。 GitHub - dessant/buster: Captcha solver extension for humans, available for Chrome, Edge and Firefox https://github.com/dessant/buster BusterはChromeやFirefox、Edge、Operaな

                                                  面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー
                                                • 動画だけじゃない。効果音も作れるAIが近日登場

                                                  動画だけじゃない。効果音も作れるAIが近日登場2024.02.25 08:006,481 岡本玄介 何から何までAIで完成しちゃう。 文章入力だけで超リアルな動画を生成できる、OpenAIの新AIツール「Sora」。現実世界で撮影したようなクオリティーなので、勘違いする人もたくさん出てきそう…というレベルです。 「Sora」は映像を作るツールとしては凄まじい性能ですが、そこにはまだ音がありません。そこで開発されているのが、「だったら効果音もAIで作っちゃえばイイじゃん?」というもの。 「AI Sound Effects」誕生ElevenLabsの「AI Sound Effects」により、OpenAIが発表した動画にAI生成の音が追加されました。 Video: ElevenLabs/YouTube足音やロボットの機械音、街の喧騒や雪がワサワサする音、タイピング音もこの通り。ナレーションや台

                                                    動画だけじゃない。効果音も作れるAIが近日登場
                                                  • 音声会話型おしゃべりAIアプリ  Cotomo(コトモ)

                                                    Cotomo(コトモ)は毎日のおしゃべりから、あなたのことを覚えてより身近な話し相手になってくれる音声会話型おしゃべりAIアプリです。

                                                      音声会話型おしゃべりAIアプリ  Cotomo(コトモ)
                                                    • 音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場

                                                      音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。 AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができるという新しいマルチモーダルLLMがAnyGPTです。AnyGPTはデータレベルの前処理のみに依存しており、新しい言語を組み込むのと同様に、新しいモダリティのLLMへのシームレスな統合を促進することが可能。マルチモーダルアライメントの事前トレーニング用に、マルチモーダルテキスト中心のデータセットを構築することで、生成モデルを利用して大規模な「Any-to-Any」(任意のデータ形式から任意のデータ形式に出力できる)

                                                        音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場
                                                      • 「面倒なことはChatGPTにやらせよう」の全プロンプトを実行した配信のリンクを整理しました|カレーちゃん

                                                        Youtubeで配信しながら全プロンプトを実行しましたので、各節へのリンクを整理しました。時間のところにYoutubeへのリンクになっています。 もしずれていたら、その時間まで移動して視聴ください。 はじめに (4:00) 1章 ChatGPTの基礎知識 (5:50) 2章 ChatGPTの基本的な使い方 (6:28) 3章 ChatGPT Plusのセットアップ (7:32) 4章 ファイルのアップロードとダウンロード (12:40)4.1 アップロード・ダウンロード (13:03) 4.2 扱うことができるファイル (16:02) 5章 繰り返し作業を一瞬で (16:55)5.1 文字列操作 (17:20) 5.2 正規表現でのパターンマッチ (25:36) →54ページの正規表現でできることの例の説明 (29:09) 5.3 ファイルの一括操作 (46:20) 5.4 QRコード作成

                                                          「面倒なことはChatGPTにやらせよう」の全プロンプトを実行した配信のリンクを整理しました|カレーちゃん
                                                        • AI Webcam - ゆーすけべー日記

                                                          AI Webcamについて紹介します。 AI Webcam AI WebcamはWebcamでとった写真についてAIが音声で返答してくれるというものです。AIのキャラクターというか音声は指定可能です。また文章のプロンプトでどのように返答するかも指定できます。 例えば、アメリカの若い女性「レイチェル」に自分の容姿を褒めてもらった時の大爆笑映像はこちらです。 元ネタ 実は元ネタがあって、Wes Bosというポドキャスターがやってたのを真似てます。コードも公開されているので、それを使わせてもらってます。みなさんもできます。 YAPCでLT あまりにも面白いので、先日のYAPC::HiroshimaのLTでこれを応用したものをデモしました。レイチェルだけを流しても尺が余るしインパクトにかけるので、YAPCっぽく「dankogai」さんと「papix」をAIにしました。 UIはこんな感じです。 例え

                                                            AI Webcam - ゆーすけべー日記
                                                          • AVマニアが「PS5」を“AV機器”として使ってみたら - 価格.comマガジン

                                                            新「PS5」はスリムなサイズとなったことが最大の特徴で、サイズは約358×216×96mm(横置き時の幅×奥行×高さ)と従来モデルと比較して30%以上小型化。重量も約3.2kg(ディスクドライブ搭載モデル)と18%も軽量となっている。採用する技術や機能はそのままで、内蔵するSSDストレージは1TBだ。 希望小売価格はディスクドライブ搭載モデルの「CFI-2000A01」が66,980円(税込)、ディスクドライブなしのデジタル・エディション「CFI-2000B01」が59,980円(税込)。昨今の物価高騰などの影響もありSSDストレージが増量されているとはいえ、従来よりも価格が高くなっているのは少し残念。 ただし、ディスクドライブの着脱が可能になり、デジタル・エディションを購入した後でもディスクドライブを購入して増設できるようになっているなど、改善が図られた点もある。なお、1台付属するDua

                                                              AVマニアが「PS5」を“AV機器”として使ってみたら - 価格.comマガジン
                                                            • LLMではなく「RMM」? シスコWebexの生成AI技術について詳しく聞いた

                                                              シスコが昨年(2023年)10月に米国で開催した「WebexOne 2023」において、「Webex」に搭載予定の3つのAI新技術/機能が発表された。Webexの音声/ビデオに高度な処理を適用するための生成AIモデル「Real-Time Media Model(RMM)」、生成AIでパケットロスによる音声の途切れ/劣化を防ぐ音声コーデック「Webex AI Codec」、LLM(大規模言語モデル)を使った自然言語によるAIアシスタント「Webex AI Assistant」だ。 AIアシスタント機能は他社のツールでも多く見られるが、音声/ビデオ処理に生成AI技術を適用するのは“シスコならでは”のアプローチでありユニークだ。そして実は、LLMの能力を引き出すうえでも、その基盤としてクリアな音声/ビデオが重要だという。 これらの最新技術がどんなものなのか、何を実現するのかについて、Webexの

                                                                LLMではなく「RMM」? シスコWebexの生成AI技術について詳しく聞いた
                                                              • (Style-)Bert-VITS2 JP-Extra (日本語特化版)について

                                                                宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 2024-02-01、音声合成(TTS)の中国発オープンソースのBert-VITS2の日本語特化版のBert-VITS2 JP-Extra がリリースされ、私が作っているそれの改造版 Style-Bert-VITS2 でもJP-Extra版を2/3に使えるようになりました(しました)。 実際にどんな感じかは オンラインのデモ 上で試せるのでぜひお試しください。 これにより日本語の発音やアクセントやイントネーション等の自然性が上がり、クリアさや学習を回していったときのガタツキが大きく減る傾向があります。英語と中国語で音声合成したいという需要がなく日本語しか使わない場合はJP-Extra版を使うことを強くおすすめします。 本稿では、以前の の記事で

                                                                  (Style-)Bert-VITS2 JP-Extra (日本語特化版)について
                                                                • 無料で300以上のAIアバターやAI音声を使って超絶簡単に動画作成ができる「Vidnoz AI」を使ってみたレビュー

                                                                  実写の人間のように見えるリアルなAIアバターや動く画像を作成し、日本語を含む140カ国語以上の言語に対応したAI音声読み上げ機能で自然にしゃべらせ、400種類以上あるテンプレートを使って手軽にそれっぽい動画を作れるAI動画作成ツールが「Vidnoz AI」です。通常の動画作成で必要になるカメラやマイクなどの専門機材や、出演者やナレーターといった専門スタッフを用意しなくても簡単かつ低コストで動画作成が可能になるということで、実際にどんな動画が作成できるのか使ってみました。 Vidnoz AI:無料AI動画作成ツール|AIで動画生成は1分でできる https://jp.vidnoz.com/?insur=jpgigazine Vidnoz AIでどんな動画を作成できるのかは、以下の動画を再生すれば一発でわかります。 Vidnoz AIでは専用アカウントがなくてもAIアバターの作成機能やAI音声

                                                                    無料で300以上のAIアバターやAI音声を使って超絶簡単に動画作成ができる「Vidnoz AI」を使ってみたレビュー
                                                                  • 【Python】pydub使ったら音声データの解析がめっちゃ簡単だった

                                                                    音声データをPythonで取り込んで表示したり解析したりしたいと思ったことはありませんか? この記事では音声データの入出力をPythonで行えるpydubのインストールと基本的な使用方法(音声データの読み込み)について説明します。 pydubで音声データファイルの入力ができれば,Numpyが提供する関数等を使用してPython上で音声データの解析・加工ができるようになります。 動作検証済み環境 macOS Catalina(10.15.7), python3.7.10, Jupyter Notebook, OpenCV 3.4.2 Pythonで音声データを読み込み,波形を描画する方法 pydubのインストール Pythonで音声データファイルの読み込みをするときは,pydubが便利です。 pydubは内部で ffmpegというライブラリを使用しますので,あらかじめインストールしておく必要

                                                                      【Python】pydub使ったら音声データの解析がめっちゃ簡単だった
                                                                    • litagin/moe-speech · Datasets at Hugging Face

                                                                      Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content

                                                                        litagin/moe-speech · Datasets at Hugging Face
                                                                      • 【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL

                                                                        【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。 このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを(AIが)読み上げることができるんです、、、! 参考:https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。 この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら

                                                                          【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL
                                                                        • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

                                                                          「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

                                                                            「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
                                                                          • GitHub - collabora/WhisperSpeech: An Open Source text-to-speech system built by inverting Whisper.

                                                                            If you have questions or you want to help you can find us in the #audio-generation channel on the LAION Discord server. An Open Source text-to-speech system built by inverting Whisper. Previously known as spear-tts-pytorch. We want this model to be like Stable Diffusion but for speech – both powerful and easily customizable. We are working only with properly licensed speech recordings and all the

                                                                              GitHub - collabora/WhisperSpeech: An Open Source text-to-speech system built by inverting Whisper.
                                                                            • Feedly + ChatGPTで、毎朝 自分専用のポッドキャストを自動生成する仕組みを作った|鈴木慎吾 / TSUMIKI INC.

                                                                              毎朝、デザイン系の英語記事を10件ほどおすすめしてくれるSlackボットです。このボットは現在も問題なく稼働し続けていますが、毎朝のニュースは文字で読むよりも音声として聞いたほうが負担が少なく続けられそうです。 そこで、このSlackボットを拡張して、毎朝デザインニュースのポッドキャストを自動生成する仕組みを作ることにしました。 成果物はじめに成果物について。完成したポッドキャストは毎朝SpotifyとApple Podcastで配信しています。 おおまかな処理の流れ開発前に想定した処理の流れは以下の通りです。 毎朝ポッドキャストが自動で配信される理想的なフロー自分はコンテンツ制作者ではなく、あくまでリスナーというスタンスを取りたいため、ワークフローに自分が介在しない完全自動化が理想です。 ところが、Sound Cloud APIの利用に必要なアプリケーション登録の受付が現在停止しているこ

                                                                                Feedly + ChatGPTで、毎朝 自分専用のポッドキャストを自動生成する仕組みを作った|鈴木慎吾 / TSUMIKI INC.
                                                                              • superwhisperでの音声入力を試す

                                                                                superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                                  superwhisperでの音声入力を試す
                                                                                • NTT、自分の分身AIを低コストで作る技術。自分の合成音声を簡単に作れる技術も

                                                                                    NTT、自分の分身AIを低コストで作る技術。自分の合成音声を簡単に作れる技術も