並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 597件

新着順 人気順

音声の検索結果201 - 240 件 / 597件

  • 面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー

    ウェブサイトにログインしたり問い合わせフォームを送信したりすると、「私はロボットではありません」といった文言のボット排除システム「CAPTCHA」に遭遇しがちです。CAPTCHAでは「バスを含む画像をクリック」などの問題が出題されますが、「バスの画像を正しく選択しているはずなのに人間と認めてもらえない!」という事態が頻繁に発生します。無料のブラウザ拡張機能「Buster」を使えば、ワンクリックでCAPTCHAを突破できるとのことなので、実際に使ってみました。 GitHub - dessant/buster: Captcha solver extension for humans, available for Chrome, Edge and Firefox https://github.com/dessant/buster BusterはChromeやFirefox、Edge、Operaな

      面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー
    • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

      画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

        無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
      • 「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024

        「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis

          「お尻洗って」と、ウォシュレットに話しかける時代が来た #CES2024
        • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

          OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

            音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
          • Introducing the ChatGPT app for iOS

            The ChatGPT app syncs your conversations, supports voice input, and brings our latest model improvements to your fingertips. Since the release of ChatGPT, we've heard from users that they love using ChatGPT on the go. Today, we’re launching the ChatGPT app for iOS. The ChatGPT app is free to use and syncs your history across devices. It also integrates Whisper, our open-source speech-recognition s

              Introducing the ChatGPT app for iOS
            • Clubhouse利用規約がユーザーに課した禁止事項 | クラウドサイン

              Twitterにも似たUIを持つ音声SNSアプリとしてブームになっている「Clubhouse(クラブハウス)」。テキストでも動画でもない「音声」というコンテンツに支えられるユーザー参加型プラットフォームだけに、ユーザーに課した禁止事項にもポイントがありそうです。 音声だけのSNS「Clubhouse」がブームに 通信も4Gから5Gへと進化し、Netflixの4K動画をはじめとするリッチなコンテンツがインターネット回線の中を行き交うようになりました。 そんな折、動画はおろかチャットのようなテキストすらも交わさず、会話・音声だけで交流するという一風変わったSNSサービス が、静かなブームとなりつつあります。それが「Clubhouse(クラブハウス)」です。 フォローしフォローされるという人とのつながり方は、twitterをそのまま踏襲 アプリから配信できるのは、リアルタイムで人と人がおしゃべり

                Clubhouse利用規約がユーザーに課した禁止事項 | クラウドサイン
              • AI Webcam - ゆーすけべー日記

                AI Webcamについて紹介します。 AI Webcam AI WebcamはWebcamでとった写真についてAIが音声で返答してくれるというものです。AIのキャラクターというか音声は指定可能です。また文章のプロンプトでどのように返答するかも指定できます。 例えば、アメリカの若い女性「レイチェル」に自分の容姿を褒めてもらった時の大爆笑映像はこちらです。 元ネタ 実は元ネタがあって、Wes Bosというポドキャスターがやってたのを真似てます。コードも公開されているので、それを使わせてもらってます。みなさんもできます。 YAPCでLT あまりにも面白いので、先日のYAPC::HiroshimaのLTでこれを応用したものをデモしました。レイチェルだけを流しても尺が余るしインパクトにかけるので、YAPCっぽく「dankogai」さんと「papix」をAIにしました。 UIはこんな感じです。 例え

                  AI Webcam - ゆーすけべー日記
                • VOICEPEAK 商用可能 6ナレーターセット

                  『VOICEPEAK』は、最新のAI音声合成技術を搭載し手軽に読み上げさせることが可能な入力文字読み上げソフトです。 お好みの文章や言葉をテキストで入力するだけで、簡単に高品質な音声が作成できます。 感情パラメータによる喜怒哀楽の表現にも対応しています。 「VOICEPEAK 商用可能 6ナレーターセット」には6人のナレーター(男性3名、女性3名)に加えて幼い「女の子」の声も収録されており、様々な声のバリエーションで読み上げが行えます。 個人ユーザー様のご利用はもちろん、教育機関の方や法人様など、様々な商用・業務用途でのご利用も可能です。 OSはWindows、macOS、Linuxに対応。 体験版もご用意しておりますので、ぜひお試しください。 ・女性1 声優:若守みづき 特徴:息づかいが感じられる、やや高めでやわらかく優しい声色です。 ・女性2 声優:野宮佳乃 特徴:落ち着いたトーンの声

                    VOICEPEAK 商用可能 6ナレーターセット
                  • SND: Crafted UI sound assets for UX developers

                    様々なインタラクションに対応したシンプルなサウンドキットです。すべての音を、音の最小要素である正弦波をベースにデザインしました。比較的再生能力の低いスピーカーでも再生可能な周波数帯域を中心に、できるだけシンプルに、小さなファイル容量でデザインされているので、ウェブ、アプリ、サイネージなど様々なシーンでご利用いただけます。 土屋泰洋 サウンドデザイナー/リサーチャー The simple sound kit for designing a variety of interactions. All sounds are designed based on sine waves; the smallest pure element of sound. It is designed to be as simple as possible with a small file size, focusi

                      SND: Crafted UI sound assets for UX developers
                    • Feedly + ChatGPTで、毎朝 自分専用のポッドキャストを自動生成する仕組みを作った|鈴木慎吾 / TSUMIKI INC.

                      毎朝、デザイン系の英語記事を10件ほどおすすめしてくれるSlackボットです。このボットは現在も問題なく稼働し続けていますが、毎朝のニュースは文字で読むよりも音声として聞いたほうが負担が少なく続けられそうです。 そこで、このSlackボットを拡張して、毎朝デザインニュースのポッドキャストを自動生成する仕組みを作ることにしました。 成果物はじめに成果物について。完成したポッドキャストは毎朝SpotifyとApple Podcastで配信しています。 おおまかな処理の流れ開発前に想定した処理の流れは以下の通りです。 毎朝ポッドキャストが自動で配信される理想的なフロー自分はコンテンツ制作者ではなく、あくまでリスナーというスタンスを取りたいため、ワークフローに自分が介在しない完全自動化が理想です。 ところが、Sound Cloud APIの利用に必要なアプリケーション登録の受付が現在停止しているこ

                        Feedly + ChatGPTで、毎朝 自分専用のポッドキャストを自動生成する仕組みを作った|鈴木慎吾 / TSUMIKI INC.
                      • いま話題の 「stand.fm」 のUIを全力でトレースしてみた!|kakeru tokunaga

                        皆さん stand.fmというアプリ/サービスを知っていますか? そうです。音声サービス界隈に彗星の如く現れたニューヒーローとも言えるサービスです。そのぐらい今、勢いがあると思います。 皆さんご存知の通り、音声コンテンツ市場は近年、googleやspotifyの参入やスマートスピーカーの普及に伴ってかなり盛り上がっており、日本の市場も例外ではなく、RadiotalkやVoicy、Recなど様々なサービスが存在しています。 そんな盛り上がりを見せる市場で、最近、特にコンテンツの充実・サービスとしての伸びを見せているのが、この stand.fm だという事です。 僕は今まで、appleのpodcast、Voicy,Radiotalkのユーザーでしたが、そんな僕が最初にこのアプリを触った印象は、 「使いやすい!UIがかわいい!」 気軽にTwitterのタイムラインから飛んで配信を一度聞いたつもり

                          いま話題の 「stand.fm」 のUIを全力でトレースしてみた!|kakeru tokunaga
                        • Googleが3kbpsの超低ビットレートでも高音質を実現するコーデック「Lyra」をオープンソース化

                          Googleが2021年2月に発表した、3kbpsという超低ビットレートでも元音声と遜色ないほどの音質を維持できる新コーデック「Lyra」をオープンソース化しました。 ???? Lyra is now being open sourced. This release allows developers to power their communications apps and take Lyra in powerful new directions by providing the tools needed to encode and decode audio. Full details ↓ https://t.co/ZDIaXTVw8c— Google Open Source (@GoogleOSS) Lyra - enabling voice calls for the next b

                            Googleが3kbpsの超低ビットレートでも高音質を実現するコーデック「Lyra」をオープンソース化
                          • ChatGPTと“声”で会話する方法解説書が発売 ~ブラウザーやAlexaにも組み込める!/『ChatGPTと音声で会話する3つの方法』発売【Book Watch/ニュース】

                              ChatGPTと“声”で会話する方法解説書が発売 ~ブラウザーやAlexaにも組み込める!/『ChatGPTと音声で会話する3つの方法』発売【Book Watch/ニュース】
                            • 無料で商用利用もできるAI音声読み上げツール「VOICEVOX」に4人のキャラクターが追加/読み方とアクセントの辞書機能も

                                無料で商用利用もできるAI音声読み上げツール「VOICEVOX」に4人のキャラクターが追加/読み方とアクセントの辞書機能も
                              • 完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた/「RVC」と「VC Client」の組み合わせで“声をコスプレする”新時代到来!?【やじうまの杜】

                                  完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた/「RVC」と「VC Client」の組み合わせで“声をコスプレする”新時代到来!?【やじうまの杜】
                                • MusicLM

                                  MusicLM: Generating Music From Text |paper|dataset| Andrea Agostinelli, Timo I. Denk, Zalán Borsos, Jesse Engel, Mauro Verzetti, Antoine Caillon, Qingqing Huang, Aren Jansen, Adam Roberts, Marco Tagliasacchi, Matt Sharifi, Neil Zeghidour, Christian Frank Google Research Abstract We introduce MusicLM, a model generating high-fidelity music from text descriptions such as "a calming violin melody bac

                                  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                    • 無料……だと? めちゃ自然に読み上げてくれるWeb音声合成サービスが登場、営利目的や配信などでも使用可

                                      ※本記事はアフィリエイトプログラムによる収益を得ています Yellstonが、音声合成サービス「CoeFont STUDIO」を公開しました。入力した文章を読み上げてくれるWebサービスなのですが、無料とは思えない極めて自然な音声で読み上げてくれるとさまざまなかいわいの人たちをざわつかせています。すごいのが出てきた……! CoeFont STUDIO 試しに吉野家コピペを入力して読み上げさせてみたところ、大変流ちょうに読み上げ始めて爆笑しました。イントネーションが調整できるようになっているのですが、特に調整する必要性は感じないほど。 現在芯の通った声質の「アリアル」と透き通った声質の「ミリアル」の2種類の音声が公開されており、自由に切り替えられます。ミリアルの方は「Prototype」の記述があり、アリアルの方がより自然に読み上げてくれる印象でした。 CoeFont STUDIOはリリース

                                        無料……だと? めちゃ自然に読み上げてくれるWeb音声合成サービスが登場、営利目的や配信などでも使用可
                                      • 無料の歌声合成ソフト「NEUTRINO」がプロもうなる完成度 楽譜と歌詞を入れるだけで東北きりたんが自然に歌う

                                        新たな歌声合成ソフト「NEUTRINO」が2月21日に無料公開され、高い完成度で大きな反響を呼んでいます。まず試しに以下の作例動画を再生してみてください。ソフトが作り出した歌声の自然さに驚かされることうけあいです。 NEUTRINO NEUTRINOはSHACHI(@SHACHI_KRTN)さんが開発した、ニューラルネットワークによる歌声シンセサイザー。楽譜と歌詞のデータを入力するだけで、同梱の「東北きりたん」か「謡子」の音声データベースをもとに、歌声のデータを作成してくれます。 東北きりたんは、東北地方応援キャラクターの1人。声を担当する茜屋日海夏さんの歌唱データが研究者向けに配布されており、NEUTRINOでも活用されている ニューラルネットワークは楽譜をもとに、発声タイミングや音の高さ、声質、かすれ具合などを推定。いうなれば「東北きりたん(謡子)だったらこの曲をどのように歌うか」を自

                                          無料の歌声合成ソフト「NEUTRINO」がプロもうなる完成度 楽譜と歌詞を入れるだけで東北きりたんが自然に歌う
                                        • オーディオ超解像技術 AudioSR を試す|はまち

                                          低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。 インストール!pip install git+https://github.com/haoheliu/versatile_audio_super_resolution実行!GPUメモリを16GBくらい消費します。Google Colab無料枠だとメモリが足らなくて動かない感じでした。 !audiosr -i /content/kurumi.wav変換例変換前(サンプリングレート8kHz)

                                            オーディオ超解像技術 AudioSR を試す|はまち
                                          • ファンタジーで美しいエルフ語を作る方法:人工言語の印象を決める要素が判明! - ナゾロジー

                                            異世界の言語学です。 ドイツのフンボルト大学ベルリン(HU Berlin)で行われた研究によって、ファンタジーやSFの世界で使われている人工言語のどんな要素が、美しさや邪悪さなどの音声的な印象に繋がっているかが調べられました。 調査対象となった人工言語には、有名なフィクション作品で創作された優雅な響きを持つエルフ語や醜く凶悪なオークたちのオーク語、理知的な異星人たちのバルカン語、荒々しい戦闘民族の使うクリンゴン語など12種類が含まれています。 本研究は、ファンタジーやSFの世界が好きな人たちならば、一度は考えたことがある異世界言語の音声学的な魅力を分析したものと言えるでしょう。 研究内容の詳細は『Language and Speech』にて公開されています。 From Star Trek’s Klingon to Tolkien’s Orkish: Unraveling the audit

                                              ファンタジーで美しいエルフ語を作る方法:人工言語の印象を決める要素が判明! - ナゾロジー
                                            • 効果音ポン出し画面|効果音ラボ

                                              生配信やZoomなどで活用できる、効果音を好きなボタンに割り当てて鳴らせるWebアプリです。音は2000種類以上の中から選べます。

                                                効果音ポン出し画面|効果音ラボ
                                              • Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に|DTMステーション

                                                自分の声をAI機能でアイドルの声やキャラクタの声などにリアルタイムに変換するユニークなソフトとして、これまでも何度か紹介してきたVoidol。これはクリムゾンテクノロジー株式会社が開発するリアルタイム音声変換技術「リアチェン voice」を搭載したアプリケーションで、VTuberやゲーム実況などの世界でも幅広く使われているWindowsおよびMacで動作するソフトとなっています。 そのVoidolがこれまでのAIリアルタイム音声変換機能に加えて、まったく新たな音声変換エンジンを搭載し、Voidol 2へとメジャーバージョンアップすることが関係者への取材から分かりました。正式な発表・発売は10月20日になるとのこと。税込み価格は13,200円(12月26日までは発売記念価格の8,800円)が予定されています。今回Voidolに加わった最大のポイントは、声をリアルタイム処理でシンセサイジングす

                                                  Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に|DTMステーション
                                                • 「RVC」+「VC Client」で自分の声を任意の声にリアルタイム変換しよう! - Eヤツのブログ

                                                  【導入】 ・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。 ・大まかな記事の流れは「RVCで学習モデルを作る」→「学習モデルをVC Clientに入れる」→「リアルタイムボイチェン完成!」です。 ・「RVC」という超凄い非リアルタイム音声変換ソフトが話題になったと思ったら、翌日に「VC Client」という超凄いソフトがリアルタイム音声変換に対応したのを聞いたので、急いで記事を書きました。 ・この記事ではずんだもんボイスになることを目標としていますが、学習先の音声さえあればどんな音声にもなれます。 【手順】 ①~RVCのダウンロード~ ・以下のURLを開いて、「RVC-beta.7z」をDLします。(要Hugging Faceアカウント)(Hugging Faceアカウントを持ってない人は無料なので作りましょう) https://huggi

                                                    「RVC」+「VC Client」で自分の声を任意の声にリアルタイム変換しよう! - Eヤツのブログ
                                                  • LISTEN

                                                    Apr 10, 2024 Audiostart News デジタル音声広告を音声業界のニュースをまとめるよ 【AD】 Audiostartでは、ポッドキャストに音声広告を掲載したい広告主を募集中です。詳細は以下のリンク先をご覧ください。 https://bit.ly/41jPwyu 【AD】 Audiostartでは、音声広告を掲載して広告報酬を受け取りたいポッドキャスターの方を募集しています。法人・個人問いません。詳細は以下のリンク先をご覧ください。 https://bit.ly/3GSVv5P https://listen.style/p/audiostartnews?mSIM7ycj Apr 10, 2024 ISESAKIFM(FM76.9)Tin tức GUNMA AIを活用して「いせさきFMニュース(ぐんま県のニュース)」をベトナム語でお伝えします。 Chúng tôi sẽ

                                                      LISTEN
                                                    • VOICEPEAK 商用可能 6ナレーターセット

                                                      『VOICEPEAK』は、最新のAI音声合成技術を搭載し手軽に読み上げさせることが可能な入力文字読み上げソフトです。 お好みの文章や言葉をテキストで入力するだけで、簡単に高品質な音声が作成できます。 感情パラメータによる喜怒哀楽の表現にも対応しています。 「VOICEPEAK 商用可能 6ナレーターセット」には6人のナレーター(男性3名、女性3名)に加えて幼い「女の子」の声も収録されており、様々な声のバリエーションで読み上げが行えます。 個人ユーザー様のご利用はもちろん、教育機関の方や法人様など、様々な商用・業務用途でのご利用も可能です。 OSはWindows、macOS、Linuxに対応。 体験版もご用意しておりますので、ぜひお試しください。 ・女性1 声優:若守みづき 特徴:息づかいが感じられる、やや高めでやわらかく優しい声色です。 ・女性2 声優:野宮佳乃 特徴:落ち着いたトーンの声

                                                        VOICEPEAK 商用可能 6ナレーターセット
                                                      • 無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー

                                                        AI技術の進化によって、絵や文章だけではなく音声変換もAIでリアルタイムに行うことが可能になりました。ボイスチェンジャーAIにはRVC(Retrieval-based Voice Changer)やMMVCなどさまざまな種類が存在しますが、「VC Client」は複数ボイスチェンジャーAI向けモデルに対応しており、簡単にリアルタイム音声変換ができるとのことなので実際に試してみました。 GitHub - w-okada/voice-changer https://github.com/w-okada/voice-changer GitHubのレポジトリにアクセスします。 「事前ビルド済みのBinaryでの利用」の欄にあるテーブルで、「win」にある「通常」をクリック。 ダウンロードリンクが表示されるので、「このままダウンロード」をクリックします。なお、VC ClientはZIP形式で配布され

                                                          無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー
                                                        • 怒る客の声、AIで穏やかに ソフトバンクがカスハラ対策 - 日本経済新聞

                                                          ソフトバンクは15日、人工知能(AI)で客の通話音声を穏やかなトーンに変換する技術の事業化を目指すと発表した。顧客による迷惑行為「カスタマーハラスメント(カスハラ)」に対する取り組みの一環で、コールセンターの電話対応業務に利用する。2025年度中の事業化に向けて、東京大学と研究開発や検証を進める。ソフトバンクの新規事業提案制度「ソフトバンクイノベンチャー」から生まれた。電話口で怒鳴るなどの迷惑

                                                            怒る客の声、AIで穏やかに ソフトバンクがカスハラ対策 - 日本経済新聞
                                                          • ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう

                                                            家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ 音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。 そして、大きな点として、Microsoft

                                                              ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう
                                                            • 「GPT先輩やけどどうした?」 アレクサでChatGPTと音声チャットするシステムが可能性の塊

                                                              ※本記事はアフィリエイトプログラムによる収益を得ています AI(人工知能)のChatGPTと音声でやりとりできる仕組みを自作した動画がTwitterで公開され、「面白そう」「実践してみたい」と話題になっています。記事執筆時点で再生回数は29万回を突破。 アレクサを使って“GPT先輩”を呼び出す様子 投稿したのは、DX(デジタルトランスフォーメーション)時代のワークハック術などを公開している、平岡(@hiraoka_dx)さん。 動画では、Amazonの音声アシスタントサービス「Alexa(アレクサ)」に話しかけて、そのまま音声でChatGPTに質問する様子がみられます。「アレクサ、GPT先輩を開いて」と、呼び出すためのワードがユニークで面白いです。 Amazonのアレクサを活用したアイデアです 呼び出されたChatGPT側も「GPT先輩やけどどうした?」とノリノリで、悩み事を聞いてそれに合

                                                                「GPT先輩やけどどうした?」 アレクサでChatGPTと音声チャットするシステムが可能性の塊
                                                              • 日本語 音声読み上げソフト|音読さん

                                                                音声読み上げソフト 下のテキストボックスに文章を入力すると好みの音声で読み上げてくれます。 読み上げたテキストはその場で聞くだけでなく、音声ファイル(.mp3)としてダウンロードできます。

                                                                  日本語 音声読み上げソフト|音読さん
                                                                • Go/Cgoで映像・音声のリアルタイム処理をやるまでの道のり - Go Conference 2023

                                                                  Go Conference 2023 Room A : A7-L https://gocon.jp/2023/sessions/A7-L/

                                                                    Go/Cgoで映像・音声のリアルタイム処理をやるまでの道のり - Go Conference 2023
                                                                  • アニメ制作の現場では「動画は音より少し先行させる」と言われるがあまり知られていない→実際に試した動画が分かりやすい

                                                                    Fujiyama @fujisan_hon 【バズったので宣伝】 二次創作PVやMVなどを制作させて頂いております 作品でこの手法を使っているので是非見に行ってみてください✨️ twitter.com/fujisan_hon/st… 2023-08-13 23:47:07

                                                                      アニメ制作の現場では「動画は音より少し先行させる」と言われるがあまり知られていない→実際に試した動画が分かりやすい
                                                                    • TechCrunch | Startup and Technology News

                                                                      Welcome to Week in Review: TechCrunch’s newsletter recapping the week’s biggest news. This week Apple unveiled new iPad models at its Let Loose event, including a new 13-inch display for…

                                                                        TechCrunch | Startup and Technology News
                                                                      • Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita

                                                                        こんにちは!逆瀬川 (https://twitter.com/gyakuse)です! 今日は議事録の音声からの書き出しとサマリの自動生成を行います。 概要 会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。 会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIのAPIキーを貼り付け ランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択します ひたすら待ちます 実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります

                                                                          Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita
                                                                        • Speech-to-Text Webcam Overlay

                                                                          *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

                                                                            Speech-to-Text Webcam Overlay
                                                                          • あのキャラの声、AIで勝手に再現「無断AIカバー」氾濫 声優と弁護士に聞く「声の守り方」と未来

                                                                            自分の声やフリーの声素材、著作権フリーの楽曲などで作るのならば問題はない。関係者を悩ませているのは、声優や歌手などの声を勝手に使った“無断AIカバー”だ。 人気歌手や声優の声を無断でAIに学習させ、無関係な歌を歌わせたり、セリフを言わせたりする無断AIカバーは、アニメファンなどが好きなキャラの声で勝手に制作し、動画SNSなどで人気を集めている。 声そのものが商品である声優にとって、無断AIカバーが作られるのは深刻な問題だ。「早急に何とかしたいと思っているのですが……」。声優の甲斐田裕子さん(アニメ業界の立て直し・発展を目指す有志団体「日本アニメフィルム文化連盟(NAFCA)」理事)は、対策の難しさに頭を抱える。 声を守ることに特化した法律がないことや、作品の関係者が多岐にわたること、関係者の間でも意見が割れていることなどが、問題を複雑にしている。 声優が自らの声でAI音声を作り、新たなビジ

                                                                              あのキャラの声、AIで勝手に再現「無断AIカバー」氾濫 声優と弁護士に聞く「声の守り方」と未来
                                                                            • COEIROINK

                                                                              無料で使えるAIトークソフト

                                                                                COEIROINK
                                                                              • zenncast - 技術トレンドをAIがラジオに変換

                                                                                Zennのトレンド記事をまとめてAIがラジオをつくります。毎朝7時に更新。 お便りも募集中。送っていただいたお便りはAIパーソナリティが読み上げます。

                                                                                  zenncast - 技術トレンドをAIがラジオに変換
                                                                                • superwhisperでの音声入力を試す

                                                                                  superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                                    superwhisperでの音声入力を試す