並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 598件

新着順 人気順

音声の検索結果281 - 320 件 / 598件

  • マークダウンファイルから日本語音声付き動画を作成できる「Video Puppet」を使ってみた! - paiza times

    どうも、まさとらん(@0310lan)です! 今回は、単純なマークダウンファイルから動画を生成してダウンロードできるWebサービスをご紹介します! ブログ記事を書くようにテキストデータを動画に変換できるうえ、自然な日本語音声も自動生成してくれます。また、画像や音楽などのメディアも挿入できるので、チュートリアル動画やPR動画などさまざまな作品を作ることができます。 現在はベータ版で全機能を無料で使えるため、動画作成にご興味がある方はぜひ参考にしてみてください。 【 Video Puppet 】 ■「Video Puppet」の使い方 それでは、最初に「Video Puppet」をどのように使うのか詳しく見ていきましょう! トップページにアクセスしたら、画面上部にある【SIGN UP】ボタンから無料のユーザー登録をしておきます。 (※登録しなくても制限付きで利用することは可能です) ユーザー名

      マークダウンファイルから日本語音声付き動画を作成できる「Video Puppet」を使ってみた! - paiza times
    • AI Voice Generator & Text to Speech

      Rated the best text to speech (TTS) software online. Create premium AI voices for free and generate text-to-speech voiceovers in minutes with our character AI voice generator. Use free text to speech AI to convert text to mp3 in 29 languages with 100+ voices.

        AI Voice Generator & Text to Speech
      • NVIDIA、GPUで打鍵音や環境騒音を除去する「RTX Voice」 ~DiscordやZoom、OBSなど各種アプリで利用可

          NVIDIA、GPUで打鍵音や環境騒音を除去する「RTX Voice」 ~DiscordやZoom、OBSなど各種アプリで利用可
        • 誰の声でも簡単・リアルタイムで女声・男声・ささやき声などへ自由自在に変換できる「Voidol3」のSYNTHモードを使ってみたよレビュー

          AI技術を応用したソフトを開発するクリムゾンテクノロジーから、AIリアルタイムボイスチェンジャー「Voidol3」が2023年9月8日に登場しました。Voidol3はシンセサイジングによる超高速声質変換エンジンによるボイスチェンジャー「SYNTHモード」と、自身の声を特定のキャラクターの声に変換するAIリアルタイム声質変換が可能な「AIモード」を搭載し、さらにその両方を連結したリアルタイムの声質変換も可能だとのこと。まずはVoidol3のSYNTHモードによるボイスチェンジャーを試してみました。 Voidol3 | 変幻自在の声質変換 | クリムゾンテクノロジー株式会社 https://crimsontech.jp/apps/voidol3/ 今回Voidol3を使うにあたって、オーディオインターフェースとしてコンデンサーマイクのMPM-1000とヤマハ・AG-03をPCに接続して使用しま

            誰の声でも簡単・リアルタイムで女声・男声・ささやき声などへ自由自在に変換できる「Voidol3」のSYNTHモードを使ってみたよレビュー
          • 19歳の学生社長が音声合成サービス開発、3日でユーザー5万人 AIの勉強はWeb授業とインターンで

            早川さんによれば、すでにCoeFont Studioで作成した音声をプラネタリウムの案内に使ったり、企業の採用VTRに使ったりする例が出てきているという。早川さんはこういった利用方法について「有料にしていなかったら出なかったと思う。(開発する)自分でも想像していなかった」としている。 学生とAI企業の社長、二足のわらじを履く早川さんがどういった背景でCoeFont Studioを立ち上げるに至ったのか、そして今後どのような形でサービスを展開し、収益につなげていくのかを聞いた。 きっかけは友達とのゲーム? 「結構使えるものができてしまった」 そもそも、CoeFont Studioはどういった経緯で生まれたサービスなのか。早川さんはきっかけとなったのは「ゲーム実況」だったと話す。 「もともとゲームが好きで、友人と話しながらよく遊んでいた。昔は『ゲーム実況で世界を獲ろう』と思い、プレイの様子を録

              19歳の学生社長が音声合成サービス開発、3日でユーザー5万人 AIの勉強はWeb授業とインターンで
            • 音楽用低遅延リモートコミュニケーションサービス - レイテンシー撲滅委員会|Takumin

              このプロダクトを考えるにあたって、まず一番の敵を知らなければならない。戦う理由は何で、なぜそれが生じていて、どうやってそれを解決するのか。 プロダクト構想はこれ レイテンシーとの闘い「レイテンシー」= latency (遅延)とは、使われる場所によって意味が異なることもありますが、このプロダクトの開発で解決しようとしているレイテンシーとは、 インターネット経由で二人の演奏者がアンサンブルしようとしたときに、片方の演奏者が出した音がもう片方の演奏者に届くまでの時間と考えてください。 たとえば演奏者が隣にいるとこれはゼロ(厳密にはゼロじゃないけど、でもまあ感じない)。で、これがホールとかになると場合によっては数10ミリ(ミリは1,000分の1)秒となることもありますが、プロの演奏者は慣れてるのでなんとか合わせられる。 なぜホールだと数10ミリ秒かかるとかというと...音は1秒に340メートル(

                音楽用低遅延リモートコミュニケーションサービス - レイテンシー撲滅委員会|Takumin
              • 話題の音声SNS「Clubhouse」はなぜ人々の心を掴むのか--考えられる3つの理由

                「Clubhouse(クラブハウス)」が日本国内に旋風を巻き起こしている。“音声版Twitter"とも呼ばれるClubhouseは、音声でコミュニケーションするプラットフォームだ。 2020年3月に米国Alpha Explorationが始めたサービスで、米国のVCであるAndreessen Horowitzが1000万ドル(約10億円)を投資、2021年1月にはシリーズBラウンドでも資金調達を発表している。 このClubhouseが日本のアーリーアダプター達に目を付けられ、盛り上がりを見せている。なぜ、こんなにも急速に人々の心を掴むことに成功したのか、考えられる3つの理由を紹介する。 【理由その1】招待制であること Clubhouseが注目を集めている1つ目の理由が「招待制」であることだ。Clubhouseは現状、既存ユーザーからの招待でしか登録できない。もっとも早く参加する方法はユーザ

                  話題の音声SNS「Clubhouse」はなぜ人々の心を掴むのか--考えられる3つの理由
                • Xの通話機能スタート 初期設定は「着信OK」、日本のユーザーには不評?

                  X(旧Twitter)のiOS版に10月26日(日本時間)、音声/ビデオ通話機能が加わった。発信は有料の「X Premium」ユーザーのみだが、受信は全ユーザーが可能。初期設定では全ユーザーで、フォロー相手からの着信がオンになっている。 Xのオーナー・イーロン・マスク氏が8月に実装を予告していたもの。マスク氏はXにあらゆる機能を実装する「スーパーアプリ化」を企図している。 X Premiumユーザーは、ダイレクトメッセージ画面に電話アイコンを表示。タップして音声通話かビデオ通話を選んで発信できる。 デフォルトでは全ユーザーが、フォローしているアカウントの着信を受けられる。アドレス帳へのアクセスを事前に許可している場合は、アドレス帳登録アカウントからの着信も受け付ける。 機能を利用したくない場合は、設定画面からオフにできる。ダイレクトメッセージ画面の右上の歯車または、「設定とプライバシー」→

                    Xの通話機能スタート 初期設定は「着信OK」、日本のユーザーには不評?
                  • Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) | DevelopersIO

                    Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) はじめに Amazon Connectを使用して、お問い合わせ内容をOpenAIのWhisper APIで文字起こしとChatGPTで要約し、通話中に音声出力する方法をまとめました。 Connectで無人対応の場合、顧客からの発話を聞き取る方法としては、チャットボットサービスであるAmazon Lexもしくは、Kinesis Video Stream(KVS)で音声のストリーミングなどがあります。 Amazon Lexを利用する場合は、1度に15秒以上は聞き取ることができない点や文字起こしにはAmazon Transcribeを利用する制約があります。 今回は、文字起こしにWhisper APIを利用し、ChatGPTで要約した内容をConne

                      Amazon Connectでお問い合わせ内容をWhisper APIで文字起こしし、ChatGPTで要約して音声出力してみた(一次対応の無人化) | DevelopersIO
                    • CEOになりすましたディープフェイクの音声で約2600万円の詐欺被害か

                      Liam Tung (ZDNET.com) 翻訳校正: 矢倉美登里 吉武稔夫 (ガリレオ) 2019-09-05 14:02 犯罪者が、人工知能(AI)で生成した音声を利用し、企業の最高経営責任者(CEO)の声をまねて部下をだまし、資金を自分の口座に送金させている。 いわゆるディープフェイクボイス攻撃は、詐欺の次なるフロンティアとなるかもしれない。 The Wall Street Journal(WSJ)の報道によると、社名は伏せられているものの、英国を拠点とするエネルギー企業のCEOが、上司であるドイツの親会社のCEOと電話で話していると思っていたところ、ハンガリーのサプライヤーに22万ユーロ(約2600万円)を至急送金するよう頼まれたという。 ところが実際は、その指示はAIによる音声技術を利用してドイツにいるCEOになりすました詐欺師からのものだった。世論操作や社会の対立を招く恐れがあ

                        CEOになりすましたディープフェイクの音声で約2600万円の詐欺被害か
                      • 無限にしゃべる「AIひろゆき」爆誕 本人っぽい声で年中無休YouTubeライブ GPT-3活用で質問にもそれっぽく回答

                        AI音声合成サービスを提供するCoeFont(東京都港区)は3月14日、匿名掲示板「2ちゃんねる」の開設者・西村博之(ひろゆき)さんのようなコメントを、ひろゆきさんのような声で発し続けるAIを開発したと発表した。YouTube上で24時間365日質問に答え続けられるという。まずは16日午後6時から6時間、専用のチャンネルでテスト配信する。 米OpenAIの「ChatGPT」にもマイナーチェンジ版が搭載されている自然言語モデル「GPT-3」を活用した。ひろゆきさんがしゃべりそうなことを教えたAIでテキストを生成。CoeFontが開発した、ひろゆきさんの声を再現した音声合成AIで読み上げる仕組み。 YouTubeのライブ配信では、コメントでの質問に応じてテキストを生成し、それを読み上げる。配信画面には、AI画像生成技術を使って作成したひろゆきさんの画像を使用。読み上げの内容に応じた画像を用意し

                          無限にしゃべる「AIひろゆき」爆誕 本人っぽい声で年中無休YouTubeライブ GPT-3活用で質問にもそれっぽく回答
                        • 『DLsite』を運営するエイシス、2020年度の売上高は155%成長の250億円になったと発表 | gamebiz

                          コミック、ゲーム、ボイス・ASMR作品等を取り扱う二次元総合ECプラットフォーム『DLsite』を運営するエイシスは、2020年度で売上高を23年連続で更新し、昨対比155%成長の250億円の売上高となったと発表した。。 <以下、プレスリリースより> 巣ごもり需要で電子市場が好調、 コミック以外の売り上げも伸長 『DLsite』では、 この1年でのコミック販売における新規取り扱い作品数が66,000本以上の増加となり、 大手出版社のタイトルを含む245,448本の作品を取り揃えております。 コロナ禍での巣ごもり需要で電子書籍市場の好調が追い風となり、 コミックを中心とした売上は昨対比164%となりました。 コミックだけでなく、 ボイス・ASMR作品の売上は昨対比170%と『DLsite』の売上をけん引する一大ジャンルにまで成長をしており、 ゲームの売上も昨対比153%と、 ボイス・ASMR

                            『DLsite』を運営するエイシス、2020年度の売上高は155%成長の250億円になったと発表 | gamebiz
                          • 【革命的!】ChatGPT+ノーコードで、Web会議後の議事録化が自動で作成&通知可能に!?

                            いつの世も会議の議事録を取るのは、新人や若手の仕事である。筆者も新卒時代は、嫌と言うほど議事録の作成をしたり、朝から晩までインタビューが収録された音声データの書き起こしをさせられたものだ。「誰か代わりにやってくれないかなァ、自動化できたら楽なのに……。」会社の自席に腰を下ろすと、毎日そのようなことばかり考えていた。 2023年3月23 日に投稿された、平岡 | 定時で帰るための「個人DX」推進@hiraoka_dxさんの「これかなり革命的では。。ChatGPTとノーコード使って、zoomが終わると勝手に ①文字起こし ②要約 ③ドキュメント作成 ④Slack通知を行うワークフローがでけた。これが、非エンジニアでも30分で出来る世界なんですよ。しかも無料で。。ということで、上司には適当言って、昼寝してきます。」というツイートには、上記のワークフローを紹介した動画が添えられていた。この投稿には

                              【革命的!】ChatGPT+ノーコードで、Web会議後の議事録化が自動で作成&通知可能に!?
                            • 音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog

                              こんにちは、CTO室技術基盤グループの id:hogelog です。 STORES Product Blog でも多くの文字起こし記事がありますが、社内重要会議の文字起こしなど STORES 社内には様々なところで音声の文字起こし業務が存在します。そんな文字起こし業務ですが完全に人力で実施するのは作業コストがかなり高いです。今日はそのような業務を効率化する音声文字起こし技術とその変遷について紹介します。 Google Text to Speech の活用 以前 論より動くもの.fmを支える技術 〜Podcast初心者が使っているツール紹介〜 - STORES Product Blog でも紹介しましたが STORES 社内では Google Text to Speech が STORES 社内の様々な文字起こし業務に活用されてきました。 product.st.inc Google Text

                                音声文字起こし技術で業務効率化: Google Text to Speech と OpenAI Whisper の活用 - STORES Product Blog
                              • 音声のみで操作できるTODOアプリを開発してたら思ったより革命だった - Qiita

                                はじめに この記事では、音声認識のみで扱えるVoice Todoというアプリを作っている話をします。 既存TODOアプリのかゆいところ 皆さんはTODOアプリを使っていますか? 正直に言うと、私は使っていません。 TODOアプリを使わない理由はいくつかあります。 まず、フリック操作が苦手。 フリックがとにかく苦手です。 どれぐらい苦手かというと、PCとスマホで同じ100文字程度の文章を打つと4,5倍ぐらい時間がかかります。 また、TODOの海を形成しがち。 TODOアプリを使っていると、気づいたらTODOの海を構築しています。 というのも、基本的に整理フェーズを置いてないからなんでしょう。 結果、消化するよりも探す時間の方が使うという状態に陥ります。 うーん。 どうにか、TODOアプリで楽して管理できないかなー。 ――――と思い立ったのがVoice Todo作成のきっかけです。 Voice

                                  音声のみで操作できるTODOアプリを開発してたら思ったより革命だった - Qiita
                                • 録音した音声を一発でプロっぽく仕上げてくれる「Enhance Speech from Adobe」を使ってみたレビュー

                                  Adobeが、AIを使った音声編集ウェブサービス「Adobe Podcast」を公開し、Podcast編集用ツール「Enhance Speech from Adobe」のデモを公開しています。Enhance Speech from Adobeを使えば、録音した音声が簡単にプロっぽく仕上がるとのことで、実際に使ってみました。 Enhance Speech from Adobe | Free AI filter for cleaning up spoken audio https://podcast.adobe.com/enhance このAdobe Podcastは2021年12月にProject Shestaという名前で開発が進められており、「語るべきストーリーを持つ人々のためのオーディオツール」と表現されています。 そして、AdobeがAdobe Podcastに含まれるツールとして「E

                                    録音した音声を一発でプロっぽく仕上げてくれる「Enhance Speech from Adobe」を使ってみたレビュー
                                  • Googleが音声から「テキストと音声の両方」に翻訳できる大規模言語モデル「AudioPaLM」を発表

                                    Googleが「AudioPaLM」を発表しました。AudioPaLMはテキストベースの言語モデルである「PaLM 2」と音声ベースの言語モデルである「AudioLM」を統合したマルチモーダルアーキテクチャであり、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるとのことです。 [2306.12925] AudioPaLM: A Large Language Model That Can Speak and Listen https://doi.org/10.48550/arXiv.2306.12925 AudioPaLM https://google-research.github.io/seanet/audiopalm/examples/ AudioPaLMは、AudioLMから話す速さ、声の強さ、高さ、沈黙、イントネーションなどのパラ言語情報を保持する

                                      Googleが音声から「テキストと音声の両方」に翻訳できる大規模言語モデル「AudioPaLM」を発表
                                    • Raspberry PiにAlexaをインストールしてみる(ウェイクワードエンジン変更・感度調整・systemd設定)

                                      やりたいこと Amazon Alexaを利用したければ、Amazon Echoを購入するのが手取り早いのですが、Alexaの機能をいろいろカスタマイズしたい場合にはEchoではできません。そこで、今回はRaspberry PiにAlexa Voice Serviceをインストールして、Raspberry PiでAmazon Echoを作ってみようと思います。 用意するモノ ①Raspberry Pi まずは、今回のキーとなるRaspberry Piです。RaspberryPi 4Bも販売されていますが、今回は手元にあった3B+を利用します。新規に購入するのであれば、Raspberry 4Bをお勧めします!

                                      • ChatGPTと会話できる電話番号、SaaS企業が公開 話しかけると音声で回答

                                        電話自動応答サービスを提供するIVRy(東京都台東区)は3月13日、対話型AI「ChatGPT」と電話で会話できるサービス「電話GPT」を開発した。無料体験デモを実施しており、「050-1807-3316」に電話をかけることで、ChatGPTと話ができる。利用期限などは明らかにしていない。 スマートフォンなどから用意した番号に電話をかけ、質問を投げかけることでChatGPTが出力する回答を音声で聞くことができる。通話料は発信者が負担する。アプリのダウンロードや会員登録などは必要ない。 電話GPTの開発経緯について同社は、自然言語処理技術の社会実装の実現に向けて、試験的に特別公開を決めたと説明。同社の代表取締役である奥西亮賀さんは「大規模言語モデルを中心としたAI技術を社会実装することが、日本の働き方改革・DXをクリティカルかつスピーディーに推進できると考えており、電話GPTの特別公開はその

                                          ChatGPTと会話できる電話番号、SaaS企業が公開 話しかけると音声で回答
                                        • CASIOが歌うシンセサイザ・CT-S1000Vをリリース。和音も歌える新型カシオトーンが3月発売|DTMステーション

                                          先日「CASIOが間もなく、新音源方式のシンセサイザーを発表か!?」という記事で取り上げたCASIOのシンセサイザが本日1月21日に、正式に発表されました。すでに海外からのリーク情報なども流れていたので、気になっていた方も多いと思いますが、登場したのはCT-S1000Vという製品で、指定した歌詞に合わせて歌わせることができるシンセサイザ。日本語、英語に対応するバイリンガルであり、和音を歌わせることも可能というものです。CeVIOを生み出した名古屋工業大学を中心とした研究に基づく技術を使用したテクノスピーチのHMMエンジンを中枢に据えるとともに、CASIOの電子楽器音源技術を組み合わせることで生まれたユニークな楽器となっています。 歌うキーボードとしては、2017年にYAMAHAがVOCALOID Keyboardを発売していますが、このCT-S1000Vは和音で歌わせることができるのが大き

                                            CASIOが歌うシンセサイザ・CT-S1000Vをリリース。和音も歌える新型カシオトーンが3月発売|DTMステーション
                                          • Macに仮想オーディオデバイスを作成し必要なアプリの音声だけを録音/配信できるオーディオキャプチャアプリ「Dipper」が開発中。

                                            Macに仮想オーディオデバイスを作成し必要なアプリの音声だけを録音/配信できるオーディオキャプチャアプリ「Dipper」が開発中で、Betaテスターを求めています。詳細は以下から。 Web会議やゲーム配信などで音声を配信するさいに、macOSのシステム音や通知音など不要な音声を排除したい場合がありますが、そのような場合にMacに仮想オーディオデバイスを作成し、必要な音声だけを集め録音/配信することができるオーディオキャプチャアプリ「Dipper」がBetaユーザーを募集しています。 Dipperを開発しているのはExistential Audio Inc.のDevin Rothさんで、SoundFlowerに代わり開発されたMacに仮想オーディオ入出力デバイスを作成できるオーディオドライバ「BlackHole」の技術を利用したアプリとなっており、システム要件はmacOS 13 Ventur

                                              Macに仮想オーディオデバイスを作成し必要なアプリの音声だけを録音/配信できるオーディオキャプチャアプリ「Dipper」が開発中。
                                            • pythonで音に合わせて動く波形(オーディオスペクトラム)を作ってみる - Qiita

                                              はじめに 現状macにはオーディオスペクトラム(よくある音に合わせてぬるぬる動く周波数領域の波形)を使えるフリーソフトがないようです。そこで、pythonを使って自作して遊んでみます。 (windowsの方はAviUtlというフリーソフトで出来るようです。) 状況と目的 手元には、音声波形を作りたいwav形式のファイルがあります。(僕の場合はGarageBandで打ち込んだ曲の出力ファイルです。)これを動画形式にしたいのですが、静止画に音声だけ流れるような動画では少々味気ないです。 そこで、作った曲に合わせて動くオーディオスペクトラムを作って、多少なりとも動画映えするようにするのが今回の目的です。 こんな感じのものが作れます↓ https://www.youtube.com/watch?v=JPE54SlF6H0 1. 環境について OS:macOS High Sierra 10.13.6

                                                pythonで音に合わせて動く波形(オーディオスペクトラム)を作ってみる - Qiita
                                              • スクウェア・エニックスによる、リアルな「架空言語」音声の作り方。Text-to-speechの機械学習モデルで生成した没入感の高いボイスコンテンツ【CEDEC+KYUSHU 2022】

                                                3年振りのリアル開催となった福岡で例年行われるゲーム開発者向けのカンファレンス「CEDEC+KYUSHU 2022」が、2022年11月12日(土)に開催されました。スクウェア・エニックス AI部のAIリサーチャー 森 友亮氏が登壇し、『意味が分からないからこそ、リアル ~「架空言語」音声合成による、没入感の高いボイス付きコンテンツの実現~』と題した講演が行われました。見慣れた母国語のテキストから聞いたことのない架空言語の音声を生成する手法について語られた本講演をレポートします。 TEXT / じく EDIT / 酒井 理恵

                                                  スクウェア・エニックスによる、リアルな「架空言語」音声の作り方。Text-to-speechの機械学習モデルで生成した没入感の高いボイスコンテンツ【CEDEC+KYUSHU 2022】
                                                • AirPodsを乗っ取り、スマホにこっそり音声入力する超音波攻撃 成功率は8割超 米研究者らが開発

                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米ミシガン州立大学に所属する研究者らが発表した論文「■https://dl.acm.org/doi/10.1145/3581791.3596837■」は、被害者に気が付かれることなくスマートイヤフォン(Airpods、Pixel Budsなど)からスマートフォンに音声入力する不可聴攻撃を提案した研究報告である。被害者の近くから超音波を発して、スマートイヤフォンに音声コマンドを送り、音声入力を行う。 スマートイヤフォンはBluetoothを使って近くの機器(スマートフォン、スマートスピーカー、スマートホームデバイスなど)に接続し、音声認識技術を駆使して音

                                                    AirPodsを乗っ取り、スマホにこっそり音声入力する超音波攻撃 成功率は8割超 米研究者らが開発
                                                  • 東京都水道局、コールセンターに「IBM Watson」導入 問い合わせ内容をテキスト化、回答の候補を提案

                                                    東京都水道局、コールセンターに「IBM Watson」導入 問い合わせ内容をテキスト化、回答の候補を提案 日本アイ・ビー・エム(IBM)は2月18日、東京都水道局に「IBM Watson」の音声認識機能と情報検索機能を提供したと発表した。同局は19日から、コールセンターの電話対応業務に両機能を採り入れ、オペレーターの負担軽減とサービス向上に取り組んでいるという。 東京都水道局が導入した機能は、ディープラーニングによって音声の特徴を認識し、発話内容をテキストに書き起こす「IBM Watson Speech to Text」と、問い合わせ内容から情報を抽出し、関連する文書を呼び出す「IBM Watson Discovery」。いずれもクラウドサービス「IBM Cloud」経由で利用する。 同局では今後、消費者から電話で問い合わせがあった際は、IBM Watsonが内容をリアルタイムで書き起こし

                                                      東京都水道局、コールセンターに「IBM Watson」導入 問い合わせ内容をテキスト化、回答の候補を提案
                                                    • 音声会話型おしゃべりAIアプリ  Cotomo(コトモ)

                                                      Cotomo(コトモ)は毎日のおしゃべりから、あなたのことを覚えてより身近な話し相手になってくれる音声会話型おしゃべりAIアプリです。

                                                        音声会話型おしゃべりAIアプリ  Cotomo(コトモ)
                                                      • 音声読み上げソフト「SofTalk」がゆっくりボイスへの対応を終了→実況界隈への影響やライセンス関係に対するさまざまな意見

                                                        リンク SofTalkをご利用の皆様へのお知らせ - SofTalk SofTalkをご利用の皆様へのお知らせ - SofTalk【7/23更新】 日頃よりご愛顧いただき誠にありがとうございます。 SofTalkは、長年AquesTalkに対応してまいりましたが、勝手ながら AquesTalkへの対応を中止させていただくこととしました。 SofT... 337 users 44 cncc ゴメス @cncc_gomes ソフトークとかポケットステーション版DOOMとか作ってます。FCやLDゲームも少し。 /DA PUMP/スーパーチャンプル/ジョン・トラボルタ/ジョジョhttps://t.co/DfBSZs0W2D… https://t.co/QCL1d0Ybvr

                                                          音声読み上げソフト「SofTalk」がゆっくりボイスへの対応を終了→実況界隈への影響やライセンス関係に対するさまざまな意見
                                                        • GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - isletennos/MMVC_Trainer: AIを使ったリアルタイムボイスチェンジャー(Trainer)
                                                          • 『方言談話資料』データ | 国立国語研究所

                                                            概要 このページでは,『方言談話資料』全10巻の本文と音声を公開しています。 本文は,冊子の画像をそのままPDFファイルにしたもの,及び,文字入力したテキストファイル (テキストデータ) を提供しています。また,音声は,デジタル化した音声ファイル (wav形式) を提供しています。 閲覧・ダウンロード 下記のリンクから,PDFファイルの閲覧,テキストファイルと音声ファイルのダウンロードができます。 本文PDF:冊子全文の画像をPDFにしたものです。国立国語研究所学術情報リポジトリにリンクしています。 テキストファイル:文字化テキストおよび「注」「解説」、「表紙」「内扉」「刊行のことば」「担当者・協力者」「目次」「まえがき」「凡例」「標題」などのテキストデータです。zip形式で圧縮しています。 音声ファイル:カセットテープ収録の音声を音声ファイル(wav形式 16bit, 16KHz)にし,

                                                            • Yoshiki NAGATANI on Twitter: "PC+Android+無料のツールだけで自動音声認識による字幕付き配信(ウェブ会議)をおこなう方法を紹介してみました。広く普及して常識になって欲しい(すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを… https://t.co/Ms8baQ0XcC"

                                                              PC+Android+無料のツールだけで自動音声認識による字幕付き配信(ウェブ会議)をおこなう方法を紹介してみました。広く普及して常識になって欲しい(すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを… https://t.co/Ms8baQ0XcC

                                                                Yoshiki NAGATANI on Twitter: "PC+Android+無料のツールだけで自動音声認識による字幕付き配信(ウェブ会議)をおこなう方法を紹介してみました。広く普及して常識になって欲しい(すべてのウェブ会議システムがデフォルトで対応してくれてこの動画が無駄になることを… https://t.co/Ms8baQ0XcC"
                                                              • 機械音の異常検知チャレンジ DCASE 2020 Task 2 - Qiita

                                                                (DCASEホームページより) はじめに 音を題材とした異常検知のデータセットによる機械学習コンペが始まりました。 音に関するコンペ自体が珍しいなか、タスクとして一般的な分類などでもなく、更に難しい異常検知が設定されました。 個人的に2019年に画像の異常検知に積極的に取り組んだのですが、音声は周波数領域に変換すると画像のように取り扱えることから、チャレンジしたい題材でした。下記は画像にチャレンジしたときの記事です。 欠陥発見! MVTec異常検知データセットへの深層距離学習(Deep Metric Learning)応用 深層距離学習(Deep Metric Learning)各手法の定量評価 (MNIST/CIFAR10・異常検知) この記事では、そのコンペ「DCASE 2020 Task 2 Unsupervised Detection of Anomalous Sounds for

                                                                  機械音の異常検知チャレンジ DCASE 2020 Task 2 - Qiita
                                                                • シャープ「ヘルシオ」からプリキュアの声 カスタム音声登場 価格は3300円

                                                                  キャラクターは「キュアプレシャス/和実ゆい」(CV:菱川花菜さん)、「キュアスパイシー/芙羽ここね」(CV:清水理沙さん)、「キュアヤムヤム/華満らん」(CV:井口裕香さん)、「キュアフィナーレ/菓彩あまね」(CV:茅野愛衣さん)の4種類。 収録ボイスは「はらペコった~!お昼は何食べよう?」といった朝昼晩のあいさつや「とてもおいしそうなおはぎだ。みんなで食べよう」など。各キャラクターが和食や洋食、中華、デザートなどジャンル毎のメニューをおすすめする音声も収録しているという。 カスタマイズ音声の発売を記念し、無線LANに接続中のヘルシオやホットクックで料理中に、プリキュアがおすすめメニューを知らせる企画も実施する。期間は11月15日から2023年2月28日まででカスタム音声を購入していないユーザーも利用できる。 関連記事 「ホットクック」に産直食材、料理教室をセットに シャープら3社が新たな

                                                                    シャープ「ヘルシオ」からプリキュアの声 カスタム音声登場 価格は3300円
                                                                  • 笑い声や甘いささやきは「左側」から聞こえた時の方が脳に強い反応を引き起こすという研究結果

                                                                    普段の生活において、話し相手が自分の右側にいるのか左側にいるのかを気にすることは少ないかもしれません。しかし、スイスの研究チームが査読付き学術誌のFrontiers in Neuroscienceに発表した研究結果によると、笑い声やエロティックな声といったポジティブな発声は、自分の「左側」から聞こえてきた時の方が脳に強い反応を引き起こすとのことです。 Frontiers | Emotional sounds in space: asymmetrical representation within early-stage auditory areas https://doi.org/10.3389/fnins.2023.1164334 Our brain prefers positive vocal sounds that come from our left - Science & res

                                                                      笑い声や甘いささやきは「左側」から聞こえた時の方が脳に強い反応を引き起こすという研究結果
                                                                    • superwhisper

                                                                      Write 3x faster, without lifting a finger.superwhisperAI powered voice to text for macOS

                                                                      • AIでクローン音声を生成する最新ツールが4chan民により「エマ・ワトソンの声で『わが闘争』を読み上げさせる」など悪用されまくる事態に

                                                                        ポーランドに拠点を置くAIスタートアップのElevenLabsは、音声サンプルから「声のクローン」を作成してさまざまな文章を読み上げさせるツールを開発しています。ElevenLabsが最新ツールのベータ版を公開したところ、海外掲示板・4chanのユーザーたちにより「有名人の声で人種差別発言や不謹慎なことを言わせる」といった悪用事例が急増してしまったと報じられています。 AI-Generated Voice Firm Clamps Down After 4chan Makes Celebrity Voices for Abuse https://www.vice.com/en/article/dy7mww/ai-voice-firm-4chan-celebrity-voices-emma-watson-joe-rogan-elevenlabs ElevenLabsは元Googleの機械学習エ

                                                                          AIでクローン音声を生成する最新ツールが4chan民により「エマ・ワトソンの声で『わが闘争』を読み上げさせる」など悪用されまくる事態に
                                                                        • ドワンゴ、AIボイスチェンジャー公開 誰の声でも100人の声に変換

                                                                          ドワンゴは9月14日、ディープラーニング技術を活用したボイスチェンジャー「Seiren Voice」をWebサイトで無償公開した。デモページでは、声を録音して変換先の声を選び、変換ボタン押すと自分の声を100人分の声に変換できる。 録音した音声を加工するのではなく、目標の人物の声に変換するもの。選べるターゲットの数は100種類。変換のリアルタイム性より変換品質を優先しており、変換には数十秒から数分の時間がかかる。 既存の声質変換システムはリアルタイムに変換するものが多く、品質を重視したものはあまり見かけないとして開発に挑んだという。音声の合成には、スマートスピーカーなどで使われるWaveNetという方式から派生したWaveRNNを採用した。 ディープラーニングを使った声質変換では、変換前の声と目標とする人物の声をセットで学習する手法がとられることがある。この手法ではボイスチェンジャーを使い

                                                                            ドワンゴ、AIボイスチェンジャー公開 誰の声でも100人の声に変換
                                                                          • 「GPT-4」が間もなく登場か--テキストから動画の生成が可能に

                                                                            「ChatGPT」は、コードをデバックしたり、小論文を書いたり、ジョークを言ったりする高度な機能で、絶大な人気を集めている。そうした能力にもかかわらず、ChatGPTが支援できるのはこれまで、テキストに限られていた。その状況が間もなく変わることになる。 Microsoft Germanyの最高技術責任者(CTO)Andreas Braun氏は現地時間3月9日に「AI in Focus - Digital Kickoff」で、GPT-4が3月13日の週に公開予定で、それによってテキストから動画が生成できるようになる可能性を明らかにした。 同イベントを取材していたドイツの報道機関heise onlineによると、「GPT-4を来週公開する予定だ。GPT-4には、動画などまったく異なる可能性を提供する、マルチモーダルモデルが搭載されている」と、Braun氏は述べたという。 ChatGPTは、Op

                                                                              「GPT-4」が間もなく登場か--テキストから動画の生成が可能に
                                                                            • (お知らせ)営業時間を尋ねる 03-4567-0700 からの電話につきまして - Google ビジネス プロフィール コミュニティ

                                                                              メイン コンテンツにスキップ false 検索検索をクリア検索を終了Google アプリメインメニュー

                                                                              • 無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」 本日より提供開始! | ニュース | LINE株式会社

                                                                                LINEの音声認識AIによるテキスト変換機能を無料提供 複数名の話者分離を可能とした会議の議事録作成や書き起こしにマルチデバイスで対応 LINE株式会社(本社:東京都新宿区、代表取締役社長:出澤 剛)は、LINEのAIテクノロジーブランド「LINE CLOVA」より、「会話を目で見る」ことができる無料のAI音声認識アプリ「CLOVA Note(クローバ・ノート)」のβ版の提供を本日5月24日(火)より開始しましたので、お知らせいたします。 「CLOVA Note」は、LINE CLOVAのAI技術である「CLOVA Speech(音声認識)」の音声認識AIによって、録音した声をテキストに変換するAI音声認識アプリです。アプリをインストールし、スマートフォンやタブレットの録音ボタンを押すだけで、誰でも簡単にご利用いただけます。学校での授業やセミナーなどの書き起こしメモだけでなく、録音時の複数

                                                                                  無料のAI音声認識アプリ「CLOVA Note β(クローバ・ノート)」 本日より提供開始! | ニュース | LINE株式会社
                                                                                • AI音声認識テクノロジーでユーザーの発音をチェックして正す言語学習アプリ「Speak」レビュー

                                                                                  「ChatGPT」開発のOpenAIによる投資も受けたことのある、AIでユーザーの声をチェックする言語学習プラットフォーム「Speak」を無料の範囲で試してみました。 SpeakはiOS版とAndroid版がありますが、今回はiOS版を使用します。 アプリを開いたら「ログインしてください」をタップ。 「今すぐ登録」をタップ。 「Eメールアドレスで続ける」をタップします。 そして「名前」「Eメール」「パスワード」を入力し、「会員登録」をタップしたらサービスを利用できるようになります。 ホーム画面はこんな感じ。「ここから始める」と書かれた部分をタップしてみます。 すぐにマイクへのアクセス権を求められるので今回は「OK」をタップ。 すると「Meg」との通話スタイルのレッスンが始まります。通話といってもリアルタイムの会話ではなく、録音された音声。流ちょうな英語・日本語で「How's it goin

                                                                                    AI音声認識テクノロジーでユーザーの発音をチェックして正す言語学習アプリ「Speak」レビュー