並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 600件

新着順 人気順

音声の検索結果81 - 120 件 / 600件

  • まるで人間と会話「ChatGPT with voice」が無償公開 「語尾に“にゃん”と付けて」とお願いしたら気まずくなった

    米OpenAIが提供する対話型AI「ChatGPT」のアプリ版(Android、iOS)で、まるで人間と会話しているように受け答えする音声対話機能「ChatGPT with voice」が無償の一般ユーザーでも使えるようになった。 ChatGPTのアプリを開き、右下にあるヘッドフォンのアイコンをタップすると音声による対話を始められる。初期設定時は5種類の声から任意に選べ、後から変更も可能だ。 画面を見ずにハンズフリーで会話できる他、ユーザーが発した言語を自動認識して返答する。設定で主な言語を設定すると、より認識精度が高まる。やりとりした内容はテキストで後から確認できる。 ChatGPTはもともと人間と対話しているような返答をする。これに声が付くことで、より一層に人と会話しているような感覚を覚えるだろう。実際に試してみたところ、独特なイントネーションがある日本語が達者な外国人と話しているよう

      まるで人間と会話「ChatGPT with voice」が無償公開 「語尾に“にゃん”と付けて」とお願いしたら気まずくなった
    • 無料でキャラクターボイスを自動で合成してくれるAIトークソフト「COEIROINK」は誰でも超簡単に創作物の「声」を作り出せる

      シロワニさん氏が趣味で開発したというWindows向けのAIトークソフト「COEIROINK(コエイロインク)」が無料で公開されています。COEIROINKは連絡不要で商用利用もOKなフリー素材キャラクター・つくよみちゃんに好きなテキストを誰でも簡単に読み上げてもらうことが可能なので、自作アニメやボイスドラマのキャラクターボイス、実況動画や解説動画のナレーションなどの作成にお役立ちです。 COEIROINK https://coeiroink.com/ ✨COEIROINKリリース✨ 無料の音声合成エンジン「#COEIROINK」が登場! 文章を読み上げます! ■公式サイト⇒https://t.co/66YStrCYu0 ■COEIROINK開発:シロワニさん様 @shirowanisan ■VOICEVOX開発:ヒホ様 @hiho_karuta 第1弾は「#つくよみちゃん」! 商用利用O

        無料でキャラクターボイスを自動で合成してくれるAIトークソフト「COEIROINK」は誰でも超簡単に創作物の「声」を作り出せる
      • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

        画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

          OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
        • 驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応(CloseBox) | テクノエッジ TechnoEdge

          高精度でリアルタイム処理も可能なAI声質変換ソフト(ボイスチェンジャー)「RVC」の記事が大変な反響を呼びました。Stable DiffusionやChatGPTなど生成系AIがメジャー化する中、世間からはそれほど大きな注目を浴びているわけではありませんが、音声AIも驚くべき速度で進化を遂げています。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge 記事中でデモとしてお聞かせしたのは、筆者の妻の歌声を高精度に再現するもので、それはこのソフトのおそらく最大の特徴を生かしたものではありません。そこで、また実験をしてみることにしました。 今回は、ポッドキャストbackspace.fmを10年近く一緒にやっている友人であるドリキンのAIモデルをRVCで作ってみました。 backsp

            驚異の高精度AIリアルタイムボイチェン「RVC」で友人になりすまして本人と会話したときの反応(CloseBox) | テクノエッジ TechnoEdge
          • 雁琳(がんりん)氏の公開した音声の文字起こし

            内容は保証しませんが,それなりに時間かけて聞き取ったし,誠実に書き下したつもりなので読んで♡ cf. https://twitter.com/ganrim_/status/1484435293985853441 (注:って感じにところどころ脚注入れてあるけど,気にせんといてくれや) 登場人物:山内……録音した本人.山内雁琳こと雁琳(がんりん)中井……甲南大学の学長である中井 伊都子氏学部長……男性.具体的にどなたかは判別できず. (音声全体では18分21秒ある.山内さんが部屋に到着し,会話が聞こえ始めたのは音声 04:00 ~) 大まかな流れ挨拶と事実確認 本題 再度の本人確認 この会話の後はどうするのかについて 挨拶と事実確認 中井「こんばんは~どうぞ」 山内「失礼します,よろしくおねがいします」 中井「甲南大学の長をやっています,中井と申します」 山内「あぁどうも,山内でございます」

              雁琳(がんりん)氏の公開した音声の文字起こし
            • 小さい頃、先生に「を」の発音は「O」ではなく「WO」だと指摘したら嫌な顔をされた→しかし実は地域差で発音の差があるのではないか

              Mina Maeda @MinaMaeda そして小さな頃に何か親や先生に述べて嫌な顔をされたことがないこどもは日本には多くないだろう。私は幼稚園の時に「を」を先生が「お」と発音しているのをOじゃない、WOだ、と述べてものすごく嫌な顔され無視されたことを今でも昨日のことのように思い返して身がすくんでしまう。それが悔しい。 2020-09-06 09:49:35 Mina Maeda @MinaMaeda セルフケアするオーガニックコットンウェアKOTONE kotone.shop 👒グログラン grosgrain.jp を運営しています。グログランの帽子は現在 西武渋谷店A館5Fで展開中。日本の放射線汚染水投棄を止めたい。 minamaeda.com/info

                小さい頃、先生に「を」の発音は「O」ではなく「WO」だと指摘したら嫌な顔をされた→しかし実は地域差で発音の差があるのではないか
              • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                  超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                • Microsoft 365の代金の大半は、実はスカイプ通話で回収できる - 勝間和代が徹底的にマニアックな話をアップするブログ

                  私は普段スマホから固定電話や携帯電話にかける時に通常の電話をほとんど使いません。何を使ってるかと言うと、マイクロソフト365のおまけについてくる Skype の無料電話です。 こちらが60分ありますので、大体の通話は全て完了します。元々 Microsoft 365契約するとパーソナルですと一年間で1万3000円ぐらいかかるのですが、この Skype の通話を使うことで、1ヶ月に1000円程度の通話料金の節約ができればほとんど回収できてしまいます。 携帯の音声通話は通常の料金ですと格安SIM系だと20秒10円で、楽天電話などを使っても40秒10円でそこそこ高いので、特に音声通話が料金に含まれていない格安SIM系の人にお勧めです。 しかもスカイプを使うと何が良いかというと音声 SIM が入っていない携帯電話からも電話を発信することができます。受信もやろうと思えば、 Skype in 番号を買え

                    Microsoft 365の代金の大半は、実はスカイプ通話で回収できる - 勝間和代が徹底的にマニアックな話をアップするブログ
                  • 声優の仕事も終わっちゃう?中国で日本のアニメキャラの声を学習したモデルが公開されてしまう「これはやりすぎ…」

                    うみゆき@AI研究 @umiyuki_ai なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当にヤバいよコレはヤバい!!  huggingface.co/spaces/skytnt/… pic.twitter.com/EFgUId9qpd 2022-11-05 21:19:12

                      声優の仕事も終わっちゃう?中国で日本のアニメキャラの声を学習したモデルが公開されてしまう「これはやりすぎ…」
                    • カシオトーンCASIO CT-S 1000Vが最高だ!好きなことで自分を語るよ !

                      初音ミクなどバーチャルシンガーを好む層の中では話題となっているのだけれど、2022年3月1日にCASIOからカシオトーンブランドの新製品「CASIO CT-S1000V」が発売開始となったけれど、このCT-S1000Vが最高なので語ってしまいたいと思う。 「カシオトーン?電子キーボードの?よく家電量販店に売ってるアレ?」と反応してくれる人は流石だ。 その通りで「家電量販店に並んでる電子キーボードでネコ踏んじゃったを弾いた。それはたまたまカシオトーンだった」なんていう経験を持ってる人は少なくはないと思うけれど、CT-S1000Vはそのカシオトーンブランドの新製品だ。 「電子キーボードなんて興味ないし」というそこのアナタ、実を言うと筆者は電子キーボードのみが好きというわけでなく様々なガジェットを愛するガジェットマニアなんだ。 筆者は単に電子キーボードをパソコンやスマホ、カメラなどに並ぶものとし

                        カシオトーンCASIO CT-S 1000Vが最高だ!好きなことで自分を語るよ !
                      • ほとんどの説明会は読めば分かることをいちいち説明する会なので、文章に抵抗がない人にとっては苦痛になりがち

                        George @Love_yellowhat ほとんどの説明会は読めばわかることをいちいち説明する会なので、文章を読むことに抵抗がない人にとっては、説明会自体が大変苦痛なのである。 2022-04-01 17:53:51

                          ほとんどの説明会は読めば分かることをいちいち説明する会なので、文章に抵抗がない人にとっては苦痛になりがち
                        • 「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】

                            「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】
                          • 新しいワイヤレスイヤフォンを手に入れたら「イヤホンズ」で音質チェックしよう

                            すっかり普通のものになったワイヤレスイヤフォン。「耳からうどん」なんてことを言っていたのが、もはや懐かしいです。そしてノイキャンなどの機能があるのも、もはや当たり前で、さらに有線のイヤフォンと比較してどうしても不利な音質面でも優れたものが出てくるようになってきました。 新しい「AirPods Pro」でも強調されているように、その処理能力を使った空間オーディオへの対応まで含めてやっと「全部入り」といえるのが、今時のワイヤレスイヤフォン事情といえるでしょう。 とはいえ「これは音がいい!」と聞いて買ったものの、ホントに音がいいのだろうか? と思うことはないでしょうか。というのも、どんなに良いイヤフォンであっても再生する音が良い音でなければ、聴感上の差はそれほど出ないからです。 そこで今回はサウンドチェックにいい音源をご紹介したいと思います。一昔前なら専用のディスク(CDやSACDなど)を取り出

                              新しいワイヤレスイヤフォンを手に入れたら「イヤホンズ」で音質チェックしよう
                            • ”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった【藤本健のDigital Audio Laboratory】

                                ”持田香織になっちゃうマイク”爆誕。話題のヤマハ歌声合成がスゴかった【藤本健のDigital Audio Laboratory】
                              • VTuberのための悪魔のアイテム、VoidolがついにWindowsに対応。標準搭載のイケメンボイスの新キャラクタも追加に|DTMステーション

                                4月に「VTuberに超強力兵器が誕生!リアルタイムに自分の声をキャラクタボイスに変換できるソフト、Voidolが発売開始!」という記事で紹介したクリムゾンテクノロジーが開発したソフト、Voidol(ボイドル)。自分の声をリアルタイムにまったく違う人の声に変換する画期的ソフトとして紹介しました。 その時点ではMac版のみのリリースでしたが、ようやくWindows版が開発され、本日8月29日よりダウンロードでの販売がスタートしました。またこのタイミングでVer 1.1.0にアップデートされるとともに、新たなキャラクタボイスが標準搭載。通常価格は2,000円(Windows版においては2019年10月末までキャンペーン価格の1,000円での入手可能)と手ごろな価格になっています。改めてこのWindows版を試してみたので、紹介してみましょう。 ついにWindows版のVoidolがリリースされ

                                  VTuberのための悪魔のアイテム、VoidolがついにWindowsに対応。標準搭載のイケメンボイスの新キャラクタも追加に|DTMステーション
                                • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                  はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                  • 声を“匿名化”するシステム「V-CLOAK」 人間っぽさを残した声に変換、声紋の個人情報漏えいを防ぐ

                                    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 中国のZhejiang UniversityとWuhan Universityの研究チームが発表した論文「V-CLOAK: Intelligibility-, Naturalness- & Timbre-Preserving Real-Time Voice Anonymization」は、音声の明瞭性と自然性、音色を保持したまま、リアルタイムに音声を匿名化するシステムを提案した研究報告だ。機械的な声ではなく人間っぽさを残した声に変換し、声紋から個人が特定されることを防ぐ。 声紋は、個人を一意に特定できる重要なバイオメトリクスだ。一方でオンラインサービスによって膨大な音声データを収集・処理で

                                      声を“匿名化”するシステム「V-CLOAK」 人間っぽさを残した声に変換、声紋の個人情報漏えいを防ぐ
                                    • 旅人 on X: "【iPhoneの音声AIチャット(ChatGPT)】の設定方法を、以下ツリーで公開します❗️ Siriより便利❗️(以下の動画参照) iPhoneに「しつもん」と話しかけると自動でAIが立ち上がって「どうした?」と音声で聞いてくるので、質問を話すと、それに音声で答えます。AIの回答はテキストでメモ帳に自動保存❗️ https://t.co/oZrF82lMUT"

                                        旅人 on X: "【iPhoneの音声AIチャット(ChatGPT)】の設定方法を、以下ツリーで公開します❗️ Siriより便利❗️(以下の動画参照) iPhoneに「しつもん」と話しかけると自動でAIが立ち上がって「どうした?」と音声で聞いてくるので、質問を話すと、それに音声で答えます。AIの回答はテキストでメモ帳に自動保存❗️ https://t.co/oZrF82lMUT"
                                      • CoeFont

                                        10,000種類以上の豊富な音声ナレーターやアナウンサー、声優、著名人など老若男女の幅広い音声を提供

                                          CoeFont
                                        • Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト 縮小のロードマップ公開

                                          米Microsoftの音声アシスタント「Cortana」の消費者向けアプリおよびサービスの多くが2021年に終了する。Microsoftは8月1日(米国時間)、「Upcoming changes to Cortana」と題したサポートページでCortanaフェードアウトのロードマップを提示した。 同社はCortanaをOfficeやクラウドサービスなどを含むサブスクリプションサービス「Microsoft 365」のためのAIベースデジタルアシスタント体験として再定義することを理由に、Cortanaサードパーティースキルのサポートを9月7日で終了。21年初めにはiOSおよびAndroid向けCortanaアプリのサポートを終了する。

                                            Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト 縮小のロードマップ公開
                                          • 『ずんだもん』企業勢も“問い合わせナシ”で読み上げやイラストの「無料使用」が可能に。プロゲーマーやVTuberとのコラボ期待

                                            『VOICEVOX』に音声ライブラリとして収録されている「ずんだもん」「九州そら」「四国めたん」(いずれも「東北ずん子プロジェクト」のキャラクター) (画像は東北ずん子プロジェクト公式サイトより) また「東北ずん子ガイドライン準拠」を示す(ず・ω・きょ)の記載があるユーザー作成の素材についても、公式のガイドラインに基づいて非商用の範囲であれば立ち絵などが利用可能となる。 たとえば、ユーザー制作のずんだもんの立ち絵のなかでも見かけることの多い、坂本アヒル氏制作の「ずんだもん立ち絵素材」や「四国めたん立ち絵素材」は(ず・ω・きょ)の記載がされているため、配信等で自由に使うことが可能だ。 坂本アヒル氏製作の「ずんだもん立ち絵素材」 (画像はニコニコ静画「ずんだもん立ち絵素材」より)(画像は東北ずん子プロジェクト公式サイトより) なお『VOICEVOX』には「東北ずん子プロジェクト」以外のキャラも

                                              『ずんだもん』企業勢も“問い合わせナシ”で読み上げやイラストの「無料使用」が可能に。プロゲーマーやVTuberとのコラボ期待
                                            • あいちトリエンナーレ2019に寄せられたご意見等 - 愛知県

                                              県庁住所:〒460-8501 名古屋市中区三の丸三丁目1番2号 (県庁舎へのアクセスはこちら) 代表電話:052-961-2111 (県機関の連絡先はこちら) 開庁時間:午前8時45分~午後5時30分(土日祝日・12月29日~1月3日を除く)※開庁時間の異なる組織、施設があります。 法人番号:1000020230006 Copyright (C)Aichi Prefecture. All rights reserved.

                                              • 小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ|DTMステーション

                                                NEUTRINO、CeVIO AI、Synthesizer V……と、まるで人間のように歌う、AI歌声合成の世界が賑わっていますが、今年この世界がさらに大きく変わる可能性が出てきました。一般ユーザーが自分の声を収録し、それを元にAI歌声合成をするための統一した楽曲の規格を作り、公開されることになったのです。その仕組みづくりに貢献したのが、声優であり、マルチクリエイターでもある小岩井ことり(@koiwai_kotori)さん。AI歌声合成のために、小岩井さんが作詞・作曲するとともに、自ら歌唱したデータ、計50曲が公開されることとなり、それをテンプレートにして歌えば、それぞれのAI歌声合成ができる世界が実現できることになりそうなのです。 そのプロトタイプとなる小岩井さんの歌唱データベースが公開に向けて、準備を進めているところですが、正式公開前に、実際に歌わせることができるソフトであるNEUTR

                                                  小岩井ことりさん作詞・作曲・歌唱のDB公開で、AI歌声合成の民主化へ躍進。NEUTRINOの新キャラクタ『No.7』がリリースへ|DTMステーション
                                                • オーディオプログラミング言語のカレンダー | Advent Calendar 2020 - Qiita

                                                  オーディオプログラミング言語について、メジャーどころや面白そうなものを実際に触ってみて紹介する企画です。 共通のテーマは、(1)440Hzのサイン波生成+ゲイン調整、(2)wavファイルに400msecのディレイをかけてフィードバックとウェットレベルを調整の上で再生、としました。それぞれの言語でこの二つのプログラムを実装します。 オシレーター、ファイル読み込み、バッファ格納、フィードバック処理といった頻出処理の実装方法(もしくはライブラリ利用方法)がひととおり確認できて、言語間の比較もしやすいのではないかと思います。 githubの方も公開しました。こちらはすべての実行確認済みソースコードをダウンロード可能です。 https://github.com/aike/audiolang

                                                    オーディオプログラミング言語のカレンダー | Advent Calendar 2020 - Qiita
                                                  • 声優に「録音した音声でAIに合成音声を生成させることを認める」契約を迫るケースが増加、声優や組合からは反対の声

                                                    ゲームやアニメに声を吹き込む声優が、「AIで自分の声を再現する合成音声を生成することを認める」という条項を含む契約書にサインを求められるケースが増えていると、アメリカの声優や組合がIT系ニュースサイトのMotherboardで訴えています。声優たちは、こうした契約がまん延することで声優業界全体が大きなダメージを受ける可能性を危惧しています。 ‘Disrespectful to the Craft:’ Actors Say They’re Being Asked to Sign Away Their Voice to AI https://www.vice.com/en/article/5d37za/voice-actors-sign-away-rights-to-artificial-intelligence AIで声を再現する技術は急速に進歩しており、個人でも本人の音声データを学習させた

                                                      声優に「録音した音声でAIに合成音声を生成させることを認める」契約を迫るケースが増加、声優や組合からは反対の声
                                                    • 1.6万円で商用利用も可 AI読み上げソフト「VOICEPEAK」登場 7音源付属、Win・Mac・Linuxに対応

                                                      音声合成ソフトの開発と販売を手掛けるAHS(東京都台東区)は2月17日、AI技術により人間らしいトーク音声を合成できるソフトウェア「VOICEPEAK 商用可能 6ナレーターセット」を3月11日に発売すると発表した。価格は1万5800円からと安価だが、追加の許諾を得なくても商用利用できる。対応OSはWindows、MacOS、Linux。 音声合成エンジンは、AI歌声合成ソフト「Synthesizer V」を開発したDreamtonics(東京都台東区)が開発。文章を入力すると、AIが文脈などを基に人間らしく読み上げる。イントネーションや読み上げ速度、感情表現の変更などのコントロールも可能。 同社製の個人向け・商用利用ライセンス別売の製品は1キャラクターで1万円前後のものが多いが、本ソフトには男性3種類、女性3種類、女の子1種類の計7音源が付属。価格は初回限定版が1万5800円、割引なしの

                                                        1.6万円で商用利用も可 AI読み上げソフト「VOICEPEAK」登場 7音源付属、Win・Mac・Linuxに対応
                                                      • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                                                          音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
                                                        • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                                          PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                                            PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                                          • OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka

                                                            以下の記事が面白かったので、かるくまとめました。 ・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造

                                                              OpenAI DevDay で発表された新モデルと新開発ツール まとめ|npaka
                                                            • 無調整でもほぼ人間 AI歌声合成ソフト「CeVIO AI」の実力

                                                              市販の歌声合成ソフトとして、ヤマハのVOCALOIDとともに独自の歴史を刻んできた「CeVIO」が1月29日、登場から8年を前に大きく進化。深層学習の技術を取り入れ「CeVIO AI」として、開発元のテクノスピーチが発売した。まずはその歌声を聴いてほしい。 これは、ソフト上で楽譜を打ち込んで再生ボタンを押しただけで出力された音声だ。それだけでこのように人間らしい歌声が出力できる。「しゃくりあげ」や「ビブラート」といった歌唱表現も勝手に付く。メインボーカルとして起用するにはもう少し調整が必要だが、作曲中の仮歌に使うなら文句のないクオリティーになっている。人間らしい歌声を合成するまでの時間が短いため、作業を迅速に進められるのがメリットの一つだ。 CeVIO AIリリースまでの道のり CeVIOは2013年公開のWindows専用音声/歌声合成ソフト。名古屋工業大学が長年研究しているHMM(隠れ

                                                                無調整でもほぼ人間 AI歌声合成ソフト「CeVIO AI」の実力
                                                              • ひるおびの報道について音声学者として思うこと|川原繁人のnote(言語学者・音声学者)

                                                                5/28日追記:ある先生から咳のデータを見せて頂きました。論文の公開はできないとのことですが、咳における流量は発話における流量に比べて文字通り桁違いでした。また、音圧もこれまた桁違いでした。もちろん発話時の飛沫も大事ですが、咳の恐ろしさを実感する値でした。 *** やはり我慢ができなくなり、動画を撮ってUPしました。でも、書いたのはこちらの記事が先です。 *** 5月21日ごろでしょうか、『ひるおび』という番組で、以下のような仮説が紹介されたようです。日本語で「これはペンです」と言った場合と、英語でThis is a penと言った場合だと、後者の方が飛沫が飛ぶので、それが欧州やアメリカでの完成拡大に繋がっているのではないか、という話しです。 川原は実際の番組を見ておらず、しかも、前後は切り取られているので、どのような文脈だったのか詳しく存知あげていないのですが、音声・言語の専門家としてい

                                                                  ひるおびの報道について音声学者として思うこと|川原繁人のnote(言語学者・音声学者)
                                                                • Webページやアプリの実装に、知っておくと便利なHTMLの属性のまとめ

                                                                  Webページやアプリの実装に役立つ、知っておくと便利なHTMLの属性を紹介します。すでに使用されているものあると思いますが、いくつはこんな属性もあったのか、と発見があるかもしれません。 24 Lesser-Known HTML Attributes You May Want to Use ✨📚 by Madza (@madzadev) 下記は各ポイントを意訳したものです。 ※当ブログでの翻訳記事は、元サイト様にライセンスを得て翻訳しています。 はじめに 私は少し前に、HTMLのタグについての記事を公開しました。今回はその続編として、知っておくと便利なHTMLの属性を紹介したいと思います。 この記事で紹介する属性はすべて簡単に使用でき、外部ライブラリを使用しなければできないようなタスクを実現するのに役立ちます。 HTMLで特に便利な各属性の使用例と構文を理解しやすいように、コードスニペット

                                                                    Webページやアプリの実装に、知っておくと便利なHTMLの属性のまとめ
                                                                  • 男性が喋っても女性の声になるリアルタイムAIボイスチェンジャー「MMVC」でずんだもんなどがサポート

                                                                      男性が喋っても女性の声になるリアルタイムAIボイスチェンジャー「MMVC」でずんだもんなどがサポート
                                                                    • ビデオ会議中、マイクが“ミュート”でも音が取得されている問題 米国チームが検証

                                                                      Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米University of Wisconsin-Madisonと米Loyola University Chicagoの研究チームが発表した「Are You Really Muted?: A Privacy Analysis of Mute Buttons in Video Conferencing Apps」は、一般的なビデオ会議アプリにおいて、マイクをミュートにしている状態であっても音を取得できる可能性を指摘した論文だ。 結果は、全ての主要なビデオ会議アプリに対し、ミュート時でもやろうと思えば音を取得できる状態であることが示された。さらにWebexに関しては、マイクのミュートのオン/オ

                                                                        ビデオ会議中、マイクが“ミュート”でも音が取得されている問題 米国チームが検証
                                                                      • 英語ネイティブとの発音の違いを深層学習で可視化 ソニーCSLが開発

                                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(ソニーCSL)京都研究室の研究チームが開発した「A Language Acquisition Support System that Presents Differences and Distances from Model Speech」は、非母国語の学習において、学習者の発話とネイティブスピーカーの発話の差異を深層学習を用い分析し、視覚的に提示するシステムだ。学習者はこの差異を埋めようと繰り返し発話することで、ネイティブに近い発話を習得できるようになると期待できる。 (a)練習したい英語の文章と、ネイティブスピーカーの音声が与えられる。(b)学習者の

                                                                          英語ネイティブとの発音の違いを深層学習で可視化 ソニーCSLが開発
                                                                        • ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション

                                                                          以前DTMステーションで紹介したことのある、ソニー・ミュージックエンタテインメントのプロジェクトSoundmain(サウンドメイン)。ここでは、ソニーグループが研究・開発する最新の音楽関連テクノロジーがいち早く機能として実装され、クリエイターが利用できるようになっているのですが、今回ボーカル抽出という新機能が追加されました。これは、ブラウザ上で使える音楽制作プラットフォームSoundmain内の音楽制作サービスSoundmain Studio上で使える機能で、音源からボーカルのみを抜き出し、手軽に高品質なボーカル音源を作成することができます。 つまり楽器などの演奏も消せるわけなのですが、驚くべきはその精度。ボーカル抽出といえば、さまざまなソフトで行うことが可能ですが、声がシュワシュワになってしまったり、オケが残ってしまったりすることがありますよね。それに対し、Soundmain Studi

                                                                            ソニーによる世界最高の音源分離技術で実現した、ボーカルだけをキレイに抽出できるSoundmain Studioの新機能|DTMステーション
                                                                          • “ AIで亡き妻の歌声を再現”した作品がAIアートグランプリに | NHK

                                                                            人工知能=AIを使って制作した動画や漫画などの作品を表彰するコンテストが東京・秋葉原で開かれ、亡くなった妻の声などをAIで再現して歌を歌わせた東京都のクリエイターの動画がグランプリに選ばれました。 AIをめぐっては、簡単な命令でテキストや画像など生成してくれる「生成系AI」と呼ばれる新しいタイプのものが次々と登場するなど、ビジネスやアートなどさまざまな分野に利用が広がっています。 「AIアートグランプリ」は、CGクリエイターや研究者などの有志で作る実行委員会が初めて開催したもので、東京の秋葉原で開かれた最終審査会では、AIを使って制作した動画やゲーム、漫画などの279の応募作品から、1次審査を通過した動画と漫画の5作品の審査が行われました。 その結果、グランプリには、東京都のクリエイター松尾公也さんの動画「Desperado by 妻音源とりちゃん[AI]」が選ばれました。 この作品は、亡

                                                                              “ AIで亡き妻の歌声を再現”した作品がAIアートグランプリに | NHK
                                                                            • 禁断の“iPhoneステレオ録音”が実現。100円アプリ「ステレオマイク」が面白い【藤本健のDigital Audio Laboratory】

                                                                                禁断の“iPhoneステレオ録音”が実現。100円アプリ「ステレオマイク」が面白い【藤本健のDigital Audio Laboratory】
                                                                              • 自分の代わりに男性の声で応答する音声ボタン「応答くん」 - 家電 Watch

                                                                                  自分の代わりに男性の声で応答する音声ボタン「応答くん」 - 家電 Watch
                                                                                • AIによる声優の声と演技泥棒はマジでちょっとまずい。

                                                                                  これから先、確実に法規制が必要になる。 現在起きてること ・学習は合法との言い訳の下、オタ技術者が、大量にAIに声優の声と特徴を無断で学習 ・何千人の声が盗まれてるのか、ちょっとわからない。 海外で起きてること ・企業が勝手に使い始める ・抗議した声優に本人の声で脅迫メッセージが届く これから起きること(イラストで起きたことを当てはめる) ・「声優だって昔の人の演技を真似して技術を覚えたからAI声優は無料で使用する」とかバカが湧く ・「声を出せない障害者のためにAI声優を取り上げるな」と無断使用側が障害者を盾にする。 ・dlsiteに大量のAI声優音声AMSRが登録されてパンク ・同人やブラック企業が「使わないと勝てない」「新しい技術だ」と使い始める。 ・政治家が「日本が珍しく勝つチャンス。法規制は必要ない。みんなが数年後にはAI声優を使い始める」とか言い出す。 ・「日本だけが法律を作って

                                                                                    AIによる声優の声と演技泥棒はマジでちょっとまずい。