並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 280 件 / 598件

新着順 人気順

音声の検索結果241 - 280 件 / 598件

  • 『The Elder Scrolls V: Skyrim』NPCとの会話AI生成Modをユーザーが開発。「膝に矢を受けた話」をめちゃくちゃ詳しく聞ける - AUTOMATON

    『The Elder Scrolls V: Skyrim』(以下、スカイリム)において「NPCの会話自動生成」を実現したユーザーが現れた。YouTubeに動作デモ動画が公開されている。Inworld AIとよばれるAIが用いられているといい、定型文ではなくユーザーが入力したテキストに対して世界観に沿った返答が音声付きで生成される。NPCとの自然な対話を楽しむことができるようだ。 *公式DLC『The Elder Scrolls V: Dragonborn』 『スカイリム』は、Bethesda Softworksが2011年にリリースしたオープンワールドARPG。自由度の高いシステムが魅力のひとつで、プレイヤーは自分が望むようにゲームを進めることができ、自由に世界中を探索することができる。発売から12年を迎える現在に至っても根強く愛され、ユーザーによるMod制作も盛んな作品である。 また、『

      『The Elder Scrolls V: Skyrim』NPCとの会話AI生成Modをユーザーが開発。「膝に矢を受けた話」をめちゃくちゃ詳しく聞ける - AUTOMATON
    • 新卒NLPエンジニアが取り組んだ音声合成システムにおける句境界予測モデルの導入

      LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog はじめに こんにちは、2020年4月に新卒としてLINE株式会社に入社した二又 航介です。テキスト音声合成システムの研究開発を担当するAI開発室 Voiceチームに所属し、音声合成システムにおけるテキスト処理部の研究開発やチームの機械学習基盤構築に取り組んでいます。 学生時代は機械翻訳や同時通訳に関連する研究に取り組んでいました。研究以外の活動としては、アルバイト・インターンでの対話システムや機械翻訳システムの研究開発、個人活動としてwebアプリケーション開発などを行っていました。このような活動を通じて、数多くのユーザーに利用される自然言語処理技術を活かしたサービスに携わりたいという思いからLINEを志望しました。学生時代は専

        新卒NLPエンジニアが取り組んだ音声合成システムにおける句境界予測モデルの導入
      • カシオのシンセサイザの原点はCZ-101にあり。PD音源とは何なのか|DTMステーション

        カシオから歌声合成機能を搭載したキーボード、CT-S1000Vが発売されてから2年が経過しました。世界中のユーザーがさまざまな使い方をしているようで、CT-S1000V Challenge Vol.2においてもユニークな作品が次々とUPされています。カシオ自身は、CT-S1000Vをシンセサイザとは呼んでいないようですが、音を作っていく楽器という面ではシンセサイザと言って間違いないでしょう。 もっともCT-S1000Vは突然生まれたわけではなく、カシオにおけるシンセサイザの長い歴史があるからこそ、誕生したもの。そのルーツを遡ると1984年に発売されたCZ-101というシンセサイザにたどり着きます。PD音源というユニークなシンセサイザ方式を発明したカシオが生み出した、画期的なシンセサイザだったのですが、実際どんなものなのか、その基本的な仕組みについてフォーカスを当ててみたいと思います。 19

          カシオのシンセサイザの原点はCZ-101にあり。PD音源とは何なのか|DTMステーション
        • ReazonSpeech - Reazon Human Interaction Lab

          ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

          • rinna/japanese-hubert-base · Hugging Face

            rinna/japanese-hubert-base","children":[],"isValid":true,"title":"rinna/japanese-hubert-base"},{"id":"overview","label":"Overview","children":[],"isValid":true,"title":"Overview"},{"id":"how-to-use-the-model","label":"How to use the model","children":[],"isValid":true,"title":"How to use the model"},{"id":"how-to-cite","label":"How to cite","children":[],"isValid":true,"title":"How to cite"},{"id"

              rinna/japanese-hubert-base · Hugging Face
            • 大量発生のウニ、廃棄野菜で“絶品”に変身|日テレNEWS NNN

              キャベツを水槽に入れるとウニがキャベツをキャッチして食べます。神奈川県水産技術センターが5年前から始めた取り組みです。みかんも食べます。 神奈川県水産技術センター・臼井主任研究員「海藻がなくなった海の害になっている生き物を駆除しましょうと、これ(ウニ)が駆除の対象だったんです」 ウニは海の海藻を食べますが、海藻の生育が追いつかず、海には身の少ないウニが大量に発生。それを回収し養殖することにしました。問題はそのエサでした。 臼井さん「いろんなものを食べさせてみたら、本当によく食べるんですね」「マグロの皮、おから、パンの耳、お弁当に入っていたおかず食べさせたら…(何でも)食べるんですよ」 三浦半島はキャベツの一大産地ですが、規格外やキズの入ったキャベツは廃棄されるという問題を抱えていました。そこで廃棄するキャベツを分けてもらい、ウニに与えると食べました。 ほとんどなかった可食部は3か月飼育する

                大量発生のウニ、廃棄野菜で“絶品”に変身|日テレNEWS NNN
              • Microsoftがわずか数秒のサンプルから会話や歌声を再現できる音声合成AI「NaturalSpeech 2」を発表

                2023年4月18日にMicrosoft Research AsiaとMicrosoft Azureのカイ・シェン氏らの研究チームが拡散モデルを使用した小品質の音声合成システム(TTS)である「NaturalSpeech 2」を発表しました。NaturalSpeech 2では数秒の短い音声サンプルを利用する事で、人の声だけでなく歌声までも忠実にシミュレートすることが可能になっています。 [2304.09116] NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers https://doi.org/10.48550/arXiv.2304.09116 NaturalSpeech 2 https://speechresearch.github.io/na

                  Microsoftがわずか数秒のサンプルから会話や歌声を再現できる音声合成AI「NaturalSpeech 2」を発表
                • AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール

                    AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール
                  • 気になってた同人音声を買った「妹がオートミールのことを白米だと言い張ってくれるボイス」→売れなくても尖らせを続けた同人の鏡

                    リンク DLsite 妹がオートミールのことを白米だと言い張ってくれるボイス [末期偶想] | DLsite オートミールを白米の代わりとして食べるあなたのサポートになるかもしれないしならないかもしれないボイス作品になっています「DLsite 同人」は同人誌・同人ゲーム・同人ボイス・ASMRのダウンロードショップ。お気に入りの作品をすぐダウンロードできてすぐ楽しめる!毎日更新しているのであなたが探している作品にきっと出会えます。国内最大級の二次元総合ダウンロードショップ「DLsite」! 1 user

                      気になってた同人音声を買った「妹がオートミールのことを白米だと言い張ってくれるボイス」→売れなくても尖らせを続けた同人の鏡
                    • 「本人の声とそっくりな合成音声」の悪用に対して法的権利はあるか? NTT社会情報研究所が調査

                      現代の音声合成技術は特定の人物の声を基にして、その人と非常に似た合成音声を生成する能力を持つ。このような実在の人物の声の合成は、なりすましや詐欺などの不適切な使用が問題視されていることに加え、声の再現や公開がその人物の人格的利益や名誉感情に影響を与える可能性もある。また声優や歌手のように、自らの声を職業活動に利用する人々にとっては、無許可での声の再現や使用によって経済的損失を被る恐れがある。 この研究の焦点は、特定の人物の音声データから学習させたモデルを用いて、任意のテキストをその人物の声で読み上げる合成音声技術にある。日本ではこの問題に関する具体的な法的争訟例はまだ存在しないとされるが、研究では架空の事例を設定し、この技術が引き起こしうる問題点を探究する。以下がその事例になる。(音声合成AIの利用場面における法的課題―「声」に権利はあるのか―より引用)。 声優Xは、所属するタレント事務所

                        「本人の声とそっくりな合成音声」の悪用に対して法的権利はあるか? NTT社会情報研究所が調査
                      • ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る

                        Overview 画像/音声処理をリアルタイムで行う、Webブラウザから利用できるアプリをStreamlitで作る方法を解説します。 StreamlitのおかげでPythonだけでwebアプリが作れます。さらに、一番簡単な例なら10行程度のPythonコードで、webカメラを入力にしてブラウザから利用できるリアルタイム画像処理アプリケーションになります。 Webベースなのでクラウドにデプロイでき、ユーザに簡単に共有して使ってもらえ、UIもイマドキで綺麗です。 人物・物体検知、スタイル変換、画像フィルタ、文字起こし、ビデオチャット、その他様々な画像・音声処理の実装アイディアをデモ・プロトタイピングするのになかなかハマる技術スタックではないでしょうか。 Webブラウザから利用できる物体検知デモの例。実行中に閾値をスライダーで変えられる。オンラインデモ🎈 同様にスタイル変換デモの例。実行中にモ

                          ブラウザで動くリアルタイム画像/音声処理アプリをStreamlitでサクッと作る
                        • 音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと

                          「Unreal Engine (UE) Advent Calendar 2022 その3」23日目の記事です。 はじめに OpenAIの音声認識AI「Whisper」がすごいらしい。これをUnreal Engineでリアルタイムに動かせるようにしたら応用範囲が広がっておもしろいんじゃないかと思いました。 (「異議あり!」って実際に声に出させたいよね) (NLPアドベンチャーを音声入力で、みたいな夢も広がる) しかし、いざやってみたらいろいろな課題にぶつかりました。この記事は、それらをどう解決したかの記録です。 目次 目標設定:C++とONNX Runtimeで実装する Whisperの処理の全体感 課題と対応 課題1:マイク入力と前処理をC++で実装する 課題2:Whisperの機械学習モデルをONNXにエクスポートする 課題3:ONNXモデルをtransformer&FP16向けに最適化

                            音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと
                          • コナン君に「#歌わせてみた」流行曲、実はAI偽音声…困惑する声優たち「対処しようがない」 (読売新聞オンライン) - Yahoo!ニュース

                            生成AI(人工知能)を使い、声優らの偽音声を作り出して無断利用した動画がSNSに投稿される事態が相次ぎ、当事者らに不安が広がっている。勝手に曲を歌わせたり、文章を朗読させたりしていて、専門家らは、権利の保護や悪用防止のため、AIの利用について一定の規制が必要と指摘している。(福元理央) 【写真】「コナン君に歌ってもらった」とティックトックに投稿された動画 無許可 「コナン君に歌ってもらった」。今年7月、動画共有アプリ「TikTok(ティックトック)」などに、そんなタイトルの動画が投稿された。人気アニメ「名探偵コナン」の主人公・江戸川コナンの「声」と称して、アニメとは全く関係のない流行曲を歌わせた動画で、投稿者は「音声はAIで作成」としている。

                              コナン君に「#歌わせてみた」流行曲、実はAI偽音声…困惑する声優たち「対処しようがない」 (読売新聞オンライン) - Yahoo!ニュース
                            • AIを使った音声圧縮で従来の圧縮を超えた圧縮率と圧縮速度を「Encodec」が実現

                              ガブリエル・シナエーブ氏らによるMeta AIの研究チームが、インターネットにおける音声の「圧縮」に対してAIを用いることで従来の圧縮よりもさらなる圧縮が可能である、という研究を発表しました。AIを用いた圧縮により、豊かなマルチメディア体験を楽しむことができると説明しています。 Using AI to compress audio files for quick and easy sharing https://ai.facebook.com/blog/ai-powered-audio-compression-technique/ 今日のインターネットにおいて「圧縮」はなくてはならない要素で、圧縮により、高品質な画像やストリーミングが可能になります。しかし、現状の圧縮技術には高速なインターネット接続と十分なストレージ容量が必要になり、高品質で中断のないインターネットは一部の人しか体験できま

                                AIを使った音声圧縮で従来の圧縮を超えた圧縮率と圧縮速度を「Encodec」が実現
                              • AIボイチェンアプリ「Voidol」が無償化 ~誰でも美少女・イケメンボイスになれる!/クリムゾンテクノロジーが初代「Voidol」と「Voidol Plugin Package」を無料公開中

                                  AIボイチェンアプリ「Voidol」が無償化 ~誰でも美少女・イケメンボイスになれる!/クリムゾンテクノロジーが初代「Voidol」と「Voidol Plugin Package」を無料公開中
                                • TechCrunch

                                  EyeEm, the Berlin-based photo-sharing community that exited last year to Spanish company Freepik after going bankrupt, is now licensing its users’ photos to train AI models. Earlier this month,

                                    TechCrunch
                                  • 無料で商用利用可能な楽曲などをダウンロードし放題なムービー製作やゲーム製作などの強力な味方になる「dig.ccMixter」

                                    YouTubeなどの動画投稿サイトにムービーを投稿したり同人ゲームを作ったりしている人にとって、作品中で自由に使用できる楽曲を見つけることは非常に重要です。「dig.ccMixter」は、クリエイティブ・コモンズ・ライセンスに基づき再利用可能な各種音源を提供するコミュニティ「CcMixter」に登録された楽曲から、ムービーやゲームなどに利用できる楽曲や、商用利用可能な楽曲もダウンロードできるウェブサイトとなっています。 dig.ccMixter Home http://dig.ccmixter.org/ 上記URLから「dig.ccMixter」にアクセスして…… ページの下部にスクロールすると、「Instrumental Music for Film & Video(映画やビデオに打ってつけのインスト曲)」「Free Music for Commerical Projects(商用利用可

                                      無料で商用利用可能な楽曲などをダウンロードし放題なムービー製作やゲーム製作などの強力な味方になる「dig.ccMixter」
                                    • 面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ

                                      インタビューの記録や会議の議事録を作成する際は録音した音声を聞いて文字起こしする作業が必要ですが、自分の耳で聞いて一から文字起こしするのは非常に手間がかかる作業です。LINE株式会社が開発した音声認識アプリ「CLOVA Note」ならAIの力を利用して文字起こしが可能とのことなので、実際に使って文字起こしの手順や精度を確かめてみました。 CLOVA Note公式サイト https://clovanote.line.me/ CLOVA NoteにはiOS版・Android版・ブラウザ版が存在しており、利用の際にはLINEアカウントが必須です。今回はiOS版とブラウザ版を使ってみます。 ・目次 ◆1:iOS版CLOVA Noteのインストール&初期設定 ◆2:アプリ版CLOVA Noteの使い方 ◆3:ブラウザ版CLOVA Noteの使い方 ◆4:アプリ版CLOVA Noteとブラウザ版CLO

                                        面倒な文字起こし作業を一瞬で実行可能なLINE製AI音声認識アプリ「CLOVA Note」の使い方まとめ
                                      • コロナ禍で苦しむミュージシャンの救世主となるか?ヤマハがネット越しのセッションツール、SYNCROOMをリリースする背景|DTMステーション

                                        4月9日、ヤマハから「ご自宅からでもみんなで合奏が楽しめる ヤマハ オンライン遠隔合奏サービス『SYNCROOM』 ベータ版公開中、2020年6月頃より正式公開予定」という報道発表がされ、プロ・アマ問わず多くのミュージシャンの間で大きな話題になっています。このSYNCROOM(シンクルーム)とは、自宅にいながらにして、まさにスタジオに入ったように仲間とセッションができるという画期的ツールで、6月にヤマハが無料でリリースするというものです。 SYNCROOMを使うことで、バンドメンバーで練習できるのはもちろんのこと、そのみんなでの演奏をそのままネット配信するといったことも可能だし、その演奏を16bit/48kHzもしくは16bit/44.1kHzの非圧縮の状態でレコーディングして作品を作っていくといったことも可能。外出や人と会うことが難しい今、まさにみんなが求めている夢のようなツールなのです

                                          コロナ禍で苦しむミュージシャンの救世主となるか?ヤマハがネット越しのセッションツール、SYNCROOMをリリースする背景|DTMステーション
                                        • 同人音声作品の【スタジオバイノーラル収録】で、【複数声優同時収録】すると起きること

                                          最近、同人音声作品の【スタジオバイノーラル収録】で、【複数声優同時収録】どうですか?的な依頼が来たり、流行ってたりするので、サークルさん側(依頼側)は知らないかもしれないけど、知ると「ひえぇ…」てなることをまとめます。身内に送る用まとめなので、全くわからない方は参考程度にどうぞ。違うな…と思う方はまとめページをご自分で作って公開してからURLをコメントにでも貼っておいて下さい。(参考URLとして記事に後で貼っておきます)

                                            同人音声作品の【スタジオバイノーラル収録】で、【複数声優同時収録】すると起きること
                                          • ボイチェンにKawaii養成ギブスという切り口|ねこみみマスター|note

                                            導入 自分はえっちな猫耳ピンクの女の子が好きなので、自分がえっちな猫耳ピンクになってVRで活動できるのは大変楽しい。シコれる。 ”女の子になりたいと思ってる男”とか、魔法陣とかで人からケモノに変身しちゃうやつとか、ケモミミ尻尾が生えてきてにゃーん♡とか、そういうのが大変好きです。 そして、VRは”””この感じ”””を再現するのに向いてる技術です。 なので、自分の気づいた事をシェアして、VRの空間に少しでもえっちなケモミミの女の子を増やすキッカケになる事が本記事の目的であり、記事を書く理由である。 機材構成 声→[SHUREのヘッドセット]→[SHUREのワイヤレス(SVXシリーズ SVX14/PGA31)]→[VT-4]→[PC(ソフトウェアを使わずそのまま出力)] ピッチフォルマントは+1.5目盛り オートピッチ/リバーブはOFF VT-4Driverの設定はオーディオのブァッファサイズ

                                              ボイチェンにKawaii養成ギブスという切り口|ねこみみマスター|note
                                            • Moe TTS - a Hugging Face Space by skytnt

                                              Discover amazing ML apps made by the community

                                                Moe TTS - a Hugging Face Space by skytnt
                                              • 商用可・無料のAI音声読み上げツール「VOICEVOX」v0.12はテキストでキャラのスタイル指定が可能に/イントネーションをリセットする機能や全テキストを繋げて書き出す機能も

                                                  商用可・無料のAI音声読み上げツール「VOICEVOX」v0.12はテキストでキャラのスタイル指定が可能に/イントネーションをリセットする機能や全テキストを繋げて書き出す機能も
                                                • Jam

                                                  Join this audio room

                                                    Jam
                                                  • 無償入手可能な音声コーパス/音声データベースの一覧 - Qiita

                                                    無償かつ入手しやすい音声データセットをメモしています。 ライセンス・利用規約は「商用利用可能」「研究用途のみ」ともに紹介します。 コーパスを探すときに有用なサイト コーパス配布元サイト 音声資源コンソーシアム : 日本語コーパスが豊富、無償または有償で利用可能 緩いライセンスのコーパスでなくても良いときはここ 自発的発話の日本語音声コーパスはだいたいここにある 入手は要申請 所属や責任者を記入する必要があるため、研究者や企業でないと厳しい? (この記事では音声資源コンソーシアムのコーパスは未掲載) Shinnosuke Takamichi: コーパス一覧 : 日本語中心。高道先生が携わっている音声コーパス 大量の日本語音声コーパスが配布されている 音声合成のコーパスをつくろう (Slideshare) : 2021年6月時点の音声コーパス事情 あなたにどうしても伝えたい30の音声コーパス

                                                      無償入手可能な音声コーパス/音声データベースの一覧 - Qiita
                                                    • Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化

                                                      米Metaは8月2日(現地時間)、テキストプロンプトから音楽や音声を生成する生成AIツールスイート「AudioCraft」をオープンソース化したと発表した。トレーニングに使うデータの多様化もオープンソース化のねらいの1つだ。 AudioCraftは、エフェクトやサウンドスケープを生成する「AudioGen」、テキストからメロディーを生成する「MusicGen」、ニューラルネットワークベースのオーディオ圧縮コーデックの「EnCodec」の3つのコンポーネントで構成されている。MusicGenは単体で6月にオープンソース化されている。EnCodecは昨年11月に公開済みだが、最近の改良でより高品質な音楽生成が可能になったという。 MusicGenは、Metaが所有する音楽と、「この目的のために特別にライセンスを取得した音楽」をあわせて2万時間分のデータでトレーニングしたとしている。 Metaは

                                                        Meta、テキストプロンプトで作曲できる生成AIスイート「AudioCraft」をオープンソース化
                                                      • ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita

                                                        はじめに 現在のデジタル社会では、Teamsなどのオンライン会議が日常的に行われています。 しかし、その議事録を取るのは容易ではありません。そこで、OpenAIのChatGPTとWhisperを使って、動画ファイルから議事録を自動生成する方法をご紹介します。 補足説明:ChatGPTについて ChatGPTは、OpenAIが開発した自然言語処理AIで、人間と自然に会話することが可能です。GPT-3、GPT-4という大規模な言語モデルをベースにしており、様々な文脈での文章生成が得意です。 補足説明:Whisperについて Whisperは、OpenAIが開発した自動音声認識(ASR)システムです。大量の音声とテキストデータで訓練されており、音声をテキストに変換するタスクを効率的に行います。 処理の流れ ここから、具体的に動画ファイルから議事録を生成するための具体的な手順を説明します。 1.

                                                          ChatGPT, Python, Whisper APIを活用し、動画ファイルから議事録を自動生成 - Qiita
                                                        • スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告

                                                          スマートスピーカーやスマートフォンなどのデバイスに搭載されているMEMSマイクにレーザー光線を当てることで、AIアシスタントを操作できることを、電気通信大学の菅原健准教授らの研究者が11月4日に公開した論文で紹介し、専用サイトも公開した。 研究者らはこの仕組みを「Light Commands」と名付けた。光を使って遠距離から音声制御システムにコマンドを送る攻撃だ。攻撃者は音声信号を光に変調してマイクに向けて照射し、マイクは受信した光を音声信号に変換してアシスタントに伝える。実験では、透明なガラス窓越しに、最大110メートル離れた位置からコマンド入力に成功した。 実験でコマンド入力に成功したのは、Appleの「Siri」、Googleの「Googleアシスタント」、Amazon.comの「Alexa」、Facebookの「Portal」を搭載するさまざまな製品。 例えば、スマートホームを制御

                                                            スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告
                                                          • SYNCROOM(シンクルーム)

                                                            ネットワークの「音の遅れ」による ストレスを減らした演奏アプリ。 遠く離れている人たちと気軽に音楽を愉しもう。 演奏仲間との練習が 手軽に出来る! 「本番まであまり時間がないのに、バンドメンバーの予定が合わない…」 「皆で集まれる練習スタジオが近くにないから不便…」 遠隔地に住んでいる人同士でも、時間や場所の制約なく、自宅でも気軽に音合わせや合奏練習ができます。 演奏がもっと愉しくなる! 「一人で練習するよりも、刺激になるセッションをもっとしたい!」 「いつもとは違う、新しいジャンルの曲にも挑戦したい!」 様々な人たちとのライブセッションを重ねることで、より実践的な練習ができます。曲やジャンルの幅が広がり、演奏がもっと愉しくなるでしょう。

                                                              SYNCROOM(シンクルーム)
                                                            • AIひろゆき、投げ銭で時給1万4273円稼ぐ

                                                              AI音声合成サービスを提供するCoeFont(東京都港区)は4月21日、西村博之(ひろゆき)さんをモデルとする「AIひろゆき」にYouTubeで生配信をさせたところ、3時間で4万2820円の“投げ銭”が集まったと発表した。 AIひろゆきは、ひろゆきさんらしいコメントを生成するAIと、ひろゆきさんの声を再現した音声合成AIで構築したもの。コメント生成には大規模言語モデル「GPT-4」を活用。ひろゆきさんがしゃべりそうなことを教えたうえで文章を生成させ、CoeFontの音声合成AIで読み上げる仕組み。 配信は4月13日の午後6時から3時間実施。コメント欄から取得した視聴者の質問に応じてテキストを生成し読み上げた。配信画面には、AI画像生成技術を使って作成したひろゆきさんの画像を使用。読み上げの内容に応じた画像を用意して表示したという。 得た収益はひろゆきさんにも分配した。CoeFontによると

                                                                AIひろゆき、投げ銭で時給1万4273円稼ぐ
                                                              • DeNA目線で見る 音声変換の最先端 - Qiita

                                                                (2021年5月13日追記)七声ニーナをリリースしました。DeNAの音声変換をご体験ください。 DeNAのAIシステム部、音声チームの豆谷と申します。私は2020年10月に新卒入社しましたが、2021年の新卒組として記事を書きます。 私は今まで音声合成や距離学習の研究をしてきて、音声変換(voice conversion;VC)については入社後キャッチアップしています。本記事では、DeNAの音声チームが注目する最先端の音声変換技術を紹介し、ユーザの喜びと驚きを生み出したいDeNA視点を交えながら解説します。 想定する読者は、音声変換に興味を持つ方、音声技術を生かして新たなエンタメ作りに挑戦したい方です。特に、 音声変換に関心がある学生がサクッと論文レベルで最先端の音声変換を把握できるようなお得な記事で 読者の「音声変換による新しいエンタメ作りに向けた研究開発の一歩」になる ように努めます。

                                                                  DeNA目線で見る 音声変換の最先端 - Qiita
                                                                • Google Cloud Speech API vs. Amazon Transcribe - Qiita

                                                                  文字起こしAPIガチンコバトル ググってざっと見れた範囲の「文字起こしAPI比較してみた」系記事では、数行(もしくは数分)レベルの非常に短い文字起こしを行いgood/badを述べているものが多いです。もしくはニュース動画のような"クリアすぎる音源"に対して行っているものも多いです。Amazon Transcribeについてバズっていたブログでも、英語での文字起こしで精度が高い話をしています。自然言語処理分野では英語の精度が高いのは知られているところですが日本語だとどうかというところが気になるところです。 自分が知りたいのは、 - 日本語の音源 - Podcastのように素人収録されたある程度ノイズが含まれた音源 - 1hくらいの長尺音源 - 複数人がクロストークしている音源 というような特徴を持った音声データに対してAPIだけでどこまで戦えるか(文字起こしできるか)だったので、いろいろ検証

                                                                    Google Cloud Speech API vs. Amazon Transcribe - Qiita
                                                                  • 東北きりたん歌声DBの制作者さんにアレコレ聞いてみた【インタビュー】 - アマノケイのまったり技術解説

                                                                    歌声合成界隈に革命を起こしたAIベースの歌声合成ソフト「NEUTRINO」 特に、東北きりたん(CV:茜屋日海夏)のリアルな歌声を合成できることが非常に大きな話題を呼びました でも、どうして急に東北きりたんの歌唱AIがリリースされたのでしょうか? というわけで、今回は「東北きりたん歌唱データベース」を制作した明治大学の准教授、森勢将雅先生にお話を伺ってみました。 本日はよろしくお願いします。 早速ですが、森勢先生はNEUTRINOの開発者ですか? 森勢:いいえ。開発者ではありませんが、これがきっかけで新しいソフトウェアの開発が進んだり、オペレーションや調音(調声,調教...etc)の必要性を再認識して頂ければ嬉しいです。 それに関連して、私の方で研究・開発しているエディタはNEUTRINOや関連する技術で作られた歌声を出発点として、調音作業の手間を削減することを目的にしています。 「誰でも

                                                                      東北きりたん歌声DBの制作者さんにアレコレ聞いてみた【インタビュー】 - アマノケイのまったり技術解説
                                                                    • 文字起こしと日本語入力の未来

                                                                      現在日本語を文字化するという手段は、キーボード入力を変換するためのIM(Input Method)が主力だが、開発できるのはOS提供会社と、ごく少数のサードパーティに限られる。 だが昨今、AI音声認識によるテキスト変換サービスが次々と登場し、テキスト作成にイノベーションをもたらしつつある。IM開発と違い、AI音声認識ではプレイヤーががらりと変わるというのが面白い。特にスマートスピーカーを展開している企業は常に音声データを解析しまくっているため、有利なのだろう。 Googleは直接コンシューマーユーザーにサービス提供しているが、AmazonはAWSの組み込みエンジンとして「Amazon Transcribe」を提供している。Appleは個人情報を持ちたくないだろうから、今のところ直接ビジネスをやるつもりはなさそうだ。 またベンチャーが多く参入しているのも、この世界の特徴である。国外企業もワー

                                                                        文字起こしと日本語入力の未来
                                                                      • 無料で使えるAI音声合成サービス「CoeFont STUDIO」商用利用も可 | Ledge.ai

                                                                        サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

                                                                          無料で使えるAI音声合成サービス「CoeFont STUDIO」商用利用も可 | Ledge.ai
                                                                        • 日本俳優連合が“生成AI”に提言 「新たな法律の制定を強く望む」 声の肖像権確立など求める

                                                                          俳優・声優の権利保護活動を行う日本俳優連合は6月13日、「生成系AI技術の活用に関する提言」を発表した。著作権法の運用見直しやルール作り、「声の肖像権」の確立などを業界や国に求める。 提言内容は「国内外で活発に意見交換し、EUのAI規制を参考にしたガイドライン策定を行うこと」「著作権法の運用見直しをはかる」「AI生成作品であると明記すること」「AIの表現分野への進出について一定のルールを設けること」「声の肖像権を確立すること」。 日本俳優連合は「新しい技術の進化による人間社会の発展は望ましいこと」とする一方で、「実演家の、表現の模倣・盗用を安易に促し、職域を侵害する恐れがある」と問題視している。 「主体は人間であり、その補助をAIが行うという趣旨のもと、新たなガイドラインや法律の制定を強く望む」(日本俳優連合) 生成AIと俳優・声優を巡っては、実在の女優や女性声優などの画像を生成できる非公

                                                                            日本俳優連合が“生成AI”に提言 「新たな法律の制定を強く望む」 声の肖像権確立など求める
                                                                          • 絶体絶命の危機を迎えたグーグルのAI開発、遅れをとった理由 | Forbes JAPAN 公式サイト(フォーブス ジャパン)

                                                                            2015年にGoogle(グーグル)のCEOに就任したスンダー・ピチャイは、その翌年の開発者会議Google I/Oで、同社が「AIファースト」企業になると宣言したが、その2年前の2014年にAmazon(アマゾン)は音声アシスタント「Alexa(アレクサ)」を発表しグーグルを驚かせた。「世界の情報を整理する」というのがグーグルの使命であり、このようなサービスは本来、同社が行うべきものだった。 それから7年後の現在、グーグルは再び同様の立場に追い込まれているが、今回はさらに分が悪い。挑戦者はOpenAIというサンフランシスコの比較的小さなスタートアップで、アマゾンのような資金力のある巨大企業ではない。ChatGPTと呼ばれる同社の人工知能(AI)チャットボットは、考えうるほぼすべてのテーマについて、まるで人間が書いたかのような文章を生成するが、このボットはグーグルが数年前に開拓した技術的ブ

                                                                              絶体絶命の危機を迎えたグーグルのAI開発、遅れをとった理由 | Forbes JAPAN 公式サイト(フォーブス ジャパン)
                                                                            • 自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア

                                                                              収録した音声をそのままテキストに自動で文字起こしするSpeech to Text(STT、音声テキスト変換)モデルや、入力したテキストを自動音声で読み上げるText to Speech(TTS、テキスト音声変換)モデルをオープンソースで開発する企業が「Coqui」です。 Coqui https://coqui.ai/ Coquiの創設者たちはもともとFirefoxやThunderbirdの開発で知られるMozillaに在籍していました。創設者たちは音声技術が大企業によって独占され、オープンソースで提供されなくなるかもしれないと考え、独立して企業を立ち上げ、オープンソースの音声認識エンジンを構築したとのこと。 CoquiのSTTモデル「Coqui STT」のリポジトリはGitHubにホストされています。Coqui SSTの特徴は、あらかじめ音声ライブラリが用意されているのではなく、あらかじめ

                                                                                自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア
                                                                              • 人気VTuberのつぶやきをAIによる音声合成で本人の声で再現する「棒読みこち」がすごい

                                                                                ホロライブ所属の人気VTuberであるさくらみこさんの声を参考にAIによる音声合成を行い、さくらみこさん本人のツイートをそのまま読み上げる「棒読みこち」が公開されています。 さくらみこさんの声を参考にして作られた音声合成AI、棒読みみこち、生まれました‼️ みこちのツイートを、たまーに読み上げます‼️#miko_Art pic.twitter.com/QiQUvck4ME— 棒読みこち (@bouyomiko35) 例えば、以下のさくらみこさんのツイート。 ショーシャンクの空に みこが目の前が真っ暗になったら 思い出してまた観よう、と思った そんな名作でした???? 泣いたけど気持ちよくGW楽しんでいけるぜぇ! 必死に生きよう⛏#みこ市長— さくらみこ????SakuraMiko (@sakuramiko35) これを読み上げたものが以下。本人の声でツイートを読み上げています。やや人工的な

                                                                                  人気VTuberのつぶやきをAIによる音声合成で本人の声で再現する「棒読みこち」がすごい
                                                                                • whisper.cppのCore ML版をM1 MacBook Proで動かす

                                                                                  OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。

                                                                                    whisper.cppのCore ML版をM1 MacBook Proで動かす