Zennのトレンド記事をまとめてAIがラジオをつくります。毎朝7時に更新。 お便りも募集中。送っていただいたお便りはAIパーソナリティが読み上げます。
いま最先端を行くAI歌声合成ソフトのSynthesizer VやAI音声合成ソフトのVOICEPEAKなどを手掛けるDreamtonicsが、また新たな画期的なシステム、Vocoflexなるものを発表されるとともに、そのベータ版が公開されました。これは人の歌声を10秒程度録音して、その場でAIに学習させると、誰でもその歌声にリアルタイム変換できるというユニークなシステム。WindowsやMacの環境で動かすことができ、マイクに向かって歌えばその場で変換するし、VST/AUのプラグインとしてDAWに挿せば、ボーカルトラックをその学習した人の歌声に変換することができるという、驚くべきソフトです。 単にその10秒程度録音した人の歌声に変換できるだけでなく、AIが歌声を学習し、分析した結果を独特な手法でグラフィック化するUIを採用しているのもユニークな点。その結果、人の歌声の特徴をグラフィックで表
発売延期となっている人工歌唱ソフトウェア「音楽的同位体 可不(KAFU) collaboration with Synthesizer V AI / The Right Stuff ver.」について4月12日、KAMITSUBAKI STUDIOのプロデューサー・PIEDPIPERさんが自身のXを通じて理由を明らかにした。 「可不」は、KAMITSUBAKI STUDIO所属のバーチャルシンガー・花譜さんの歌声をもとにした歌声合成ソフト。その最新版の発売延期が2023年12月下旬に発表され、今後の動向に注目が集まっていた。 https://twitter.com/i/status/1778731096445968819 PIEDPIPERさんの投稿によれば、Synthesizer V AI版の可不が歌った「フォニイ」の反響を受け、花譜さんから懸念の声が上がり、発売延期の打診があったという
ひょんな事から、とある芸能事務所に入ることになり、 篁 響季、風祭 朝陽、小紫 桃果、山田 花音らは ユニット「LAUGH DiAMOND」を結成することになったが、デビューどころか、自分たちの曲も用意してもらえず目下日々自主練(≒放置)状態の憂き目に遭っている。 あまりにも放置されているため、自分たちで路上ライブを試みるが…。 そしていつの日か、ライブハウスでたくさんの曲で ライブをやることが LAUGH DiAMOND の目標に… そんな彼女たちに、 あなたの曲を歌わせてあげてくれませんか? 「LAUGH DiAMOND」プロジェクトとは? 最新のディープラーニング技術を駆使したAI歌声ライブラリでもあり、 「篁 響季(たかむら・ひびき)」「風祭 朝陽(かざまつり・あさひ)」 「小紫 桃果(こむらさき・ももか)」「山田 花音(やまだ・かのん)」 で結成された夢見るシンガーユニット「LA
はじめに あけましておめでとうございます。去年は何といってもAIの年でした。ChatGPTやStableDiffusionが2022年末に登場してから、想像を超えてAI周りが進化しましたね。今回は年の初めという事もあり、前から興味のあったAITuberを作ってみる事にしました。 「AITuberを作ってみたら生成AIプログラミングがよくわかった件」 って本も買ったし。LLM部分だけでは無く、OBSやYouTubeのコメント取得などAITuberに必要な内容が一式揃っていて非常に参考になりました。 また、私はプログラミングは多少できますが、イラストや音楽に関しては全くスキルの無い人間です。そのためそのあたりに関してはStable DiffusionやSunoAIの力を借りて作っているので、結果的にオール生成AIという感じですね。そのあたりも含めて記事にまとめたいと思います。 TL;DR 素の
Bert-VITS2 with more controllable voice styles. style-bert-vits2-demo-JP-Extra.mp4 You can install via pip install style-bert-vits2 (inference only), see library.ipynb for example usage. 解説チュートリアル動画 YouTube ニコニコ動画 English README 🤗 オンラインデモはこちらから Zennの解説記事 リリースページ、更新履歴 2024-03-16: ver 2.4.1 (batファイルによるインストール方法の変更) 2024-03-15: ver 2.4.0 (大規模リファクタリングや種々の改良、ライブラリ化) 2024-02-26: ver 2.3 (辞書機能とエディター機能) 2
自分の声をまったく別のキャラクタの声に変えることを実現するAIボイスチェンジャー。エフェクトを使って自分の声を加工する従来のボイスチェンジャーとは異なり、自分の声は完全に消えて、まったく別人になりきれるのが特徴で、これまでもVoidolやCoeFontボイスチェンジャーといったものを記事でも紹介してきたほか、中国系のフリーウェアでもかなりの精度を持ったものがいろいろ登場してきています。 そうした中、12月25日、まったく新たなAIボイスチェンジャー、Parakeet.VC(パラキート・ブイシー)が、福島県のベンチャー企業、Parakeet株式会社からリリースされました。ここには東北ずん子や東北きりたん、またずんだもんをはじめ、計109種類の声が収録されており、ユーザーはそれらを選んで、マイクで話せばリアルタイムにキャラクタの声に変換することが可能です。既存のAIボイスチェンジャーと比較して
この記事はUnity Advent Calendar 2023の22日目 の記事です。 Unityゲーム開発におけるカットシーン制作での音声の尺を仮音声で確認したい A.I.VOICE for Gamesアンバサダーの一條です。 Timelineを使ってカットシーン制作を行っている際、セリフがどのくらいで終わりそうか仮の音声を用意してアタリをつける場面を考えます。 ・カメラ切替や演出のタイミングをどうすべきか?セリフを言った後にアニメーション、カメラ切替、エフェクトを切り替えたい ・ボイスありの場合、声優さんの収録がおわらないと長さが決めづらい。実際のボイスデータがどれくらいの長さになる? といったことを考えています。 合成音声ツールを使って、カットシーンの尺を調整するための仮音声があるといいのですが、自分で用意するのは面倒です。特に、セリフデータが大量にある場合はテキストから変換データを
この記事は本家Bert-VITS2のモデルをマージする方法を説明しています。Style-Bert-VITS2を使う場合は付属マージツールから面倒なことをすることなくマージできます。 宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 Bertを組み合わせることで入力テキストに応じて感情豊かな読み上げ音声の生成が可能な Bert-VITS2 というTTS(Text-to-Speech、読み上げ音声合成)のライブラリがあります。 詳しくは 参照。 Bert-VITS2を使ってずんだもんの通常の声音のみを学習させたずんだもんのモデルと、感情豊かな別のモデルをうまくマージすることで、ずんだもんの声のまま感情豊かに読み上げることが出来るモデルを作ることができたので、その実験と、手っ取り早いマージツールの共
現代の音声合成技術は特定の人物の声を基にして、その人と非常に似た合成音声を生成する能力を持つ。このような実在の人物の声の合成は、なりすましや詐欺などの不適切な使用が問題視されていることに加え、声の再現や公開がその人物の人格的利益や名誉感情に影響を与える可能性もある。また声優や歌手のように、自らの声を職業活動に利用する人々にとっては、無許可での声の再現や使用によって経済的損失を被る恐れがある。 この研究の焦点は、特定の人物の音声データから学習させたモデルを用いて、任意のテキストをその人物の声で読み上げる合成音声技術にある。日本ではこの問題に関する具体的な法的争訟例はまだ存在しないとされるが、研究では架空の事例を設定し、この技術が引き起こしうる問題点を探究する。以下がその事例になる。(音声合成AIの利用場面における法的課題―「声」に権利はあるのか―より引用)。 声優Xは、所属するタレント事務所
Nemo の音声ライブラリを用いて生成した音声は、「VOICEVOX Nemo」とクレジットを記載すれば、商用・非商用で利用可能です。 利用規約の詳細は以下をご確認ください。 利用規約
CD Projekt SAはポーランド語版『サイバーパンク 2077』の拡張パック「仮初めの自由」において、ポーランドの人気声優だった故Miłogost Reczek氏のボイスをAIで再現し収録していることを、米メディアのブルームバーグへ宛てた声明を通して述べました。なお、Game*Sparkによるローカライズ担当者へのインタビューでも同様の内容についてお話頂いているため、併せてご覧ください。 『サイバーパンク2077: 仮初めの自由』ローカライズの立役者にロングインタビュー。CDPR本国の担当ディレクター&日本語ローカライズマネージャー西尾さんに濃厚な話を訊いた | Game*Spark - 国内・海外ゲーム情報サイト 「ヴィクター・ベクターとしての素晴らしいパフォーマンスに敬意を表することができた」Reczek氏は『サイバーパンク 2077』でリパードクとしてVと関りの深い「ヴィクター
声優の梶裕貴さんは9月3日、合成音声ソフトの開発プロジェクトを発表した。YouTubeやX(旧Twitter)では、梶さんの声を基にした合成音声のサンプルも公開。今後、公式Xアカウントで詳細を案内するという。 サンプルでは平時の声に加え、不機嫌な声や怒った声、ささやき声など、感情を込めた声を出す様子も披露。プロジェクトには、AI歌声合成ソフトを手掛けるテクノスピーチが技術面で協力しているという。 関連記事 音声合成はアナウンサーや声優の仕事を奪うのか? 「AIアナウンサー」など、コンピュータが人間の代わりに音声の読み上げを務める機会が増えている。音声合成はどこまで人間のようにしゃべることができるのか。 AIは歌手の敵か味方か AIシンガー開発者が語る未来 分身がいることが武器になる社会へ AI歌声合成ソフト「CeVIO AI」を開発するテクノスピーチの大浦圭一郎代表は、AIシンガーと歌手の
","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"
「VOCALOID β-STUDIO」の試用申し込み受け付けが開始されたという記事を書くとともに、実際に申し込みもしていました。リリース前の協力者による作例が少しずつ公開されてきた23日、初回受付分からの抽選が行われ、筆者は運良く当選しました。 当選の案内著名ボカロPで外れた方もいらしたようなので、かなりの難関だった模様ですが、せっかく試す機会を得られたので、まずはインプレッションを書いてみようと思います。 Cubaseユーザー以外の使い勝手VOCALOIDを開発するヤマハにとって、Cubaseを開発している独Steinbergは子会社。ヤマハのDAWにはCubase LEのライセンスが付属するなど、強い連携をしています。VOCALOIDと連動するVOCALOID Editor for Cubaseも早くから提供されていて、「VOCALOIDを使うならCubase」となるのは当然のことでし
[CEDEC 2023]「スト6」の対戦を盛り上げる「自動実況機能」は,どのように作られたのか。システム構築や技術を解説するセッションをレポート 編集部:Junpoco ゲーム開発者会議「CEDEC 2023」の初日となる2023年8月23日,カプコンの薮下剛史氏,岩本卓也氏,アンドリュー・アルフォンソ氏によるセッション「『ストリートファイター6』対戦を熱く盛り上げる自動実況機能の取り組み」が行われた。 「ストリートファイター6」(PC / PS5 / Xbox Series X|S / PS4)で対戦中に使用できる「自動実況機能」を導入した目的や,システム構築,膨大なセリフ量を処理する工夫などが語られた講演の模様をレポートしよう。 そもそもなぜ,実況機能の導入を企画したのか 最初に薮下氏から,「そもそもなぜ,実況機能をゲームに導入したのか」が語られた。 実況機能導入で目指したところには,
声優の井上喜久子さんがCVを務めるキャラクタ、桜乃そら(読み方:ハルノソラ)。これまで喋るソフトとしてはVOICEROID2、歌うソフトとしてはVOCALOID5で製品が販売されていました。その桜乃そら誕生5周年というタイミングに合わせ、この度新たなバージョンが誕生することが7月25日に発表されるとともに、その翌日、7月26日に、井上喜久子さんご本人も登場する「AHS公式生放送」という形での発表会が開催されました。 その新バージョン、入力文字読み上げソフトとしてはVOICEPEAKを、歌声合成ソフトとしてはSynthesizer Vを使う形で製品化され、「VOICEPEAK 桜乃そら」、「Synthesizer V AI 桜乃そら」という2製品が8月24日にパッケージ版、ダウンロード版で発売されます。いずれのソフトもWindows、Mac、Linuxの環境で動作するため、使えるユーザーが大
すでに使っている方も多いと思いますが、2023年6月21日にSynthesizer Vの最新バージョン1.9.0が正式にリリースされています。これまでのSynthesizer V Studio Proのユーザーであれば、誰でも無料でバージョンアップできるようになっているのがスゴイところですが、この1.9.0ではついにラップに対応するという、音声合成・歌声合成の世界の中で初の試みが実現されています。これまでラップを音声合成ソフトや歌声合成ソフトで、無理やり実現させようと打ち込みを頑張ってみた経験のある方も少なくないと思います。でも、なかなか思うようにいかなかったのが現実ではないでしょうか? そのラップを今回のSynthesizer V 1.9.0ではついに現実のものにしたのです。現時点においては英語のラップと中国語のラップへの対応で、日本語にはまだ対応できていないようですが、現在準備中なので
本日、ゲーム開発環境向け音声合成エディター拡張「A.I.VOICE for GAMES」をリリースしました。 ゲーム開発環境上で簡単に、音声の一括作成/変更/修正などを行う事ができ、ゲーム開発時の音声管理を改善します!https://t.co/BfQca5CwNV#アイボス #AIVOICE pic.twitter.com/VYYBffZJAB — A.I.VOICE公式 (@AIVOICE_PR) August 4, 2023 株式会社エーアイは、Unity向けのエディタ拡張として「A.I VOICE for GAMES」を発表しました。Unityエディター上に合成音声を作成できるウィンドウを追加し、テキストからすぐにセリフのwaveファイルを作成、プロジェクトで利用することができます。 https://www.ai-j.jp/topics/8942/ 「A.I VOICE for GA
困ったときに押す謎のボタン「こまりますボタン」がTwitterで欲しいと話題です。ダイソーで販売されている商品で価格は220円。この発想はなかった。 バスの降車ボタン風の見た目で、「とまります」の音声が流れるかと思いきや、押すと「こまります」の音声が鳴る謎の玩具。本体裏には吸盤付きで、押す部分は「こまります」の文字が光るギミックもついています。 ボタンには「お困りの方はこのボタンを押してください」と書かれており、相手に直接言いにくいときなどに使うとどうにかなる……かもしれません。 ダイソーの「こまりますボタン」 同商品は以前から販売されているものですが、Twitterユーザーのえぐさ(@examplex_)さんが紹介したことで話題に。特に音声として、商用でも利用可能な無料のテキスト読み上げソフトウェア「VOICEVOX」が使われていることに驚きの声が寄せられました。 パッケージには利用のた
アイドルのライブ現場において、曲の間奏やサビなど、さまざまなタイミングでファンが叫ぶ「はい!はい!」、「それ!それ!それ!それ!」といった掛け声。またアイドルコールと呼ばれるものとして、「世界で一番あいしてる」、「世界で一番あいしてる」とか「やっとみつけたお姫様」のようなガチ恋口上、さらには「虎 火 人造 繊維 海女 振動 化繊」とか「タイガー!ファイヤー!サイバー!ファバー!ダイバー!バイバー!、ジャージャー!」のようなMIX。そしてステージの演者側からの掛け声である「せーの」、「もーいっかい」、「いっくよーー!」…といったものまで、ライブステージで登場するさまざまな掛け声をまとめた音源ライブラリー、「Pop Stars Shout!!」が新進気鋭のメーカー、TWO LANDSの第一弾製品として発表されるとともに、発売が開始されました(通常価格32,780円)。 このPop Stars
昨日6月18日に配信された「TOKYO6公式生放送」で、AHSが発売する入力文字読み上げソフト「VOICEPEAK」の新キャラクタとして小春六花(こはるりっか)が登場し、7月13日から発売されることが発表されました。小春六花は、音楽業界でも話題のアニメ「ぼっち・ざ・ろっく」の主人公、後藤ひとり役の声優、青山吉能さんがCVを務めるキャラクタ。これまでSynthesizer VまたはCeVIO AIトークボイスの製品が発売されていましたが、今回新たにVOICEPEAK版の小春六花が発売される形です。 驚きだったのは、Synthesizer VまたはCeVIO AIの小春六花のユーザーであれば、VOICEPEAK版の小春六花の開発版(β版に相当)を昨日より無料でもらえるようになっている、ということ。この開発版は7月13日の発売以降も製品版同等に継続アップデートが可能で、そのまま使い続けることがで
はじめに こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 Retrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 最近は自分でRVCのモデル構造弄って遊んでいます。最近勉強した技術の実験場みたいな感じなので本家にPRださないとは思いますが、その過程でRVCの学習回りについていろいろ分かってきたので自分用にまとめたいと思います。 RVCの構成 RVCはTTS(text to speech)とVC(Voice Convertaion)のモデルであるVITSをベースに、VCに特化させ『模倣対
Voicebox: Text-Guided Multilingual Universal Speech Generation at ScaleWe present Voicebox, a state-of-the-art speech generative model built upon Meta’s non-autoregressive flow matching model. By learning to solve a text-guided speech infilling task with a large scale of data, Voicebox outperforms single purpose AI models across speech tasks through in-context learning. Voicebox can synthesize spe
俳優・声優の権利保護活動を行う日本俳優連合は6月13日、「生成系AI技術の活用に関する提言」を発表した。著作権法の運用見直しやルール作り、「声の肖像権」の確立などを業界や国に求める。 提言内容は「国内外で活発に意見交換し、EUのAI規制を参考にしたガイドライン策定を行うこと」「著作権法の運用見直しをはかる」「AI生成作品であると明記すること」「AIの表現分野への進出について一定のルールを設けること」「声の肖像権を確立すること」。 日本俳優連合は「新しい技術の進化による人間社会の発展は望ましいこと」とする一方で、「実演家の、表現の模倣・盗用を安易に促し、職域を侵害する恐れがある」と問題視している。 「主体は人間であり、その補助をAIが行うという趣旨のもと、新たなガイドラインや法律の制定を強く望む」(日本俳優連合) 生成AIと俳優・声優を巡っては、実在の女優や女性声優などの画像を生成できる非公
以前「朗読での間(ま)と緩急でこれだけ変わる」という記事で、一部分を少しかえるだけで、印象が変わる、ということを書きました。 今日は、「語尾」を変えるだけで、これだけ変わる、ことを詳しく紹介します。 語尾に関しては、今までにも 「朗読が暗く聞こえる要因」 「朗読のセリフで喜怒哀楽を表現するコツ」でも語尾の読み方で印象が変わることを紹介しています。 また語尾のくせについても 「朗読の助詞上げのくせを直すコツ」でふれています。 このように「語尾」の扱いは案外難しいのです。 私がナレーションをするときに、いつも難しく感じるのが語尾の扱いです。 実は語尾の扱いひとつで、全体の印象が全く変わるのです。 ということは、語尾の扱いで全体の印象を変えることができるのです。 これはナレーションだけではなく、朗読でも、日常生活でも同じです。 かなり細かい話になっていきますが、チャレンジしてみてください。 なお
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く