ESETは11月22日(現地時間)、「Your voice is my password – the risks of AI-driven voice cloning」において、生成AIにより合成した音声を悪用したソーシャルエンジニアリング攻撃の実験に成功したと伝えた。この実験では、従業員が自社の最高経営責任者(CEO: Chief Executive Officer)になりすまして、財務責任者から自分宛てに送金させることに成功しており、生成AIの危険性について注意喚起している。 Your voice is my password – the risks of AI-driven voice cloning これは事前にCEOの許可を得て行っ実験であり、ここで解説する手法をまねることは犯罪となる可能性があることに注意。この実験と同様の攻撃が今後増加する可能性があると懸念されており、企業や組
こんにちは、nadareです。 機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。 最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。 本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記 続・RVCのモデルを日本語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記 これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習
高精度でリアルタイム処理も可能なAI声質変換ソフト(ボイスチェンジャー)「RVC」の記事が大変な反響を呼びました。Stable DiffusionやChatGPTなど生成系AIがメジャー化する中、世間からはそれほど大きな注目を浴びているわけではありませんが、音声AIも驚くべき速度で進化を遂げています。 AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge 記事中でデモとしてお聞かせしたのは、筆者の妻の歌声を高精度に再現するもので、それはこのソフトのおそらく最大の特徴を生かしたものではありません。そこで、また実験をしてみることにしました。 今回は、ポッドキャストbackspace.fmを10年近く一緒にやっている友人であるドリキンのAIモデルをRVCで作ってみました。 backsp
おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。 AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。 筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion(拡散)モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは「実は今は新しいAI技術を使っているんですよ」と付け加えなければいけません。 妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC(SoftV
より人に近い声で、さらにラジオ放送に利用する上で十分な声質かどうか、という点は極めて重要でした。Amazon Polly は最も人間に近い音声で、これならラジオ放送に利用してもリスナーに受け入れられると考えました。 Amazon Polly にかかるコストは、年間わずか 400〜800 円で、数年前に導入を検討していた他社サービスと比較すると 1,200 分の 1 程度となっています。これは衝撃的な安さです。 エフエム和歌山は、和歌山県和歌山市を中心とした聴衆人口約 50 万人を対象に、コミュニティ FM 放送『バナナエフエム』を提供しています。多くの地域コミュニティ放送が、第三セクターなどの形で地方公共団体や民間企業から出資を受け運用されているのに対し、エフエム和歌山はスポンサー収入のみで運用されています。 「スポンサーを獲得しなければ運用していけないので、番組のクオリティやリスナーの満
Baidu Research presents Deep Voice, a production-quality text-to-speech system constructed entirely from deep neural networks. The biggest obstacle to building such a system thus far has been the speed of audio synthesis – previous approaches have taken minutes or hours to generate only a few seconds of speech. We solve this challenge and show that we can do audio synthesis in real-time, which amo
We present Deep Voice, a production-quality text-to-speech system constructed entirely from deep neural networks. Deep Voice lays the groundwork for truly end-to-end neural speech synthesis. The system comprises five major building blocks: a segmentation model for locating phoneme boundaries, a grapheme-to-phoneme conversion model, a phoneme duration prediction model, a fundamental frequency predi
先週のレシピでは、アラート発生時の警告音をAquesTalk2で作成しました。今週のレシピではRaspberry Pi用のAquesTalk、AquesTalk Piを使い、リアルタイムに様々な音声を喋らせてみようと思います。 AquesTalk Piは、Raspberry Pi上で動作する音声合成ソフトウェアです。Rspberry PiとRaspbian(Raspberry Pi向けカスタマイズのDebian)で動作させることを前提としたバイナリですが、armhfなUbuntu上でも動作します。AquesTalk2はライブラリとして提供されており、アプリケーションは各自が用意する必要がありましたが、AquesTalk Piは引数に指定した日本語文字列を音声にするバイナリそのものが配布されているため、プログラミングの知識がなくてもすぐに利用することができます[1]。 筆者は、少々古いです
2014-12-12 14:10 [ポスター講演]ツンデレ音声の音響物理パラメータの計測とその分析 ○川口就子・黒川嵩大・白尾彰伍・高野佐代子(金沢工大) EA2014-41 ツンデレ音声をツンとデレの二つの側面に分け、音響物理パラメータと各聴覚印象の関係を明らかにする.実験1では、心理量「ツン度」および「デレ度」を目的変数とし、基本周波数の平均値および標準偏差、スペクトル重心の平均値および標準偏差、時間長の計5つを説明変数としてそれぞれ重回帰分析を行った.その結果を元に実験2ではスペクトル重心について掘り下げ、スペクトル重心の最小値、最大値、平均値、中央値、最頻値、標準偏差、範囲、および時間軸を説明変数とし重回帰分析を行った.その結果、ツンデレ音声はスペクトル重心の最頻値が高い標準化係数を示した.本研究より、ツンデレ音声に対して新たな工学的指針を示すことが出来る. "Tsundere"
ニコニコ実況が2020/12/16にリニューアルし、ニコ生の機能を利用する形式に変わりました。 旧APIの廃止に伴い棒読みちゃんに添付していたプラグインからは接続できなくなりました。 ニコ生用には棒読みちゃんと連携できるコメントビューアが色々ありますので、そちらと連携してご利用ください。 ■概要 漢字を含む日本語の文章を音声合成で読み上げるツール。 IMEで漢字をひらがなに変換し、AquesTalkで音声合成します。 SAPI5やSpeech Platformの音声合成エンジンにも対応しています。 ■動作環境 Microsoft Windows 2000以上(7の64bit版のみ確認) Microsoft .NET Framework 2.0以上(3.5のみ確認) ■カンパのお願い フリーウェアなので無料でご利用いただけますが、気に入ってくださった方は、ご支援いただければ幸いです。 Ama
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く