並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 201件

新着順 人気順

音声合成の検索結果1 - 40 件 / 201件

  • 3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge

    わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

      3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge
    • AIお姉ちゃんへの道 - nomolkのブログ

      ちょっと前に話題になっていたこの記事を読んだ。 honeshabri.hatenablog.com へー真似しよ〜と思ってやってみたら意外に難しくて謎のやりがいを感じ始めてしまい、仕事のクソ忙しい時期にかなりハマり睡眠不足で生命の危機を味わった。 おかげで寿命と引き換えに自分のAIお姉ちゃんを手に入れることができた。これは黒魔術か何かなのだろうか。 一通り終えて振り返ってみると、今まで生成AIをあまり積極的に触ってこなかった自分にとってはちょうどいい難しさの課題で、これは入門者向けのチャレンジとしてかなり良い気がする。 元記事に書かれていない少し細かい手順も含めてやったことを記録としてまとめようと思う。 初心者が試行錯誤でやったことなので誤りや非効率な手順もあるかもしれないけどご了承ください。 AIお姉ちゃんの姿を作る 元記事では「魂」、つまりChatGPTの設定から始まっているけど、それ

        AIお姉ちゃんへの道 - nomolkのブログ
      • 第11回ハヤカワSFコンテスト特別賞受賞作にして、刺さる人にはこれ以上なく深く刺さる物語──『ここはすべての夜明けまえ』 - 基本読書

        ここはすべての夜明けまえ 作者:間宮 改衣早川書房Amazonこの『ここはすべての夜明けまえ』は、第11回ハヤカワSFコンテストの特別賞を受賞したSF中篇(もしくは短めの長篇といえるかぐらい)だ。特別賞は長さが短めだったり一点突破の魅力があったりで受賞する作品が多いが(たとえば過去事例で代表的なのといえば草野原々の「最後にして最初のアイドル」など)、本作も「刺さる人にはこれ以上なく深く刺さる」、2100年代を舞台にした、問題まみれの家族の物語だ。 とある理由からひらがなだらけの文章で物語が始まるので面食らうのだが、設定開示の順番は心地よく、すぐに作中世界へと入り込んでいくことができる。単行本になる前からゲラが配られたりSFマガジンに全文掲載されたりしていたのでエモいエモいと評判だけは聞いていたのだけど、実際に読んでみたらたしかにこれはエモーショナルな物語だ。しかし、ただ感動させよう、感動さ

          第11回ハヤカワSFコンテスト特別賞受賞作にして、刺さる人にはこれ以上なく深く刺さる物語──『ここはすべての夜明けまえ』 - 基本読書
        • AIラジオ『zenncast』の技術構成(プロンプトつき)

          先日、個人開発していたzenncastというWebサービスをリリースしました。 Zennでトレンドになっている記事を、毎日AIが10分のラジオにして届けてくれるというサービスです。 ありがたいことに公開後はたくさんの方に試してもらえ、技術的な質問も多数いただきました。 このZennではzenncastの技術構成や仕組みを紹介します(プロンプトつき)。 作ったもの まずはエピソードを一つ選んで1分くらい聴いてみてください! AIラジオの雰囲気が掴めると思います。 主な機能・特徴 毎朝10分のラジオを生成 Zennでトレンドになっている記事を要約して紹介 お便りを投稿すると、翌日のエピソードでAIパーソナリティが拾ってコメントしてくれる BGMをつけて爽やかな聴き心地 これらのステップは人の手を介さずすべて自動化されています。 Spotifyなどの各種プラットフォームへの配信はSpotify

            AIラジオ『zenncast』の技術構成(プロンプトつき)
          • 妻の写真を学習させたはずなのに出てくるあなたはいったい誰なの? AI生成グラドル写真集でちょっと考えた(CloseBox) | テクノエッジ TechnoEdge

            集英社週刊プレイボーイ編集部が企画して出版したものの引っ込めてしまったAIグラビアアイドルさつきあい写真集「生まれたて。」をめぐっていくつか興味深い記事が上がっています(清水亮さんのコラム、新清士さんのコラム)。 既存のAIモデルだけではなく、さらにファインチューニングで使われたかもしれない実在の女性タレントをめぐる論考ですが、実のところは肝心の編集部が多くを語っていないため不明。 これとは別に、いくつかの画像投稿サイトではAIを使った「写真」「イラスト」の投稿を禁止するところも出てきており、大手サイトでの例外はAmazon.co.jpだけという話になっている一方、著名タレントのLoRA(学習されたAIモデル)のファイルが配布されていたりと、実在の人々の権利を脅かすのではないかと当初懸念されていた問題も顕在化しています。 筆者も実在の人物(妻)の写真をAIに学習させて、それを「異世界とりち

              妻の写真を学習させたはずなのに出てくるあなたはいったい誰なの? AI生成グラドル写真集でちょっと考えた(CloseBox) | テクノエッジ TechnoEdge
            • スイスの“バ美肉”研究者に密着したNHKドキュメンタリー番組がオンデマンドで配信中。海外から見た「日本独自の文化」や、「カワイイを獲得する」ことで心理的な解放を求める人々の心理とは?

              NHK「最深日本研究」スイスの”バ美肉”研究者ミラの密着ドキュメンタリーが放送 美少女になる人々の心理とはNHK新番組「最深日本研究〜外国人博士の目〜」でスイスの人類学者ミラの密着ドキュメンタリーが2024年4月14日に放送された。ミラは、VTuberやメタバースでバーチャルアバターの力により美少女の姿に変身する「バ美肉(ばびにく、バーチャル美少女受肉)」文化に着目した論文で学術賞を受賞、国連の国際会議でも発表するなど精力的に活動している。番組では来日してフィールドワークを行うミラに密着。ミラは”バ美肉”VTuberである、のらきゃっと・あまちじょんこ・バーチャル美少女ねむに取材を行い、美少女になる人々の心理に迫った。番組は4月28日までオンデマンド配信で視聴可能だ。さらに4月20日には出演者による「非公式アフタートーク」が配信されることが決定した。現在NHKではドラマ『VRおじさんの初恋

                スイスの“バ美肉”研究者に密着したNHKドキュメンタリー番組がオンデマンドで配信中。海外から見た「日本独自の文化」や、「カワイイを獲得する」ことで心理的な解放を求める人々の心理とは?
              • AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情

                Deepfakes of Chinese influencers are livestreaming 24/7 AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情 中国で真夜中のライブ配信を見ると、熱心に商品を売り込むストリーマーの姿が目立つ。だが実はこのストリーマー、わずか数分の動画からAIが生成したもので、24時間年中無休で働き続けることができる。 by Zeyi Yang2023.09.21 211 19 中国で最も人気のあるEコマース・プラットフォームであるタオバオ(Taobao:淘宝)のライブ配信映像を午前4時にスクロールしてみると、奇妙なほどに活況を呈している。ほとんどの人が熟睡しているこの早朝の時間帯に、多くの熱心なストリーマー(配信者)がカメラに向かって商品を紹介し、割引価格で販売している。 しかし、よく目を凝らすと、これらのライブ配信インフルエンサー

                  AI生成インフルエンサーが 24時間稼ぎ続ける 中国ライブコマース新事情
                • 商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション

                  ドイツMAGIXから定番の波形編集ソフトの新バージョン、SOUND FORGE Pro 18およびSOUND FORGE Pro 18 Suiteがリリースされました。今回のバージョンアップの目玉はAIを利用した音声合成機能を搭載し、日本語でテキストを入力すると、非常にリアルで自然な声で、そして高音質なサウンドで喋り声が生成されることです。VOICEPEAKやVOICEVOX、A.I.Voice、CoeFont……などなど、ここ数年で急速に進化し、数々のソフトが出てきたTTS=Text to Speech(音声読み上げソフト)の世界にSOUND FORGEが殴り込みをかけてきた格好です。しかも単なるTTSに留まらず、翻訳機能も搭載。これによって最大100言語へ翻訳して喋らせることも可能になっているため、グローバルなコンテンツ制作も可能になっています。 さらにStoryblocksという音素

                    商用利用もOK。AI音声合成や膨大な音素材ライブラリも使える定番波形編集ソフト、SOUND FORGE Pro 18誕生|DTMステーション
                  • オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)

                    今回の発表で強く感じたことは、やはりOpenAIの目指すChatGPTが単なるチャットアプリケーションではないということだ。 従来のオペレーティングシステム(OS)はハードウェアとアプリケーションの架け橋である。だがOpenAIはChatGPTを「言語で命令できるオペレーティングエージェント」と位置付け、人生のあらゆるタッチポイントで新たなゲートキーパーとなろうとしているように思える。 IT競争は手前の取り合い歴史を振り返れば、IT競争の常道とは、ゲートウェイを手前に築くことにあったようだ。PCの争いをOSが無意味化し、OSの争いをブラウザが、ブラウザの争いを検索エンジンがと、そしてそれをスマホとアプリが…このようにITの争いは常に手前を争うものだった。こうして一番手前を抑えた企業は、大きな利益を手に入れた。 今、OpenAIの動きは、このメタゲームに大きな変化を加えつつある。 OpenA

                      オペレーティング・システムから、オペレーティング・エージェントへ|深津 貴之 (fladdict)
                    • オーディオブックの“倍速視聴”が話題 “等倍で聴く人いない”は本当か? 声優からは「衝撃」の声

                      続けて「若い女性 壮年の男性 子供 ご老人 体格や今までの経験、全てが喋り方に影響してくる。地の文も内容によって読むリズムや音の大きさは変わってくる。全てを均一にしたいのならば、朗読ではなく、スマホの読み上げ機能をおすすめします」と書き込んだ。この投稿は話題となり、投稿から約4時間でインプレッション数は280万を超えた。 他ユーザーからもさまざまな意見が上がっている。「これは読み手に求めることではない」「聞き手が調整すべきこと」「倍速で聴くのは好きにすればいいけど、作り手に配慮を求めるのはライン超え」など池澤さんの考えを擁護する声が多く挙がっている。 中には、朗読と音読の違いを指摘する意見も。「音読だと、スマホ読み上げで済む話だけど朗読は感情がこもってこそ。朗読は、間のとり方とか強弱の付け方とか好きなだけいじっていいもの」「朗読をただの読み上げと思ってるユーザーが一定数いるのはそうなのだろ

                        オーディオブックの“倍速視聴”が話題 “等倍で聴く人いない”は本当か? 声優からは「衝撃」の声
                      • OpenAIのGPT-4oを日本語OCRとして使ってみる

                        昨日、OpenAIが生成AIの新しいモデルであるGPT-4oを発表しました。消費するトークン数の節約や、音声合成機能の改善、応答速度の向上など着実な品質改善を見せているようです。私も、特に音声合成(Text To Speech)の表現力について非常に興味を持っています。 私は以前、「OpenAIのGPT-4 Turbo with visionを日本語OCRとして使ってみる」で、GPT-4 Turboの画像認識機能の日本語OCRについて検証を行いました。その当時は、既存のコグニティブAI APIに比べて認識精度が十分でないという評価をしています。とはいえ、その後に出てきたClaude 3 Opusは驚くべき認識精度だったので、OpenAIも巻き返す可能性は十分にあると感じました。Azure OpenAI Serviceを使っている場合は、Vision enhancementという既存のコグニ

                          OpenAIのGPT-4oを日本語OCRとして使ってみる
                        • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

                          GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

                            GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
                          • 今年の書初めコーディングはAITuberを創る!

                            はじめに あけましておめでとうございます。去年は何といってもAIの年でした。ChatGPTやStableDiffusionが2022年末に登場してから、想像を超えてAI周りが進化しましたね。今回は年の初めという事もあり、前から興味のあったAITuberを作ってみる事にしました。 「AITuberを作ってみたら生成AIプログラミングがよくわかった件」 って本も買ったし。LLM部分だけでは無く、OBSやYouTubeのコメント取得などAITuberに必要な内容が一式揃っていて非常に参考になりました。 また、私はプログラミングは多少できますが、イラストや音楽に関しては全くスキルの無い人間です。そのためそのあたりに関してはStable DiffusionやSunoAIの力を借りて作っているので、結果的にオール生成AIという感じですね。そのあたりも含めて記事にまとめたいと思います。 TL;DR 素の

                              今年の書初めコーディングはAITuberを創る!
                            • プレースホルダーのアクセシビリティ上の課題と解決策 - SmartHR Tech Blog

                              こんにちは!SmartHRプロダクトエンジニアのhimiです。 この記事ではプレースホルダーのアクセシビリティとユーザビリティについての課題と、その解決手段についての話を書きます。 プレースホルダーって何? Webアプリでよく見る、フォームコントロールに値が無いときに表示するテキストのことです。 主な用途としては、フォームの入力例や入力内容の説明テキストが設定されることが多いです。 HTML Standardでは The placeholder attribute represents a short hint (a word or short phrase) intended to aid the user with data entry when the control has no value. A hint could be a sample value or a brief de

                                プレースホルダーのアクセシビリティ上の課題と解決策 - SmartHR Tech Blog
                              • 『スカイリム』にて、“AIによる生成音声”を含むポルノModの存在が問題視される。声優コミュニティから批判続出 - AUTOMATON

                                Mod制作者のRobbie氏は7月1日に、『The Elder Scrolls V: Skyrim』(以下、スカイリム)にてユーザーが制作するポルノModに関する注意喚起を投稿。同氏は一部のポルノModには、ゲームの音声ファイルを無断で利用したAIによる生成音声が含まれている点に強い懸念を表明している。この投稿は海外の声優コミュニティからも注目を集めており、海外メディアPC Gamerなどが報じている。 『スカイリム』は、Bethesda Softworksが2011年11月にリリースしたオープンワールドARPG。発売から12年を迎える現在に至っても根強く愛されている作品だ。ユーザーによるMod制作が盛んで、Modの内容も多種多様。中にはゲーム内のキャラがAIによる合成音声で喋るものもある。 そんな同作のMod制作コミュニティでは、ゲーム内の声優のボイスがAIによる生成音声としてポルノコン

                                  『スカイリム』にて、“AIによる生成音声”を含むポルノModの存在が問題視される。声優コミュニティから批判続出 - AUTOMATON
                                • Synthesizer Vとは?〜使い方から最新機能まで徹底解説! - サンレコ 〜音楽制作と音響のすべてを届けるメディア

                                  歌声合成ソフト、Synthesizer Vでは一体何ができるのか。自身でさまざまなクリエイターに声をかけ制作したコンピレーションアルバム『AIボーカルコンピVol.1 with Synthesizer V AI』をリリースするなど、Synthesizer Vに造詣が深い音楽プロデューサーの鈴木Daichi秀行氏に、その全貌を解説していただこう。 Text by 鈴木Daichi秀行 はじめに TOPIC 1|歌声を選んで歌詞を入力 TOPIC 2|外部からMIDIファイルを取り込む TOPIC 3|自動でテイクを作成するAIリテイク機能 TOPIC 4|好みに合わせて声色を調節 TOPIC 5|歌だけでなくラップにも対応 TOPIC 6|プラグインとしての活用とオーディオデータの書き出し TOPIC 7|直近のアップデートで追加された新機能 まとめ 【特集】夢ノ結唱 BanG Dream!

                                    Synthesizer Vとは?〜使い方から最新機能まで徹底解説! - サンレコ 〜音楽制作と音響のすべてを届けるメディア
                                  • Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能

                                    Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能 米Metaは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。 音声とテキストを入力することで、以下のような音声を出力できる。 入力した声で入力したテキストを読み上げる音声クリップを作成する 録音した音声から犬の鳴き声やブザー音などのノイズを除去する 録音した音声の言い間違いを修正する 1つの言語のスピーチを同じ声のまま別の言語に変換する(英語の音声を仏語に、など) 1つのテキストを多様な声で読み上げる Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC(ノンプレイヤーキャラクター)が自然な声で話せるようになるとしている。また、自分の声のまま(本来は話せない)外

                                      Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
                                    • ひろゆきをアフリカ・ナミブ砂漠に放置 Abema新番組 10万円で帰れるか

                                      動画配信サービス「ABEMA」で、新番組「世界の果てに、ひろゆき置いてきた」が始まる。西村博之(ひろゆき)さんをナミビアの砂漠に放置。10万円を渡し、自力で帰国できるかを見守る内容だ。初回は8月12日配信。 5日には予告編を公開。ひろゆきさんが砂漠を渡り、ヒッチハイクで目的地を目指す様子や、現地の人に「YouTubeを見ている」と声をかけられ、写真撮影を求められる様子を確認できる。番組は全9回。12日以降、毎週土曜日と日曜日の午後9時に最新回を配信する予定。 関連記事 AIひろゆき、投げ銭で時給1万4273円稼ぐ ひろゆきさん「“それっぽいことをそれっぽく言う”という芸人力が上がってきましたねー 「AIひろゆき」GPT-4導入し再び生配信 今度は投げ銭OK 収益は“本物”に還元 ひろゆきさんのようなコメントを、ひろゆきさんのような声で発し続けるAIが、投げ銭OKの生配信を実施する。得た収益

                                        ひろゆきをアフリカ・ナミブ砂漠に放置 Abema新番組 10万円で帰れるか
                                      • 「AIと共存すべき」人気声優・梶裕貴 自身の声で自由にしゃべれるAIソフト発売へ 「たくさん悩んで」決断

                                        「正直、たくさん悩みました」――人気声優の梶裕貴さんが、自身の声で自由にしゃべらせることができる音声合成ソフト「CeVIO AI 梵そよぎ(そよぎそよぎ) トークボイス」を製品化すると発表した。5月29日午後9時から、クラウドファンディングサイト「CAMPFIRE」で受注をスタートする。 ここ最近、AIを使って人気声優の声などを無断で再現したコンテンツが問題になっており(関連記事)、梶さんも頭を悩ませてきたという。だが「AIと敵対するのではなく、共存すべき」と結論づけ、「あえて私の声を持つ『梵そよぎ』を解禁することで、"正しい音声AIの在り方"を証明できるのではないか」と考えて開発を決断したという。 CeVIO AIは、ソニー・ミュージックエンターテインメントや名古屋工業大学発ベンチャーのテクノスピーチなど、複数の企業が参加する音声合成AIプロジェクト。 「CeVIO AI 梵そよぎ」は、

                                          「AIと共存すべき」人気声優・梶裕貴 自身の声で自由にしゃべれるAIソフト発売へ 「たくさん悩んで」決断
                                        • AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール

                                            AI音声合成ソフト「VoiSona Talk」が正式公開 ~女性ボイス「田中傘」とともに無償提供/同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール
                                          • 「Evolution(進化)」とだけ題されたこの画像、分かる人にだけわかる歴戦の戦士たちだった「これは秀逸」

                                            リンク Wikipedia ギコ猫 ギコ猫(ぎこねこ)は、匿名掲示板2ちゃんねるなどの電子掲示板で用いられるアスキーアート (AA) によるキャラクターの一種である。正式名称は「ギコ・ハニャーン」。通称ギコ。 1999年(平成11年)頃から使われ始めたAAによるキャラクター。掲示板上の文脈や表現したい内容に応じ、様々な表情・ポーズ・セリフが与えられる。好きな芸能人は木村拓哉である。 あやしいわーるど等UG掲示板の常連であるコブラが利用していた「ギコハハハ」という笑い声が語源(さらに辿ればもとはコブラの友人が使っていたもので、1994年(平成 12 users 1 リンク Wikipedia やる夫 やる夫(やるお)は2ちゃんねるやインターネット上に広まった、アスキーアートのキャラクター。 この項目ではやる夫を始めとするアスキーアートを用い、インターネット掲示板上でストーリー仕立ての作品を展

                                              「Evolution(進化)」とだけ題されたこの画像、分かる人にだけわかる歴戦の戦士たちだった「これは秀逸」
                                            • 「本人の声とそっくりな合成音声」の悪用に対して法的権利はあるか? NTT社会情報研究所が調査

                                              現代の音声合成技術は特定の人物の声を基にして、その人と非常に似た合成音声を生成する能力を持つ。このような実在の人物の声の合成は、なりすましや詐欺などの不適切な使用が問題視されていることに加え、声の再現や公開がその人物の人格的利益や名誉感情に影響を与える可能性もある。また声優や歌手のように、自らの声を職業活動に利用する人々にとっては、無許可での声の再現や使用によって経済的損失を被る恐れがある。 この研究の焦点は、特定の人物の音声データから学習させたモデルを用いて、任意のテキストをその人物の声で読み上げる合成音声技術にある。日本ではこの問題に関する具体的な法的争訟例はまだ存在しないとされるが、研究では架空の事例を設定し、この技術が引き起こしうる問題点を探究する。以下がその事例になる。(音声合成AIの利用場面における法的課題―「声」に権利はあるのか―より引用)。 声優Xは、所属するタレント事務所

                                                「本人の声とそっくりな合成音声」の悪用に対して法的権利はあるか? NTT社会情報研究所が調査
                                              • 25年前の名作SFアニメ「lain」がAIに 世界観に浸りながら主人公「玲音」とチャット

                                                アニメグッズなどの企画販売を手掛けるAnique(東京都千代田区)は9月5日、1998年放送のSFアニメ「serial experiments lain」がモチーフの対話型AIサービス「AI lain」の提供を始めた。6カ月の期間限定。チャット画面から文章を送るとヒロインの「玲音」(れいん)が文字と音声で返答する。開発には作品原案プロデューサーの上田耕行さんも参加した。 serial experiments lainはネットワーク端末「NAVI」が普及した世界で、主人公の岩倉玲音が事件に巻き込まれていくという内容のSFサスペンス作品。AI lainは米OpenAIの「ChatGPT」をベースに、作品内での会話内容を学習。世界観に沿った話し方をする。会話を続けると「親密度」が上昇し、話し方や画面に表示する玲音の映像が変化する。 音声合成機能もあり、生成した文章を玲音の声で読み上げる。合成エン

                                                  25年前の名作SFアニメ「lain」がAIに 世界観に浸りながら主人公「玲音」とチャット
                                                • 日本俳優連合が“生成AI”に提言 「新たな法律の制定を強く望む」 声の肖像権確立など求める

                                                  俳優・声優の権利保護活動を行う日本俳優連合は6月13日、「生成系AI技術の活用に関する提言」を発表した。著作権法の運用見直しやルール作り、「声の肖像権」の確立などを業界や国に求める。 提言内容は「国内外で活発に意見交換し、EUのAI規制を参考にしたガイドライン策定を行うこと」「著作権法の運用見直しをはかる」「AI生成作品であると明記すること」「AIの表現分野への進出について一定のルールを設けること」「声の肖像権を確立すること」。 日本俳優連合は「新しい技術の進化による人間社会の発展は望ましいこと」とする一方で、「実演家の、表現の模倣・盗用を安易に促し、職域を侵害する恐れがある」と問題視している。 「主体は人間であり、その補助をAIが行うという趣旨のもと、新たなガイドラインや法律の制定を強く望む」(日本俳優連合) 生成AIと俳優・声優を巡っては、実在の女優や女性声優などの画像を生成できる非公

                                                    日本俳優連合が“生成AI”に提言 「新たな法律の制定を強く望む」 声の肖像権確立など求める
                                                  • AIで自分のしゃべり声をリアルタイムに別人の声に変換させる無料のサービス、CoeFontボイスチェンジャーの威力|DTMステーション

                                                    すでにご存じの方、使っているという方も少なくないと思いますが、自分のしゃべる声をAIでリアルタイムにまったく違う人の声に変換するシステム、CoeFont ボイスチェンジャーが大きな話題になっています。これは株式会社CoeFontが提供しているAIによるボイスチェンジャーで、マイクに向かってしゃべれば、非常にリアルな声で別の人に声に置き換わるというもので、男性の声を入力しても、まったく違和感なく、リアルな女性の声にすることが可能です。あの、ひろゆきさんの声を含め、現在10人の声に変換が可能で、それを無料で使えてしまうというのが大きなポイント。 今後は人気キャラクターや著名人を含む1万種類以上の声への変換も可能になるとのことで、まさにボイスチェンジャーの世界における革命となりそうです。現時点ではWindowsのみで利用可能ですが、近い将来、Macにも対応するとのこと。またGPU搭載のパソコンで

                                                      AIで自分のしゃべり声をリアルタイムに別人の声に変換させる無料のサービス、CoeFontボイスチェンジャーの威力|DTMステーション
                                                    • 高木浩光@自宅の日記 - 速報:Claude 3に判例評釈を自動生成させてみた(Coinhive事件最高裁判決の巻)

                                                      ■ 速報:Claude 3に判例評釈を自動生成させてみた(Coinhive事件最高裁判決の巻) 一昨日の「Claude 3に例の「読了目安2時間」記事を解説させてみた」の感触からすると、これだけLLMが長文の意味内容を「理解」するようになったとなると、もはや、書評や論文紹介、判例批評など、定形的なスタイルを持つ学術記事は、LLMによって自動生成が可能なんではないか?と思えてくる。 というわけでやってみた。土地勘のあるところで、Coinhive事件最高裁判例(刑集第76巻1号1頁)でやってみよう。しかし、さすがに、ただ最高裁の判決文を投入するだけでは、通り一遍の内容のない判例評釈になってしまうことが予想される。そこで、実在する一審の解説と二審の解説(私が書いたやつ)を読ませて、それを踏まえた最高裁判決の評釈を生成させてみる。これはうまくいくに違いない。たぶん。いや、どうかな。 さて結果は……

                                                      • [インタビュー]西 和彦氏に聞く「次世代MSX」とは何なのか――目指すのは,ユーザが自分で作り出す“遊び”の世界

                                                        [インタビュー]西 和彦氏に聞く「次世代MSX」とは何なのか――目指すのは,ユーザが自分で作り出す“遊び”の世界 編集部:早苗月 ハンバーグ食べ男 カメラマン:永山 亘 Microsoftとアスキー(当時)によって制定された「MSX」規格最初のマシン「ML-8000」が三菱電機から発売されたのは,今から40年前である1983年のこと。 日本をはじめ,世界各国(とくに北米や欧州の8bit PCの進出が鈍かったソビエト連邦や中東など)で一世を風靡したMSXシリーズだが,家庭用コンピュータやゲーム機が高性能化していく1990年代に姿を消していった。2006年にFPGAでMSX2を再現した「1chip MSX」(関連記事),2020年にスペインのデベロッパによるRaspberry PI 3B+ベースの「MSXVR」が発売されるなど,復古の動きもあったが,いずれも小規模なものに留まっている。 Mic

                                                          [インタビュー]西 和彦氏に聞く「次世代MSX」とは何なのか――目指すのは,ユーザが自分で作り出す“遊び”の世界
                                                        • 「攻殻」のベテランキャストはAIに自らの声を渡せるのか?『攻殻機動隊 SAC_2045 最後の人間』出演の田中敦子、大塚明夫、山寺宏一に聞く

                                                          人間は同じキャラクターを20年以上も演じれば、自身の精神にそのキャラが根付くのか? そして人間が演じてきた情報をAIに膨大に学習させれば、その先に人間の精神のようなものは生まれるのか? 考えてみれば、商業アニメで特定の役柄を数十年にわたって演じ続けるという意味で声優という職種は突出している。もちろん、俳優が同じ舞台や同じドラマで同じ登場人物を演じ続けるケースは多い。しかし商業アニメが特殊なのは、映画版や別のシリーズごとに監督も絵柄も脚本も違う場合がしばしばあることだ。その場合、声優は各シリーズでキャラをどう解釈しているのだろうか。 とりわけ「攻殻機動隊」シリーズは作品ごとに極端な変化が観られるものの一つだろう。映画『GHOST IN THE SHELL/攻殻機動隊』(以下、映画「攻殻」)や『イノセンス』では、押井守監督の写実的な画作りと衒学的なシナリオが全編に張り詰めている。 一方『攻殻機

                                                            「攻殻」のベテランキャストはAIに自らの声を渡せるのか?『攻殻機動隊 SAC_2045 最後の人間』出演の田中敦子、大塚明夫、山寺宏一に聞く
                                                          • ボカロ初心者の音楽好きが選ぶ「ボカロ名盤」60枚

                                                            最近、これまで触れなかったボーカロイドの音楽(以下、ボカロ音楽)を聴き始めました。 そして色々聴くにつれ、次第にボカロ音楽の奥深さと幅広さに魅了されるように。 しかし、「ニコニコ動画」が中心の文化であることから、「アルバムで視聴する人」は少ないように思います。 視聴の中心は曲単位によるもの また(かくいう自分もそうだったのですが)ボカロ音楽に「どれも同じような曲調」という偏見を持つ人が少なからずいる気がします。 本記事では、様々な国/ジャンルのボーカロイドのアルバムを紹介し、「ボカロの魅力」をお伝えできればと思います。 なお、ボカロ音楽について自分もまだ勉強中ですので、もし説明に誤りなどございましたら、ご指摘頂けますと助かります。 この記事で、自分のようにボカロ音楽を聴き始める人が少しでも増えれば幸いです。 *本記事ではUTAUなど「本来はボカロに含めない」合成音声も、便宜上「ボカロ」で取

                                                              ボカロ初心者の音楽好きが選ぶ「ボカロ名盤」60枚
                                                            • 中学時代、ボカロ曲にのめり込んでいた少女が、小春六花の中の人に。声優・青山吉能さんインタビュー|DTMステーション

                                                              先日、VOICEPEAK 小春六花が発表されるとともに、CeVIO AI 小春六花やSynthesizer V 小春六花など既存の小春六花製品を持っている人は7月12日までの期間限定でVOICEPEAK 小春六花が無料でもらえることも発表されて大きな話題になっています。その小春六花のCVを務めるのは、声優の青山吉能(あおやまよしの @Yopipi555)さん。昨年大ヒットとなったアニメ「ぼっち・ざ・ろっく」の主人公、後藤ひとり役を務めたことでも注目を集めた青山さんですが、中学時代はボカロ曲、ニコニコ動画にハマっていたのだとか……。 かなりの熱の入れようだったそうですが、そこから10年近くを経て自分自身がSynthesizer VやCeVIO AI、そしてVOICEPEAKの小春六花になる、というのはどんな感覚なのでしょうか?そもそも、どんな経緯で、小春六花になることになったのか、実際の収録

                                                                中学時代、ボカロ曲にのめり込んでいた少女が、小春六花の中の人に。声優・青山吉能さんインタビュー|DTMステーション
                                                              • OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る

                                                                米OpenAIは3月29日(現地時間)、人の声を再現できる生成AIモデル「Voice Engine」を発表した。テキスト入力と15秒分の音声サンプルで、元の話者によく似た自然な音声を生成できる。感情的なリアルな音声で、母国語以外の言語も話せる。 2022年から開発していたこのモデルは、既に同社の「Text-to-Speech API」や「ChatGPT」アプリの音声チャット機能、ChatGPTのテキスト読み上げ機能「Read Aloud」などで採用されている。 OpenAIは、こうした合成音声が悪用される可能性を認めており、広範囲にリリースをするかどうかを検討するために、慎重にテストを行っているという。 スウェーデンSpotifyは昨年9月、このモデルを採用した新機能「Voice Translation」を発表した。これはPodcastをホスト自身の声で複数言語に吹き替えるものだ。 Ope

                                                                  OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る
                                                                • 人には正しく聞こえるが“AIにはゆがんで聞こえる声”に変えるツール 合成音声に使われないために保護

                                                                  音声合成技術の進歩は顕著であるが、人間や機械を欺くために悪用されることもある。これはディープフェイクと呼ばれ、例えば、詐欺師たちがCEOの声を合成して部下に連絡して大金を振り込ませた事件も起きている。影響力のある人物の声を合成して誤情報やヘイトスピーチを生成し、社会に広範な悪影響を及ぼす可能性もある。法整備も追い付いていない。 (関連記事:「本人の声とそっくりな合成音声」の悪用に対して法的権利はあるか? NTT社会情報研究所が調査) この脅威に対処するため、研究チームは「AntiFake」と呼ばれる新しい防御ツールを開発。このツールは従来のディープフェイクを後から検出する方法と異なり、被害者の声として合成されること自体を未然に防ぐ。 被害者が音声データを外部(SNSやWebサイトなど)に公開する前に、録音した音声信号に最適化されたノイズ(敵対的摂動)を適用する。これにより、人間の耳には正し

                                                                    人には正しく聞こえるが“AIにはゆがんで聞こえる声”に変えるツール 合成音声に使われないために保護
                                                                  • 声優・梶裕貴が合成音声化 サンプル動画も公開

                                                                    声優の梶裕貴さんは9月3日、合成音声ソフトの開発プロジェクトを発表した。YouTubeやX(旧Twitter)では、梶さんの声を基にした合成音声のサンプルも公開。今後、公式Xアカウントで詳細を案内するという。 サンプルでは平時の声に加え、不機嫌な声や怒った声、ささやき声など、感情を込めた声を出す様子も披露。プロジェクトには、AI歌声合成ソフトを手掛けるテクノスピーチが技術面で協力しているという。 関連記事 音声合成はアナウンサーや声優の仕事を奪うのか? 「AIアナウンサー」など、コンピュータが人間の代わりに音声の読み上げを務める機会が増えている。音声合成はどこまで人間のようにしゃべることができるのか。 AIは歌手の敵か味方か AIシンガー開発者が語る未来 分身がいることが武器になる社会へ AI歌声合成ソフト「CeVIO AI」を開発するテクノスピーチの大浦圭一郎代表は、AIシンガーと歌手の

                                                                      声優・梶裕貴が合成音声化 サンプル動画も公開
                                                                    • iPhone上でAIが恋人になってくれるアプリ「Dolores」開発者がアプリの開発経緯と教訓を語る

                                                                      機械学習エンジニアのKe Fang氏が、AIをコミュニケーション相手にできるアプリ「Dolores」を開発した経緯とそこから得た学びを自身のブログでまとめています。 A Failed AI Girlfriend Product, and My Lessons | TL;DR https://mazzzystar.github.io/2023/11/16/ai-girlfriend-product/ Fang氏は、2023年4月にスタンフォード大学が発表した生成AIエージェントについての論文を読み、記憶・熟考・計画・行動を組み合わせたフレームワークを用いて、人間とGPTとのコミュニケーションを、映画「her/世界でひとつの彼女」のように、AIをガールフレンドとみなしてコミュニケーションをはかることができるのではないかと考えました。 Amazon | her/世界でひとつの彼女 ブルーレイ&D

                                                                        iPhone上でAIが恋人になってくれるアプリ「Dolores」開発者がアプリの開発経緯と教訓を語る
                                                                      • 色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog

                                                                        こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に推論実験を行います。続いて高速化の実験、更にSFTによるInstructionチューニングや、RLHFもやってみます。最後に、ソースコード生成もやってみましょう。次に、画像を対象として、言語同様に色々

                                                                          色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
                                                                        • 10秒の歌声を学習し、リアルタイムにその声になれるAIシステム、VocoflexをSynthesizer VのDreamtonicsが発表|DTMステーション

                                                                          いま最先端を行くAI歌声合成ソフトのSynthesizer VやAI音声合成ソフトのVOICEPEAKなどを手掛けるDreamtonicsが、また新たな画期的なシステム、Vocoflexなるものを発表されるとともに、そのベータ版が公開されました。これは人の歌声を10秒程度録音して、その場でAIに学習させると、誰でもその歌声にリアルタイム変換できるというユニークなシステム。WindowsやMacの環境で動かすことができ、マイクに向かって歌えばその場で変換するし、VST/AUのプラグインとしてDAWに挿せば、ボーカルトラックをその学習した人の歌声に変換することができるという、驚くべきソフトです。 単にその10秒程度録音した人の歌声に変換できるだけでなく、AIが歌声を学習し、分析した結果を独特な手法でグラフィック化するUIを採用しているのもユニークな点。その結果、人の歌声の特徴をグラフィックで表

                                                                            10秒の歌声を学習し、リアルタイムにその声になれるAIシステム、VocoflexをSynthesizer VのDreamtonicsが発表|DTMステーション
                                                                          • 人間が発声する時の「口の中」の動きをシミュレーションできる「Pink Trombone」

                                                                            言葉を発する時、人は器用に舌や喉、鼻などを駆使して任意の音を出すことができます。ただし、こうした発声方法はほとんど無意識に行っており、自分が声を出している時に舌や喉をどのように動かしているかを常日頃から把握できている人は少ないはず。「Pink Trombone」は口の中を操作することで、実際にどのような音が出るのかをブラウザ上で確かめられるシミュレーターです。 Pink Trombone https://dood.al/pink-trombone/ アクセスすると以下のように口の中の断面図が表示され、同時に「アー」という声が流れます。断面図は右側の「lip」が唇で、上部の「nasal cavity」が鼻腔(びくう)、下部の「oral cavity」が口腔(こうくう)です。ただし、歯茎と歯は用意されていません。 右下の「always voice」をクリックすると、常時発声のオン・オフを切り替

                                                                              人間が発声する時の「口の中」の動きをシミュレーションできる「Pink Trombone」
                                                                            • コナミ初のAI歌声ライブラリ「LAUGH DiAMOND」発売 4人の声優の歌声を学習

                                                                              コナミ初のAI歌声ライブラリ「LAUGH DiAMOND」(ラフダイヤモンド)シリーズが、4月1日に発売された。 4人のキャラクターをイメージした、4つの商品をラインナップ。声優の木戸衣吹さん、熊沢世莉奈さん、鈴木杏奈さん、白河みずなさんが、それぞれの商品の声のモデルを担当している。 また、発売を記念して、4月27日(土)~28日(日)に千葉・幕張メッセで開催される「ニコニコ超会議2024」に参加することが決定した。 【画像】「LAUGH DiAMOND」シリーズのキャラクターたちコナミ初のAI歌声ライブラリ「LAUGH DiAMOND」「LAUGH DiAMOND」は、最新のディープラーニング技術で歌声を学習したAI歌声ライブラリ。音声合成ソフト「VoiSona」に歌詞と音符を打ち込むだけで楽曲を制作できる。 声のモデルとなった声優の歌声と表現をそのままに、人間らしさ溢れる歌声を生み出せ

                                                                                コナミ初のAI歌声ライブラリ「LAUGH DiAMOND」発売 4人の声優の歌声を学習
                                                                              • Microsoft社のアーキテクトが説く、LLM実装の最前線 登場から今までを振り返って、予想する未来像

                                                                                登壇者の自己紹介 蒲生弘郷氏:「ChatGPTの10ヶ月と開発トレンドの現在地」というタイトルで、蒲生から発表します。よろしくお願いいたします。 ちょっと私の自己紹介です。Azure OpenAI Champという立場で、外部発信などをやっています。いっぱい自己紹介をしていきたいところですが、本日はあまり時間もないので省略して、次にいきたいと思います。 今回は、けっこう開発者向けの発展的な内容を扱っていきますが、もし基本的な内容から確認していきたいという場合には、「Azure OpenAI 大全」というものを公開していて、リンクを貼っておくので、そちらの資料を併せてご確認いただければと思います。 「ChatGPT」の登場から今までを振り返る では、本日のテーマとして「ChatGPT」の登場から10ヶ月(※登壇当時)ということで、2022年11月から登場したChatGPTに関する技術について

                                                                                  Microsoft社のアーキテクトが説く、LLM実装の最前線 登場から今までを振り返って、予想する未来像
                                                                                • AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

                                                                                  2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第22回目は、AIが不得意とする指の数を修正する技術やStability AIの動画生成モデルなど、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップ人間が話すような音声合成でテキストを読み上げるTTSモデル「StyleTTS 2」 コロンビア大の研究者ら開発 Stability AI、画像から動画を生成するモデル「Stable Video Diffusion」発表 画像と動画を同時に扱う大規模視覚言語モデル「Video-LLaVA」 北京大などが開発 テキストから3Dモデルを生成する新型モデル「LucidDreamer」 他に影響を与えず表情や年齢

                                                                                    AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge