並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 1262件

新着順 人気順

音声合成の検索結果281 - 320 件 / 1262件

  • 読唇術を実現するためのデータベース作成!? 口の動きだけで言葉を認識し、違う声にする究極のバ美肉技術のための研究資金をクラウドファンディング中|DTMステーション

    ここ数年で、声を変換する技術が急速に進んでいます。いわゆるボイスチャンジャーの技術が進化していますし、DTMステーションでも何度も取り上げているクリムゾンテクノロジーのVoidol/リアチェンvoiceなども、画期的技術だと思います。ただ、従来の声の変換だと、どうしても元の声、イントネーションなどに引っ張られるため、なかなか思い通りの声にならないという問題点がありました。 そうした中、いまにわかに脚光を浴びる形になったのが、コンピュータによる読唇術(どくしんじゅつ:機械読唇ともいわれています)です。声を発せずに、口の動きだけで何を言っているかを認識した上で、それに音声合成を組み合わせれば、究極のボイスチャンジを実現できるのでは……、という発想なのですが、その技術研究のためのクラウドファンディングがスタートしたのです。これは先日「AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベ

      読唇術を実現するためのデータベース作成!? 口の動きだけで言葉を認識し、違う声にする究極のバ美肉技術のための研究資金をクラウドファンディング中|DTMステーション
    • 私はこうやってGoogleに入った (Research Scientist編) - ykdb’s diary

      1. はじめに 私は、東京の渋谷オフィスにある、Google Research の音声チームの Research Scientist です。以前は、NTTの音声音響の研究所で、研究員をしていました。詳細情報は以下にあります。 sites.google.com 私が入社面接を受ける際、「私はこうやってGoogleに入った」blog群が非常に参考になった一方で、研究系のポジションの情報は、全さんのtweet: 7年半前入社。知り合いの会社がグーグルに買収された後リファーされました。TOEIC等受けたこと無いですが英国に住んでたので会話は問題無し。研究職なので日常の研究・論文・HTSやHTK等オープンソース関連が準備でしょうか。アルゴリズムやデータ構造もオープンソース化で学びました。 https://t.co/a0Op7VAnk9 — Heiga Zen (全 炳河) (@heiga_zen)

        私はこうやってGoogleに入った (Research Scientist編) - ykdb’s diary
      • マイクロソフト、3秒のサンプルから誰の声でも再現できるAI「VALL-E」サンプル公開 | テクノエッジ TechnoEdge

        ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 マイクロソフトが、たった3秒間のサンプル音声から誰かの声をシミュレートし、テキストを読み上げさせられる音声AI「VALL-E」を公開しました。 この音声AIは単に声色を似せるだけでなく、抑揚や周囲環境をカスタマイズして喋らせらることも可能なため、使い方を誤ればティープフェイクの音声版にもなり得ると研究者は述べています。 通常の音声合成は、音の波形を操作編集して目的の音声を作り出しますが、VALL-Eは何かを喋っている音声データとテキストを組み合わせて個別の音声コーデック用のデータを作り出す「neural codec language model」と称する言語モデルです。 Metaが開発したニューラルネットワー

          マイクロソフト、3秒のサンプルから誰の声でも再現できるAI「VALL-E」サンプル公開 | テクノエッジ TechnoEdge
        • リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita

          概要 GPT-4oが発表されました。 GPT-4oについては以下のツイートによくまとまっています。 使用している映像は以下でまとめられています。 非常に優秀でAI系のプロダクトがまた何個か死んだと思いますが、それはさておき使っていきましょう。 APIではすでに利用可能になっております。 今回は以下のcookbookにある動画要約をgradioに移植します。 https://cookbook.openai.com/examples/gpt4o/introduction_to_gpt4o デモ 以下の Huggingface Space を作りました。APIキーと動画を貼り付けて試用することができます。 1分間の動画で0.1ドル / 60秒くらいかかります。API使用料に注意してください。 現状のGPT-4o APIの制限 動画はそのままアップロードできません これは将来的にもできるとされてい

            リリースされたGPT-4oを使って動画のサマリー生成をしてみる! - Qiita
          • AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

            2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第22回目は、AIが不得意とする指の数を修正する技術やStability AIの動画生成モデルなど、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップ人間が話すような音声合成でテキストを読み上げるTTSモデル「StyleTTS 2」 コロンビア大の研究者ら開発 Stability AI、画像から動画を生成するモデル「Stable Video Diffusion」発表 画像と動画を同時に扱う大規模視覚言語モデル「Video-LLaVA」 北京大などが開発 テキストから3Dモデルを生成する新型モデル「LucidDreamer」 他に影響を与えず表情や年齢

              AIが間違えやすい「指の数」を修正する技術、Stability AIの動画生成AI「Stable Video Diffusion」など重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge
            • まったく新しい合成音声をユーザーが独自設計できる生成モデル「Design Voice」

              画像・文章生成AIが活気づくなか、人工知能と機械学習を使って吹き替えツールを製作するソフトウェア企業・Eleven Labsが、ゼロから新しい合成音声を設計できる音声合成モデル「Design Voice」を作成していることを明らかにしました。 This Voice Doesn't Exist - Generative Voice AI https://blog.elevenlabs.io/enter-the-new-year-with-a-bang/ Eleven Labsは映画やオーディオブック向けの吹き替えツールを開発している企業。このツールは元の話者の声の性質を維持しながら、自動的に別の言語で読み直すことができるという特徴があります。 Eleven Labsによると、吹き替えツールに使用する音声合成・音声複製手法をひもとくことで、新たな音声合成AIのアイデアが浮かんできたとのこと。実

                まったく新しい合成音声をユーザーが独自設計できる生成モデル「Design Voice」
              • GitHub - w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer

                v.1.5.3.18a Bugfix: FCPE v.1.5.3.18 (removed.) New Feature: FCPE Easy-VC (experimental) v.1.5.3.17b bugfix: clear setting improve file sanitizer chage: default input chunk size: 192. decided by this chart.(https://rentry.co/VoiceChangerGuide#gpu-chart-for-known-working-chunkextra) v.1.5.3.17a Bug Fixes: Server mode error RVC Model merger Misc Add RVC Sample Chihaya-Jinja (https://chihaya369.booth.

                  GitHub - w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer
                • 「スナックバス江」の“謎のYouTubeアニメ”が話題 原作者が爆速で拡散、しかし関係性は不明

                  ギャグ漫画「スナックバス江」の自主制作アニメがYouTubeに突如投稿され、Xなどで話題になっている。スナックバス江は漫画家・フォビドゥン澁川さんが手掛ける作品で、1~3月にかけてテレビアニメが放送されたばかり。テレビアニメは原作の雰囲気を再現できていないとする声もあったが、より原作に近い仕上がりで、Xでは「原作者による無言の抗議では」とする臆測が取り沙汰されている。 YouTubeに上がっているアニメは、原作70話の「None Of Us Are Free(ありのままの私を見て)」を映像化したもの。絵はかなり原作のものに近く、フルカラーになっている。キャラクターの声には、音声合成ツール「VOICEVOX」を利用し、音楽や効果音にもフリー音源を使っているとみられる。

                    「スナックバス江」の“謎のYouTubeアニメ”が話題 原作者が爆速で拡散、しかし関係性は不明
                  • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai

                    インター・ラボ株式会社は12月15日、人工知能研究組織OpenAIが開発した音声認識モデル「Whisper」を利用した音声文字起こしAPIである「WhisperAPI」の無償提供を開始したことを発表した。OpenAIは、文章から画像を生成するAI「DALL・E2」や、自然で多彩な文章を生成するAI「GPT-3」などを開発している。 高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いユーザーが利用できるようにする。また、プログラミングの知識を持たない人でもブラウザでかんたんに利用できるWebサービスも提供する。 画像はWhisper公式Githubより Whisperとは、OpenAIが開発した汎用的な音声認識モデルで、現在GitHubにおいて公開されている。教師あり学習で68万時間というデータを学習しており、高い音声認識精度を持つ。音声翻訳や言

                      OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai
                    • “コピーロボット”の働きが声優の収益に AIシンガー業界に到来したサブスクビジネスの可能性

                      藤子・F・不二雄さんの漫画「パーマン」に「コピーロボット」というアイテムがあったのを覚えているだろうか。鼻のボタンを押すと、自分そっくりの姿に変化して、自分の身代わりになってくれる人形だ。 あのアイテムに近いようなことが歌声合成業界では可能になっている。自分の歌い方をそっくりに再現して人間のように歌う“AIシンガー”がかなり普及してきているのだ。 最近では、バーチャルYouTuberの「花譜」さんが「CeVIO AI」というブランドのAIシンガーになり、ヒット曲もたくさんリリースされている。8月8日にはVTuberのキズナアイさんの歌声を再現したAI「#kzn」が先行販売された。 そして、CeVIO AIの音声合成エンジンを開発しているテクノスピーチが、9月1日に新たな試みを始める。AIシンガーのサブスクリプションサービス提供だ。 今回は同社の大浦圭一郎代表とエンタメ事業部の塚田恵佑さん、

                        “コピーロボット”の働きが声優の収益に AIシンガー業界に到来したサブスクビジネスの可能性
                      • ATMの音「お金ないでしょ」に聞こえる? ツイートにセブン銀行は:朝日新聞デジタル

                        ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                          ATMの音「お金ないでしょ」に聞こえる? ツイートにセブン銀行は:朝日新聞デジタル
                        • 2019年 AI / 機械学習 業界別ニュース 総まとめ【マップ付】 | LeapMind inc.

                          こんにちは、LeapMindでマーケティングを担当している坂口です。 今、AIや機械学習を活用した世の中での取り組みや事例を知ることで、自分の身の回りのどのようなことに活用できそうかを考えるきっかけや土台となるよう、昨年からはじめた AI/機械学習 NEWSのまとめ記事を今年もお届けします! ただ、「AI」という言葉を使用しているだけ、サービスをリリースしただけといったNEWSではなく、実際に現場に組み込まれた事例や実証実験を開始したものなど具体的なNEWSを厳選してピックアップしています。(※そして特に「画像認識」がメインです。) 興味のある業界だけチェックしてもよし、全部目を通して今年を振り返るもよしです! わかるものは各企業の関係なども入れてます。 業界ごとの活用マップもつけているのでぜひ見てみてください〜! ■ ダイジェスト 昨年から大きく変化した部分はないですが、自動車や交通では

                            2019年 AI / 機械学習 業界別ニュース 総まとめ【マップ付】 | LeapMind inc.
                          • 無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた

                            「誰でも100種類の声に変換できるAIボイスチェンジャー」や「ディープラーニングで誰でも簡単に結月ゆかりの声になれる技術」を開発したDwango Media Villageのエンジニアであるヒホさんが、入力した文章から自動で読み上げ音声を合成してくれるオープンソースのソフト「VOICEVOX」を公開したので、実際に使ってみました。 VOICEVOX https://voicevox.hiroshiba.jp/ ???????????????????????????????????????????????????????????????? 無料で使える中品質なテキスト音声合成ソフトウェア、#VOICEVOX をリリースしました ???????????????????????????????????????????????????????????????? ぜひダウンロードして遊んでみてくださ

                              無料で文章から自動で読み上げ音声を合成してくれるソフト「VOICEVOX」を使ってみた
                            • ゲームの「主人公の声」を「自分の声」にしたらどうなる? 米研究チームは声の類似性がユーザーに与える影響を実験【研究紹介】

                              TOPコラム海外最新IT事情ゲームの「主人公の声」を「自分の声」にしたらどうなる? 米研究チームは声の類似性がユーザーに与える影響を実験【研究紹介】 ゲームの「主人公の声」を「自分の声」にしたらどうなる? 米研究チームは声の類似性がユーザーに与える影響を実験【研究紹介】 2021年12月13日 米パデュー大学と米ミシガン州立大学の研究チームが発表した論文「The Effects of a Self-Similar Avatar Voice in Educational Games」は、ゲームにおいて、自身の声と自身が動きを操作するアバターの声の類似性がユーザーにどのような影響を与えるかを検証した研究だ。 アバターの声は、バーチャルYouTuberやソーシャルVRのようなリアルタイムに自分の声が反映されるコンテンツではなく、予め決められたセリフをゲーム上のアバターが発するものを想定している。

                                ゲームの「主人公の声」を「自分の声」にしたらどうなる? 米研究チームは声の類似性がユーザーに与える影響を実験【研究紹介】
                              • Steam、生成AI使ったゲームの提供を“ほぼ解禁” しかし「今後再検討の可能性も」と慎重な姿勢

                                PCゲーム配信サービス「Steam」を運営する米Valveは1月10日、Steam上でのAI技術を使ったゲームの取り扱い方法を変更すると発表した。Steamではこれまで、生成AIを活用したゲームの配信を許可しない方針を示していたが、方針を変更。生成AIを使ったゲームの大半をリリース可能にするという。 AIを活用したゲームを配信するに当たっての仕組みも新たに整備。まず、開発者がSteamにゲームを提出する際に記入するアンケートに、AI技術に対する項目を新設するという。アンケートでは、ゲーム開発時にAIが生成したイラストや音楽、コードなどを利用したかどうかや、プレイ中にAIが違法なコンテンツを生成しないかなどを問う。 Valveはアンケートの回答を審査し、Steamで配信可能かを決める。配信する場合でも、開示された情報の多くをSteamの商品ページに掲載する。AIが生成したコンテンツを使って開

                                  Steam、生成AI使ったゲームの提供を“ほぼ解禁” しかし「今後再検討の可能性も」と慎重な姿勢
                                • 声優、井上喜久子さんがCVの『桜乃そら』がAIでほぼ人間に!VOICEPEAKとSynthesizer Vで8月24日発売開始|DTMステーション

                                  声優の井上喜久子さんがCVを務めるキャラクタ、桜乃そら(読み方:ハルノソラ)。これまで喋るソフトとしてはVOICEROID2、歌うソフトとしてはVOCALOID5で製品が販売されていました。その桜乃そら誕生5周年というタイミングに合わせ、この度新たなバージョンが誕生することが7月25日に発表されるとともに、その翌日、7月26日に、井上喜久子さんご本人も登場する「AHS公式生放送」という形での発表会が開催されました。 その新バージョン、入力文字読み上げソフトとしてはVOICEPEAKを、歌声合成ソフトとしてはSynthesizer Vを使う形で製品化され、「VOICEPEAK 桜乃そら」、「Synthesizer V AI 桜乃そら」という2製品が8月24日にパッケージ版、ダウンロード版で発売されます。いずれのソフトもWindows、Mac、Linuxの環境で動作するため、使えるユーザーが大

                                    声優、井上喜久子さんがCVの『桜乃そら』がAIでほぼ人間に!VOICEPEAKとSynthesizer Vで8月24日発売開始|DTMステーション
                                  • 初音ミクの歌声を分析してみた――音響学のエキスパートがボカロに科学的視点でせまる! 周波数、波形、歌唱法…“電子の歌姫”だけが持つ魅力とは?

                                    『ドラクエ』スライムの合体練習をドット絵のショートアニメにしてみた! 応援されながらがんばる姿に「優しい世界」「かわいいの極み」の声 2007年にリリースされて以来、10万曲以上の歌の題材にされているという電子の歌姫――ボーカロイド・初音ミク 当時、まだ多くが無名だったボカロPと呼ばれるクリエイターによって次々と名曲が生み出され、その度にネットは“祭り”に沸いた。その盛り上がりは国内だけに留まらず、2010年から米国での売上が急増。翌年にはGoogleのCMに起用され、単なる音声合成ソフトであるはずの初音ミクは、この日世界的なアーティストとなったのだ。 数多くリリースされた後発のボーカロイドと共に初音ミクの輝きは今なお色褪せず、2020年現在、スマホゲーム『プロジェクトセカイ』にかつての名曲が配信されるたびにツイッタートレンドを賑わせるのは恒例となっている。 なぜ、初音ミクはボーカロイド特

                                      初音ミクの歌声を分析してみた――音響学のエキスパートがボカロに科学的視点でせまる! 周波数、波形、歌唱法…“電子の歌姫”だけが持つ魅力とは?
                                    • ”AI加山雄三”が役所・スーパーで館内放送 茅ケ崎市が地域活性で

                                      神奈川県茅ヶ崎市は3月24日、同市出身の歌手・加山雄三さんの声を音声合成AIで再現し、市役所や市立病院での館内放送に活用する取り組みを4月5日に始めると明らかにした。地域活性に向けた施策の一環という。 放送は役所や病院に加え、市内のスーパーなど計12カ所で行う。エイベックス傘下のコエステ(東京都港区)が提供する音声合成AIを活用。加山雄三さんの声を学習したAIで「ご来館ありがとうございます」「ごゆっくりお買い物ください」などの音声を作成した。 地元の商店会や商工会のアイデアで生まれた施策という。茅ケ崎市は「市内の施設などからの要望があれば、規模の拡大も検討する」としている。 関連記事 ケンドーコバヤシの声をAIで再現、法令集をオーディオブックに ドワンゴが配信 ドワンゴが、音声合成AIを活用してケンドーコバヤシさんの声を再現し、法令集を読み上げさせたオーディオブックの配信を開始。オーディオ

                                        ”AI加山雄三”が役所・スーパーで館内放送 茅ケ崎市が地域活性で
                                      • 「もう一歩か二歩、退いてもいい」初音ミク生みの親・佐々木渉が今だから語れること

                                        後に音楽業界に大きな変革を起こすきっかけとなる、ヤマハの音声合成システムVOCALOID(以下ボーカロイド、ボカロ)。ブームの火付け役となったのが、クリプトン・フューチャー・メディアから発売されている「初音ミク」だ。 同社からはMEIKO・KAITOという2つのボカロが先行していたものの、販売本数が伸びず、初音ミクを最後にボカロプロジェクトは終わりを迎える機運すらあった。 しかし2007年、「キャラクター・ボーカル・シリーズ」の第1弾として初音ミクの発売が開始すると、瞬く間に大ヒット。断念しかけていたプロジェクトは息を吹き返し、やがて鏡音リン、鏡音レン、巡音ルカ、また各種の追加ライブラリーや拡張音源を展開するに至る。 初音ミクがもたらしたものは合成音声だけではない。「初音ミクを奏でたい」「初音ミクを描きたい」「初音ミクを動かしたい」「初音ミクを演じたい」――様々なクリエイターが初音ミクを通

                                          「もう一歩か二歩、退いてもいい」初音ミク生みの親・佐々木渉が今だから語れること
                                        • NVIDIAが対話型AIのフレームワーク「Jarvis」の提供を開始

                                          2021年4月12日、NVIDIAが、対話型AIの構築が可能になるソフトウェアフレームワーク「Jarvis」の提供を開始したことを発表しました。Jarvisは膨大なデータによってトレーニングされているとのことで、「開発者は高精度な自動音声認識や言語理解能力を備えた対話型AIエージェントを開発可能になる」とNVIDIAは述べています。 NVIDIA Announces Availability of Jarvis Interactive Conversational AI Framework | NVIDIA Newsroom https://nvidianews.nvidia.com/news/nvidia-announces-availability-of-jarvis-interactive-conversational-ai-framework NVIDIA Jarvis: Worl

                                            NVIDIAが対話型AIのフレームワーク「Jarvis」の提供を開始
                                          • 【2020年】GCPのAI/ML系のサービスまとめてみた | DevelopersIO

                                            こんにちは、Mr.Moです。 Google Cloud Platform(GCP)にはたくさんの優れたサービスがありますがAI/ML系のサービスも熱いですね!Updateもガンガン来ているようなので現時点で情報をまとめておきたいと思います。 GCPのAI/ML系のサービス GCPでは多くのAI/ML系のサービスがリリースされていますが、今は大きく下記の2つで区別されているようです。 AI Building Blocks AI Platform AI Building Blocks AI Building Blocksには、カスタムモデルと事前トレーニング済みモデルの 2 種類があり、開発者は視覚認識能力、言語能力、会話能力、構造化データをアプリケーションに簡単に組み込めます。 事前トレーニング済みモデル 事前トレーニング済みのモデルをAPI経由で利用できるサービス群です。汎用的な機能でも良

                                              【2020年】GCPのAI/ML系のサービスまとめてみた | DevelopersIO
                                            • 産総研の地理研究チーム、Webブラウザ上で3Dデータを地図に重ねて表示する「3DDB Viewer」公開

                                              詳しい使い方は「3DDB Viewer マニュアル」で確認できる。 AIRCは「社会活動や企業活動の一部として、世界的に3次元データの利用が拡大している。多種多様なデータを容易に検索、閲覧できるシステムがデータの提供者と利用者の双方から求められている」として、3次元データ閲覧のために複数のソフトウェアを使い分ける手間の解消や、地理情報のないデータを地図上で閲覧したいといったニーズに応えるという。 産総研の3Dデータベースに3次元データを公開したい人からの問い合わせも受け付けている。 Webブラウザの動作環境は、PCのChrome、Firefox、ChromiumベースのMicrosoft Edgeのみ。スマートフォンやタブレットでは動作しない。 関連記事 Apple版ストビュー「Look Around」が日本上陸 目的地の様子を3DでチェックできるAppleの「Look Around」が日

                                                産総研の地理研究チーム、Webブラウザ上で3Dデータを地図に重ねて表示する「3DDB Viewer」公開
                                              • 音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

                                                本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコード: https://github.com/projectlucas/efficient_whisper 実験結果: https://github.com/projectlucas/efficient_whisper/blob/main/notebooks/efficient_whisper.ipynb はじめに こんにちは株式会社 MIXI Romi 事業部 Engineering Manager の

                                                  音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
                                                • 【個人開発】AIでVTuberを作るのに必要な知識は、機械学習の知識ではない【AITuber】 - Qiita

                                                  はじめに 先日、Virtual YouTuberを作りました。普通のVTuberとは異なり、コメントを広い、対話をしてくれるのはAIです。 AIVTuberというジャンルへの注目度は日に日に高まっていますが、一見機械学習の知識がたくさん必要で、実装が難しいように思う方も多くいるかと思います。 しかし実際は機械学習の知識は(合ったほうが勿論良いですが)そこまで必要ないです。 この記事ではAIVTuber作成のハードルを下げることを目標にしています。よって想定読者は「専門科目として機械学習を勉強していないがAIVTuberを作ってみたい人」を対象にしています。 方針の策定 「AIVTuber」に必要な要件をまず考えます。高度なことをやっているように思えますが、以下に分解するとイメージがつきやすくなります YouTubeコメントの取得 取得した質問にAIで回答 回答した文字列を合成音声に変換 音

                                                    【個人開発】AIでVTuberを作るのに必要な知識は、機械学習の知識ではない【AITuber】 - Qiita
                                                  • Engadget | Technology News & Reviews

                                                    Ryan Gosling and Miller/Lord’s Project Hail Mary could be the sci-fi event of 2026

                                                      Engadget | Technology News & Reviews
                                                    • 唇の動きを読み取ってその人らしく音声合成 インド工科大「Lip2Wav」開発

                                                      Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 インド工科大学ハイデラバード校と同カンプール校による研究チームが開発した「Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis」は、話者の口唇の動きだけを基に自然な音声を生成する機械学習ベースの手法で、「Lip2Wav」という名称を持つ。

                                                        唇の動きを読み取ってその人らしく音声合成 インド工科大「Lip2Wav」開発
                                                      • 美空ひばりの新曲ライブの実現を支援 あの歌声を当社最新の歌声合成技術『VOCALOID:AI™』で再現

                                                        美空ひばりの新曲ライブの実現を支援 あの歌声を当社最新の歌声合成技術『VOCALOID:AI™』で再現 「NHKスペシャル AIでよみがえる美空ひばり(仮)」に技術協力 ヤマハ株式会社は、9月29日(日)午後9時から放送予定の「NHKスペシャル AIでよみがえる美空ひばり(仮)」に協力し、現在当社が開発を進めている、深層学習技術(ディープラーニング)を使用した歌声合成技術『VOCALOID:AI』(ボーカロイド:エーアイ)を用いて、故人である美空ひばりさんの歌声を再現し新曲ライブを実現するという取り組みを支援しました。なお、『VOCALOID:AI』の公開および実用化は今回が初となります。 今回の取り組みは、日本放送協会(NHK)主導のもと、多数の協力者を得て実施されたもので、没後30年を迎え、歌謡界のトップを走り続けた絶世のエンターテイナーである美空ひばりさんの新曲ライブを現代のAI(人

                                                          美空ひばりの新曲ライブの実現を支援 あの歌声を当社最新の歌声合成技術『VOCALOID:AI™』で再現
                                                        • 装着していないVRヘッドセットが"動く対話ロボット”に 置き台ごと変形 北海道大「OMEME」開発

                                                          このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 北海道大学のヒューマンコンピュータインタラクション研究室に所属する研究者らが発表した論文「OMEME: 非装着状態の HMD を用いたコンパニオンロボットの開発」は、VRヘッドマウントディスプレイ(HMD)を置くと置き台ごと動くコンパニオンロボットになるシステムを提案した研究報告である。 HMDは基本的に頭部に装着して使用するために設計されているが、その非装着時の利用法についてはこれまであまり深く考察されてこなかった。このため、HMDの内蔵センサーやその他の計算機機能が非装着時にはほとんど活用されていないという状況にある。 この研究では、非

                                                            装着していないVRヘッドセットが"動く対話ロボット”に 置き台ごと変形 北海道大「OMEME」開発
                                                          • “ひろゆきっぽいコメント”AIで生成・音声も再生 無料ジェネレーター公開 rinnaとコラボ

                                                            質問を入力すると、AIでひろゆき(西村博之さん)っぽい返答を自動生成。それをひろゆきっぽいAI合成音声で再生する──音声合成AIを手掛けるCoeFont(東京都港区)は12月26日、こんなジェネレーターを無料公開した。日本マイクロソフトのチャットbot事業が独立したrinna(東京都渋谷区)とコラボ。2社のAI技術を活用して開発したという。 例えば「受験生です。勉強が辛くて悩んでいます」と質問すると、“AIひろゆき”が「受験生はつらいのは当然、自分を責めるべき」と話す紙芝居のような動画を生成する。「適当な回答がもらえる配信の様子を再現する」(CoeFont)として、同じ質問をしても毎回別の答えが返ってくるようにしたという。 rinnaはAI技術「キャラる」を提供。キャラるはTwitterの投稿を基に、アカウントの持ち主のような発言をするAIを開発できるサービスだ。ジェネレーターでは、ひろゆ

                                                              “ひろゆきっぽいコメント”AIで生成・音声も再生 無料ジェネレーター公開 rinnaとコラボ
                                                            • タレントや声優の声そのもので喋る技術はどのように生まれたのか。A.I.VOICEを発売するエーアイに聞いてみた|DTMステーション

                                                              ソフトバンクのロボット、Pepperやマツコロイドの声として音声合成エンジンが採用されたり、NTTドコモの音声対話アプリ「しゃべってキャラ」(現在のmy daiz)で採用されるとともに、AHSが発売してきた「VOICEROID」やソースネクストから販売している「かんたん!AITalk」などの音声読み上げソフトを開発してきたのが、2018年にマザーズへの上場を果たした日本の音声合成専門の技術開発会社、株式会社エーアイです。先日「音声合成メーカー自らが個人向けに発売したPCソフト、A.I.VOICEを試してみた」という記事を書いた際、同社にご挨拶で伺ったのですが、お会いした副社長である、廣飯伸一(ひろいしんいち)さんが、私がリクルートで会社員をしていたときの同期・同僚であったことが発覚! 世間は狭いというか、最近こうした偶然のようなことがよくあるのですが、廣飯さんとお会いしたのも20年ぶりくら

                                                                タレントや声優の声そのもので喋る技術はどのように生まれたのか。A.I.VOICEを発売するエーアイに聞いてみた|DTMステーション
                                                              • ChatGPT が回答する Discord Bot をほぼ0円運用できるように作った

                                                                こういう個人開発する時って限りなく0円に近い価格で運用したくありませんか? 特にDiscordBotは色々制約がある上意外と作るのが難しかったので、知見を共有します あとChatGPTの話はあんまり出てきません ※この記事にはオーバーエンジニアリングを含みます DiscordBotの制約を知っておく 結論 WebSocketを常時Listenするのが一番簡単に作れるがサーバー費用がかさむ InteractionをHTTPで受け取るようにすればWebSocketほど自由度はないがFaaSの載せられる HTTPのInteractionは大体3秒以内に返答しないとタイムアウトになってしまうため、重めの処理は工夫する必要がある 作り方の制約 まず第一に、DiscordBotを作るならEC2なりVPSなりでサーバーを建ててそこで実行するのが一番簡単に作れます これはDiscordの仕様によるもので、

                                                                  ChatGPT が回答する Discord Bot をほぼ0円運用できるように作った
                                                                • 一日で俺の嫁を作る方法 ~一日で自分の好きな声・キャラ・見た目でおしゃべりしてくれるAIキャラクターを作ろう~ - Qiita

                                                                  はじめに いくつかのAPIを組み合わせることで、一日で自分の好きな声・キャラ・見た目でおしゃべりできるAIキャラクターを作りました。この記事を読めば同じ感じで誰でも一日で俺の嫁を作ることができるようになります。 また今回はVR環境版とスマートフォン環境版の二種類を作成しました。 これらのアプリとUnity Projectは以下のgithubで公開しています。 軽く試してみたい人は作り方の6に従って、AgentCraftでAIの会話例を作成して、それをSebastienでデバイスIDとして発行すれば試すことができます。詳しくは6および6に載せている資料をご覧ください。 https://github.com/gyokuro33/ai-agent 何を作ったか こんなのです。 スマートフォン版 俺の嫁を一日で作ってみた pic.twitter.com/c3xbmofXH8 — おろろ (@oro

                                                                    一日で俺の嫁を作る方法 ~一日で自分の好きな声・キャラ・見た目でおしゃべりしてくれるAIキャラクターを作ろう~ - Qiita
                                                                  • 「DOOM」の開発者でOculusの元最高技術責任者だったジョン・カーマックがAI研究に進出した理由とは?

                                                                    by Jeff Foust メタバースをメイン事業に掲げて社名も変更したMetaのVR部門は、もともとは「Oculus」というVR企業でした。このOculusの最高技術責任者(CTO)を長く務めていたのが、「DOOM」「Quake」などのゲームを開発したことで知られるid Softwareの共同設立者だったジョン・カーマック氏です。カーマック氏はMetaを退職した後に自らが設立したスタートアップ・Keen Technologiesで汎用人工知能(AGI)の研究開発に携わっており、その経緯をIT関連ニュースメディアのDallas Innovatesによるインタビューの中で語っています。 Exclusive Q&A: John Carmack's 'Different Path' to Artificial General Intelligence » Dallas Innovates htt

                                                                      「DOOM」の開発者でOculusの元最高技術責任者だったジョン・カーマックがAI研究に進出した理由とは?
                                                                    • AIプロジェクトの成否は「MLOps(機械学習基盤)」にかかっている

                                                                      AIプロジェクトの成否は「MLOps(機械学習基盤)」にかかっている:2020年、AI活用の成否を分かつ技術とは(2) 人工知能(AI)を活用して価値を提供する企業が現れる中、PoCでつまずく企業が見直すべきポイントはどこにあるのか。そして今後必要不可欠になる考え方とは何か。機械学習に必要な教師データを企業に提供するLionbridgeに話を聞いた。 AI技術を活用して、実ビジネスで成果を獲得している企業が着実に増えつつある。 ごく身近なところで言えば、定額制動画配信サービスで知られるNetflixが挙げられる。同社はレコメンドアルゴリズムに機械学習を活用。その他、機械学習を用いて成功作品の特性を見いだし、Netflixの独自コンテンツ制作に生かしたり、広告素材制作に分析結果を生かして会員獲得増を果たしたりと、AIを実益に結び付けている。 言うまでもなく、こうした事例は同社のようなWeb系

                                                                        AIプロジェクトの成否は「MLOps(機械学習基盤)」にかかっている
                                                                      • GitHub - serp-ai/bark-with-voice-clone: 🔊 Text-prompted Generative Audio Model - With the ability to clone voices

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - serp-ai/bark-with-voice-clone: 🔊 Text-prompted Generative Audio Model - With the ability to clone voices
                                                                        • 音声・歌声合成ソフト「CeVIO」、オンライン授業向けに無償提供 新型コロナ対策支援で

                                                                          テクノスピーチは4月10日、Windows用の音声合成・歌声合成ソフトウェア「CeVIO Creative Studio」を期間限定で無償提供すると発表した。対象は大学、高校、中学校、小学校などの教職員で、新型コロナウイルスの感染拡大防止策として行われるオンライン授業やオンデマンド授業向けのコンテンツ作成での利用を想定している。 CeVIO Creative Studioは、HMM(隠れマルコフモデル)方式と呼ばれる統計的手法で、話者、歌手の表現や声質を再現するソフトウェア。女声2種類(さとうささら、すずきつづみ)と男声1種類(タカハシ)の計3種類の音声を合成できる。女声の1つ(さとうささら)は、歌声合成も可能だ。 オプションでさまざまな歌手を追加することもできる。その中には、故・三波春夫さんの歌声を再現した「ハルオロイド・ミナミ」も含まれる。 利用の申し込みはメールで受け付ける。ソフトを

                                                                            音声・歌声合成ソフト「CeVIO」、オンライン授業向けに無償提供 新型コロナ対策支援で
                                                                          • 【VOICEVOX】ディープラーニングの力でテキスト読み上げソフトウェアを作ってみた

                                                                            VOICEVOXというテキスト読み上げソフトウェアを作りました。特徴は次の3つです。1. そこそこ品質が良い2. 無料で使える3. イントネーションの細かい調整ができるぜひ使ってみてください!----------------------------------------・VOICEVOXホームページ(ダウンロードもこちら)https://voicevox.hiroshiba.jp/・VOICEVOX (GitHub)https://github.com/Hiroshiba/voicevox・ツイッターhttps://twitter.com/hiho_karuta・イラスト浅井麻 @asaiasa0・謝辞無料で配布できるのは東北ずん子チームのご厚意のおかげです。本当にありがとうございます。東北イタコ音声合成データベース制作プロジェクト https://greenfunding.jp/pub

                                                                              【VOICEVOX】ディープラーニングの力でテキスト読み上げソフトウェアを作ってみた
                                                                            • 「今の歌声合成ソフト市場は30年前のシンセ市場のよう」――AHSが見る業界の現在地

                                                                              「ちょうど30年くらい前の、各社が面白い楽器をたくさん出していたころに重なる」――自社開発した「VOICEROID」をはじめ、他社製品を含む複数の音声合成ソフトを販売するAHS(東京都台東区)の尾形友秀代表は、現在の歌声合成ソフト市場についてこう語る。 AHSは2009年から、他社の歌声合成ソフトも含め取り扱いを開始。自社製品のVOICEROIDだけでなく、ヤマハの「VOCALOID」に向けた音源を販売してきた。20年10月には、他社のAI歌声合成ソフトも取り扱うと発表。「CeVIO AI」(テクノスピーチ製)や「Synthesizer V AI」(Dreamtonics製)を近く販売するとした。 AI歌声合成ソフトは、あらかじめ人間の歌声を学習したAIが、入力された楽譜データを基に人間らしい歌声を自動でシミュレーションして合成するもの。これまでは法人向けや研究目的で開発されるケースが多く

                                                                                「今の歌声合成ソフト市場は30年前のシンセ市場のよう」――AHSが見る業界の現在地
                                                                              • Transformerを用いてオノマトペから環境音を合成する手法をPyTorchで実装した(Transformer版 Onoma-to-Wave) - 備忘録

                                                                                はじめに 事前準備 実装の概要 環境音合成実験 実験条件 実験結果 実装の舞台裏など おわりに はじめに 以前、Onoma-to-Waveを実装した記事を書いたことがあった: tam5917.hatenablog.com Onoma-to-Waveとはオノマトペ(文字列)を環境音(スペクトログラム)に変換するモデルである。RNNに基づくencoderとdecoderから構成されており、いわゆるSequence-to-Sequence(Seq2Seq)の構造を持つ。 それらをTransformerによって置き換えたモデルが、Onoma-to-Waveの著者らによって実はすでに提案されている。 岡本 悠希,井本 桂右,高道 慎之介,福森 隆寛,山下 洋一,"Transformerを用いたオノマトペからの環境音合成," 日本音響学会2021年秋季研究発表会,pp. 943-946,2021. 上

                                                                                  Transformerを用いてオノマトペから環境音を合成する手法をPyTorchで実装した(Transformer版 Onoma-to-Wave) - 備忘録
                                                                                • 全世界の夜更かしさんに送る、Google Home(mini) + Nature Remo + 鯖(Synology NAS) + Node.jsでつくる夜更かし防止装置のすヽめ(google-home-notifier未使用) - Qiita

                                                                                  全世界の夜更かしさんに送る、Google Home(mini) + Nature Remo + 鯖(Synology NAS) + Node.jsでつくる夜更かし防止装置のすヽめ(google-home-notifier未使用)JavaScriptNode.jsIoTGoogleHome はじめに ついつい夜更かしをしてしまうの方に向けにGoogle HomeとNature Remoを組み合わせて「指定した時間以降、部屋が明るければGoogle Homeより早く寝るように警告を発する装置」をNode.jsで実装する作例をご紹介します!! 市販品を組み合わせるだけなのでお手頃に作れます!!(たぶん) ちなみに似たような作例はよくありますが、多くの記事では「google-home-notifier」と呼ばれるGoole Homeに簡単にプッシュ発話をさせるライブラリが使われており、google

                                                                                    全世界の夜更かしさんに送る、Google Home(mini) + Nature Remo + 鯖(Synology NAS) + Node.jsでつくる夜更かし防止装置のすヽめ(google-home-notifier未使用) - Qiita