並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 597件

新着順 人気順

音声の検索結果361 - 400 件 / 597件

  • ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる - AUTOMATON

    マサチューセッツ工科大学卒業生の技術者15氏は現在、テキスト読み上げソフト「15.ai」の最新バージョンを公開中だ。本プログラムではさまざまなゲームや映画・アニメキャラクターのボイスが用意されており、ユーザーが入力した任意の英語をキャラクターの声で読み上げてくれる。現在17の作品のキャラクターが登録されており、お気に入りのキャラクターに好きなセリフを読み上げてもらうことができる。 *『Portal』よりGLaDOSの音声でSiri風に話してもらった作例。 本プロジェクトはマサチューセッツ工科大学の学部研究機会プログラムの一環として発展を遂げてきた。「15.ai」はディープラーニングにより、さまざまなキャラクターの声を生成することができる。たとえ入力されたテキストに対して利用可能なデータがほとんどない場合でも、トレーニング済みのアルゴリズムを複数組み合わせ、独自にカスタマイズされたネットワー

      ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる - AUTOMATON
    • まつもと ゆきひろ「Matzチャンネル」/ Voicy - 音声プラットフォーム

      Rubyのパパ、まつもとゆきひろがいろいろ話します。

        まつもと ゆきひろ「Matzチャンネル」/ Voicy - 音声プラットフォーム
      • 一日で俺の嫁を作る方法 ~一日で自分の好きな声・キャラ・見た目でおしゃべりしてくれるAIキャラクターを作ろう~ - Qiita

        はじめに いくつかのAPIを組み合わせることで、一日で自分の好きな声・キャラ・見た目でおしゃべりできるAIキャラクターを作りました。この記事を読めば同じ感じで誰でも一日で俺の嫁を作ることができるようになります。 また今回はVR環境版とスマートフォン環境版の二種類を作成しました。 これらのアプリとUnity Projectは以下のgithubで公開しています。 軽く試してみたい人は作り方の6に従って、AgentCraftでAIの会話例を作成して、それをSebastienでデバイスIDとして発行すれば試すことができます。詳しくは6および6に載せている資料をご覧ください。 https://github.com/gyokuro33/ai-agent 何を作ったか こんなのです。 スマートフォン版 俺の嫁を一日で作ってみた pic.twitter.com/c3xbmofXH8 — おろろ (@oro

          一日で俺の嫁を作る方法 ~一日で自分の好きな声・キャラ・見た目でおしゃべりしてくれるAIキャラクターを作ろう~ - Qiita
        • Apple、AI採用障害者支援ツールを多数発表 失う前に登録した声で話せる「Personal Voice」など

          Apple、AI採用障害者支援ツールを多数発表 失う前に登録した声で話せる「Personal Voice」など 米Appleは5月16日(現地時間)、認知、音声、視覚、モビリティのアクセシビリティを支援する複数のツールを発表した。年内に提供を開始する計画だ。Appleはプレスリリースで言及していないが、「iOS 17」「iPadOS 17」の機能とみられる。 声を出せない人でも音声で会話に参加できる「Live Speech」 「Live Speech」は、iPhone、iPad、Macで使えるテキストを音声に変換するツール。電話やFaceTime、リアルな対面での会話で、入力したテキストをユーザーの代わりに読み上げる。すぐに使えるフレーズを複数保存しておくこともできる。 声を出せなくなる前に自分の声を登録し、Live Speechに使える「Personal Voice」 「Personal

            Apple、AI採用障害者支援ツールを多数発表 失う前に登録した声で話せる「Personal Voice」など
          • 日本で流行りはじめた音声SNS「Clubhouse(クラブハウス)」ってなんだろう

            日本で流行りはじめた音声SNS「Clubhouse(クラブハウス)」ってなんだろう2021.01.29 11:00101,788 武者良太 いま、ナウで、リアルタイムで日本のアーリーアダプター&アーリーマジョリティ層に勢いよく浸透しつつあります。 「Clubhouse(クラブハウス)」。音声チャットでコミュニケーションするiOS専用音声SNSです。2020年4月から英語圏で広がりはじめたサービスですが、1月16日から(1月22日説もあり)日本のApp Storeに登録されたことから、日本の利用者数がガンガンに伸びています。原稿執筆時点で、ソーシャルネットワーキングカテゴリ内、1位となっていました。 Capture: 武者良太誰でも自由に好きなルームを作り、好きな人と好きに話せる。しかも体感レベルでノー遅延。ルームの種類によってはトークを他の人も自由に聴くことができるし、トーク中にモデレータ

              日本で流行りはじめた音声SNS「Clubhouse(クラブハウス)」ってなんだろう
            • Twitter、音声ツイートのテストを開始 140秒単位の録音カードとして

              音声ツイートにはテキストを添えることもできる。完成したらTweetボタンをタップすれば普通に投稿できる。 音声ツイートはタイムライン上では下図の様に見える。音声はカードとして表示されるので、これをタップすると再生が始まる。 iOSユーザーの場合は、音声ツイートを再生するとカードがタイムラインの下に表示され、再生しながらタイムラインのスクロールを続けられる。マルチタスクにも対応する(再生しながら他のアプリを使える)。 ヘイトスピーチや嫌がらせの音声ツイートをどう取り締まるのかと懸念する向きもあるが、Twitterは、音声ツイートはテキストよりも自分の考えを早く簡単に共有でき、「より人間的な体験が生まれることを願っている」としている。 関連記事 Twitter、内容を読まずにRTしようとすると「読んだ?」と尋ねるテスト開始 Twitterが、タイトルだけ見て記事をRTすることで意図しない記事が

                Twitter、音声ツイートのテストを開始 140秒単位の録音カードとして
              • AIによる「声」の復活とその脅威

                The Atlantic誌に「外国語教育の終焉」(The End of Foreign-Language Education)という記事が載っていた。 この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試しに作ってみるとなんだか不気味ですらある。自分であって自分でない、確かにシミュラクルだ。 とすると外国語を学ぶモチベーションが落ちるのもやむを得ないところで、記事によれば米国の大学における英語以外の言語コースの総登録者数は、2009年から2021年にかけて29.3%減少したという。オーストラリアでは2021年の高校3年生の8.6%しか外国語を学んでおらず、韓国やニュージーランドでも、外国語学科を閉鎖する大学が相次いでいるそうだ。逆に非英語圏では、

                  AIによる「声」の復活とその脅威
                • Amazon Connect と ChatGPTのAPIを使い、電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築してみた | DevelopersIO

                  Amazon Connect と ChatGPTのAPIを使い、電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築してみた 電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築しました(実際のデモ動画あり)。構築手順についてご説明します。 はじめに 題名の通り、電話でChatGPTが質問に答えてくれるチャットボットシステムを構築してみました。 電話をかけて質問すると、ChatGPTのAPIを利用し、質問に答えてくれます。音声は、Amazon Connectで用意されているものを使用しています。 下記は、イメージ図になります こちらは、電話をかけた時の動画になります 動画では、ChatGPTのレスポンスに時間がかかっているように思えます。 レスポンス時間を短縮する方法をブログ化しましたので、今回の記事を

                    Amazon Connect と ChatGPTのAPIを使い、電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築してみた | DevelopersIO
                  • アレクサは生成AI対応へ アマゾンの5980円スピーカー「Echo Pop」

                      アレクサは生成AI対応へ アマゾンの5980円スピーカー「Echo Pop」
                    • 【Python】pydub使ったら音声データの解析がめっちゃ簡単だった

                      音声データをPythonで取り込んで表示したり解析したりしたいと思ったことはありませんか? この記事では音声データの入出力をPythonで行えるpydubのインストールと基本的な使用方法(音声データの読み込み)について説明します。 pydubで音声データファイルの入力ができれば,Numpyが提供する関数等を使用してPython上で音声データの解析・加工ができるようになります。 動作検証済み環境 macOS Catalina(10.15.7), python3.7.10, Jupyter Notebook, OpenCV 3.4.2 Pythonで音声データを読み込み,波形を描画する方法 pydubのインストール Pythonで音声データファイルの読み込みをするときは,pydubが便利です。 pydubは内部で ffmpegというライブラリを使用しますので,あらかじめインストールしておく必要

                        【Python】pydub使ったら音声データの解析がめっちゃ簡単だった
                      • AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載|DTMステーション

                        昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか?」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。 文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハー

                          AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載|DTMステーション
                        • VALL-E

                          Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [Paper] Chengyi Wang*,   Sanyuan Chen*,   Yu Wu*,   Ziqiang Zhang,   Long Zhou,   Shujie Liu, Zhuo Chen,   Yanqing Liu,   Huaming Wang,   Jinyu Li,   Lei He,   Sheng Zhao,   Furu Wei Microsoft Abstract. We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language m

                          • CASIOが間もなく、新音源方式のシンセサイザーを発表か!?|DTMステーション

                            カシオが1980年代~1990年代に開発してきたデジタルシンセサイザについて、これまで5回に渡ってDTMステーションの記事で取り上げてきました。具体的には1980年に発売されたカシオートーン201に搭載された子音・母音音源システム、CZ-101などに搭載されたPD音源、VZ-1などに搭載されたiPD音源、CTK-1000などに搭載されたiXA音源、そしてSK-1に代表されるサンプラー/PCM音源…という歴史でしたが、そこから20年の時を経て、ついにカシオがまったく新しい音源方式のシンセサイザを発表するようです。 過去5回の記事のインタビューの中でも、新しい方式のシンセサイザを開発している……という話を聞いてはいたのですが、詳細については、いまひとつハッキリしないまま今日に至っていました。しかし、昨年末にカシオの英国サイトにおいて「Are You Ready?」というページを公開するとともに

                              CASIOが間もなく、新音源方式のシンセサイザーを発表か!?|DTMステーション
                            • 最新AIでついにラップも実現、まだまだ進化するSynthesizer Vの技術背景と目指す方向|DTMステーション

                              すでに使っている方も多いと思いますが、2023年6月21日にSynthesizer Vの最新バージョン1.9.0が正式にリリースされています。これまでのSynthesizer V Studio Proのユーザーであれば、誰でも無料でバージョンアップできるようになっているのがスゴイところですが、この1.9.0ではついにラップに対応するという、音声合成・歌声合成の世界の中で初の試みが実現されています。これまでラップを音声合成ソフトや歌声合成ソフトで、無理やり実現させようと打ち込みを頑張ってみた経験のある方も少なくないと思います。でも、なかなか思うようにいかなかったのが現実ではないでしょうか? そのラップを今回のSynthesizer V 1.9.0ではついに現実のものにしたのです。現時点においては英語のラップと中国語のラップへの対応で、日本語にはまだ対応できていないようですが、現在準備中なので

                                最新AIでついにラップも実現、まだまだ進化するSynthesizer Vの技術背景と目指す方向|DTMステーション
                              • OBSに画質を求めるのは間違っているだろうか

                                TL;DR #見出しにジャンプ この記事はOSSのOpen Broadcaster Software(OBS Studio)のチュートリアルです。 OBSは配信の品質向上、処理の軽量化に最適なアプリケーションです。たとえ録画用途であってもBandicamやShadowPlay等の他のアプリケーションを選ぶ余地はありません。 日本語の情報が少なく、OBS関連では辿り着けない情報も含めて解説するので、何かに躓いている方や更に配信・録画品質を上げたい方は必見です。 目次・Ctrl-F を活用してね!

                                  OBSに画質を求めるのは間違っているだろうか
                                • チンパンジーが390もの構文を使って会話をしていることが鳴き声5000回の録音から示唆される

                                  野生のチンパンジーの鳴き声5000回を録音して解析した新しい研究により、チンパンジーは12種類の異なる鳴き声を複雑に組み合わせて390通りもの「構文」を作っていることが明らかになりました。 Chimpanzees produce diverse vocal sequences with ordered and recombinatorial properties | Communications Biology https://doi.org/10.1038/s42003-022-03350-8 Chimpanzees combine calls to form numerous vocal sequences | Max-Planck-Gesellschaft https://www.mpg.de/18653265/0517-evan-chimpanzees-combine-calls-

                                    チンパンジーが390もの構文を使って会話をしていることが鳴き声5000回の録音から示唆される
                                  • 機械の声で気持ちよくなれるか ささやきAIで「メイドさんASMR」動画作ってみた

                                    「ASMR動画」をご存じだろうか。YouTubeでは主に「脳がゾクゾクするような気持ちいい音を収録した動画」という意味で使われる言葉だ。「包丁でいろんなものを切る音」「耳かきの音」「ささやき声」などを収めた動画が人気ジャンルになっている。そんなASMRにぴったりの“ささやくAI”が登場したので、早速動画にしてみた。 シナリオは普段からASMR動画を楽しんでいるという同僚に頼んで書いてもらった。タイトルは「あなたのことを世界一愛している一途メイドと密着添い寝ASMR」。登場人物はメイド、聞き手は女主人とのこと。後半が少し過激だったためカットしている。 「あなたのことを世界一愛している一途メイドと密着添い寝ASMR」 シナリオ:吉川大貴 コメント「音声作品らしさを出しつつ、プラトニックラブにも見えるようにしました」 いかがだろうか。普段からASMR動画を聞いている人であれば「これは確かにASM

                                      機械の声で気持ちよくなれるか ささやきAIで「メイドさんASMR」動画作ってみた
                                    • GPT音声認識雑談マシーンをつくった。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ

                                      パソコンに話しかけると音声認識でGPTで雑談に応じてくれるサービスをつくった。 ぼくのように、誰にも話しかけられなくてPCの前で独り言をブツブツいっててキモい孤独なオッサンのためのベストなソリューションです。 返答は一応、日本語合成音で返ってきます。 一応、雑にメイドっぽく調教済。 ユーザーを「ご主人さま」と呼びます。 適宜、語尾に「にゃん」をつけるようにしてます。 あとは、適当にメイドっぽくとしか指示してないです。 将来的に人工知能が、現代人類最大の問題である「孤独」を解決するかもしれません。たぶん。 PC/MacのChromeのみ(開発はChromebook+gitpodなので実機動作確認してないw) 2ヶ月前に作った時はOpenAIの利用料が高すぎて、あー、マジどうしようとおもったのですが、OpenAIが(モデル限定されますが)大幅に値下げしたんで、まぁ、ブログに書いてみた。 要go

                                        GPT音声認識雑談マシーンをつくった。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ
                                      • 合成音声を使ってboard(SaaS)のチュートリアル動画を制作した話(VOICEPEAKとGoogle Cloud Text-to-Speech) - ヴェルク - IT起業の記録

                                        boardというSaaSのチュートリアル動画を合成音声を使って制作しているので、その話を書いていきます。 個別相談会のデモとチュートリアル動画 以前書いた board(SaaS)個別相談会の変遷 の中で少し触れたのですが、2021年に、個別相談会の中でやっていたデモをベースに、チュートリアル動画を制作しました。 個別相談会では、業務の流れに沿って基本的な操作を一通り説明していくデモを行っていたのですが、途中に質問が挟まることも多く、そうすると、全体で30〜40分ほどかかってしまうことも多くありました。 個別相談会は1時間枠なので、そのうち40分をデモで使うのは、時間の使い方としてもったいないなという課題感がありました。また、弊社は営業など外向けに活動するメンバーがいないため個別相談会はすべて僕がやっており、個別相談会を開催できる回数にも限りがありました。 一方で「お試しする前にとりあえずデ

                                          合成音声を使ってboard(SaaS)のチュートリアル動画を制作した話(VOICEPEAKとGoogle Cloud Text-to-Speech) - ヴェルク - IT起業の記録
                                        • 喋り出しを高速化したり現実の情報とリンクしてAIエージェントを進化させる|ねぎぽよし

                                          ChatGPT APIが公開されてからいろんな人が自分のキャラクターとおしゃべりしたりAITuberが一歩先に進化したりと面白いものがたくさん見れてとても嬉しいです! AI界隈の情報密度が高すぎて↓の記事を書いたのが2日前というのが信じられませんね。 さてChatGPT APIでみんなのキャラクターが知能を持って喋れるようになったわけですが、自分が作ったものを振り返ってみたらまだまだ改善の余地がいっぱいありそう+もうちょっとできることが増えてほしいなと思い、自分のAIエージェントに追加で実装をしてみました。 そこで実装した内容について概要をお話します。 AIの喋り出しを高速化するまず気になったのは自分とAIエージェントのコミュニケーションにおいて待たされる時間が非常に長いことです。 この間を整理すると、以下のような時間がかかります。 1.自分の発話をテキストに起こす時間 2.そのテキストを

                                            喋り出しを高速化したり現実の情報とリンクしてAIエージェントを進化させる|ねぎぽよし
                                          • グーグルがビデオ会議のイライラを解消、音声の途切れをAIで補完

                                            対面でのやり取りにビデオ通話を使う人が多くなった現在、接続が途切れ途切れになり、以前にも増してイライラさせられるようになった。そこで、個々の話者の話し方を模倣して発言のスニペット(断片)を生成し、小さな隙間を埋めることで、途切れをスムーズにしてくれる人工知能(AI)が登場した。グーグルのチームが開発したこのテクノロジーは現在、同社のビデオ通話アプリ「デュオ(Duo)」で使われている。 オンライン通話中、私たちの声はたくさんの小さな断片に切り刻まれ、パケットと呼ばれるデータブロックの形でインターネット上を通り抜けていく。パケットは多くの場合、相手方にごちゃごちゃになって到着するので、ソフトウェアでそれらを並べ替える必要がある。しかし、まったく届かないパケットもあり、それが原因で会話に不具合や途切れが生じる。これは通話状態がもっともよい時でさえ起こる。グーグルによると、デュオでの通話の99%で

                                              グーグルがビデオ会議のイライラを解消、音声の途切れをAIで補完
                                            • OpenAIのAudio Transcription APIで遊んだ - Lambdaカクテル

                                              最近OpenAIがオーディオ系のAPIをいくつか出していた。といってもけっこう前の話だ。 そんな中、最近OpenAIが色々なサービスを展開している。自分も触って習熟しておいたほうが、面白いアイデアを思い付いたときにすぐにプロダクトを作れて役に立つはずだ。そういうわけで色々APIを見ていたところ、その中でも面白そうだった書き起こしAPIを使うことにした。自分が喋った内容を書き起こしてもらいたい。上手くいくだろうか?ボソボソ喋るオタクボイスでも? openai.itshinan.jp このAPIを使うと、オーディオ音声(wavとかflacとか色々な入力形式を使える)から各言語の書き起こしをやってくれる。イクゾー 素材音声 小銭を払う Scalaから呼び出す 所見 まとめ 素材音声 今回用意した自分の音声はこれ。過去の自分の記事の内容の一部をボソボソ読み上げている。お世辞にも上手ではないし、AP

                                                OpenAIのAudio Transcription APIで遊んだ - Lambdaカクテル
                                              • 日本語の文字起こしAIサービス「Rimo Voice」提供開始、1時間の音声を5分でテキスト化、句読点も自然に挿入

                                                  日本語の文字起こしAIサービス「Rimo Voice」提供開始、1時間の音声を5分でテキスト化、句読点も自然に挿入 
                                                • NEUTRINO(歌声合成エンジン)とは (ニュートリノとは) [単語記事] - ニコニコ大百科

                                                  NEUTRINO(歌声合成エンジン)単語 16933件 ニュートリノ 4.4千文字の記事 66 0pt ほめる 掲示板へ 記事編集 概要歌声合成手法の詳細について関連動画関連リンク関連項目脚注掲示板NEUTRINOとは、ニューラルネットワークを用いた歌声シンセサイザーである。 概要 楽譜データ(MusicXML形式)から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推定し、実際の歌唱データからなる歌声ライブラリで合成するソフトウェア。 「NEUTRINO」との名称については、「まだ聞いたことのないような楽曲・ジャンルを開拓してほしいという思いを込めて名付けました。[1]」とのこと。 2020年2月22日にαテスト版のVersion.0.100が公開された。公開されると早速、NEUTRINOを用いて様々な楽曲を歌唱させた動画が複数のユーザーからニコニコ動画などで

                                                    NEUTRINO(歌声合成エンジン)とは (ニュートリノとは) [単語記事] - ニコニコ大百科
                                                  • End-to-End 音声認識のレスポンスを高速化する最小遅延学習

                                                    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。 皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか? 音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。 なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された

                                                      End-to-End 音声認識のレスポンスを高速化する最小遅延学習
                                                    • OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita

                                                      OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくったPythonwhisperOpenAIGoogleColaboratory 概要 OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を発表しました。 ただこのモデルはGPUを使うので、精度を試したりするのに気軽に実行できません。 特にGPUを積んでいるWindows機がないような、Macユーザは中々このモデルのすごさを自分の使いたい音声や動画で試せないのはもったいないと思います。 また個人的に、このWhisperの音声認識の恩恵を受けれるのは、非エンジニアで議事録などを書かれている方だと考えています。 そこで公式のGoogleColabora

                                                        OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita
                                                      • ビートルズ「最後の楽曲」、AIで制作 年内リリースへ マッカートニーさん

                                                        米カリフォルニア州でステージに立つ英ミュージシャンのポール・マッカートニーさん(2016年4月13日撮影、資料写真)。(c)Steve Jennings / GETTY IMAGES NORTH AMERICA / Getty Images via AFP 【6月13日 AFP】英ロックバンド「ビートルズ(The Beatles)」の「最後の楽曲」が人工知能(AI)を用いて制作され、年内にリリースされる。元メンバーのポール・マッカートニー(Paul McCartney)さんが、13日に公開された英BBCのインタビューで明らかにした。 来週81歳の誕生日を迎えるマッカートニーさんは「ジョン(・レノンさん、John Lennon)が持っていたデモを僕らが作業して、完成させただけなんだ」と語った。 2人に故ジョージ・ハリソン(George Harrison)さん、リンゴ・スター(Ringo St

                                                          ビートルズ「最後の楽曲」、AIで制作 年内リリースへ マッカートニーさん
                                                        • Conformer:Transformerを音声認識に応用!? GoogleによるTransformer×CNNが凄すぎる!!

                                                          3つの要点 ✔️ TransformerとCNNを組み合わせたモデル,Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transformer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20

                                                            Conformer:Transformerを音声認識に応用!? GoogleによるTransformer×CNNが凄すぎる!!
                                                          • アーティストのGrimes、生成AIで自分の声を自由に使っていいとツイート

                                                            起業家イーロン・マスク氏の元妻でアーティストのGrimesは4月24日、自分の声を使ってAIで曲を作っていいと表明した。「私の声を使ってAIが生成した曲がヒットした場合、ロイヤリティの50%をシェアしよう。これは、いつも私がコラボするアーティストとの取引条件と同じだ。私の声は自由に使っていい」とツイートした。 このツイートに添付されているのは、アーティストのドレイクとザ・ウィークエンドの声を無断で使って作曲されたAI生成楽曲「Heart On My Sleeve」についての記事だ。 この曲はSpotifyやYouTube上でヒットしたが、公開24時間以内に削除された。削除されたYouTube動画のURLには「このビデオは、UNIVERSAL MUSIC GROUP(UMG)による著作権侵害の申し立てにより利用できなくなりました」と表示される。UMGはドレイクとザ・ウィークエンドが所属するレ

                                                              アーティストのGrimes、生成AIで自分の声を自由に使っていいとツイート
                                                            • 音声合成してみよう

                                                              第63回シェル芸勉強会のLTで使った資料です

                                                                音声合成してみよう
                                                              • 音楽生成AI のリリース年表|npaka

                                                                AI 🤝 Music Suno can now sing! Our new model generates music with vocals, and you can try it now on Diśčòrd. See below for some early examples and an invite link to our open beta: pic.twitter.com/CjjfYM2YRZ — Suno (@suno_ai_) July 21, 2023

                                                                  音楽生成AI のリリース年表|npaka
                                                                • 「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング ~拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う?プログラミング教育ツール】

                                                                    「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング ~拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う?プログラミング教育ツール】
                                                                  • あらゆる場面に対応できる音声合成ソフト『VOICEVOX Nemo』リリース&動画制作ソフトウェア『Vrew』提携のお知らせ

                                                                    無料のテキスト読み上げソフトウェア「VOICEVOX」から、新ブランド「VOICEVOX Nemo」が11月17日リリース。動画編集ソフト「Vrew」と提携し、VOICEVOXの音声を簡単に活用可能に。 無料で使える中品質なテキスト読み上げソフトウェア「VOICEVOX」は、キャラクター無しの話者シリーズ「VOICEVOX Nemo」を2023年11月17日(金)にリリースすることをお知らせいたします。 また、VOICEVOXはVoyagerX, Inc.と提携しまして、マルチOS対応の動画制作ソフト「Vrew」にてVOICEVOXの音声を簡単に利用できるようになりました。(VOICEVOX Nemoは今後対応予定) 別途プランに加入せずとも、誰でも無料でお使いいただけます。 VOICEVOX Nemoとは 「VOICEVOX Nemo ( https://voicevox.hiroshi

                                                                      あらゆる場面に対応できる音声合成ソフト『VOICEVOX Nemo』リリース&動画制作ソフトウェア『Vrew』提携のお知らせ
                                                                    • RustでGUI付きのVSTプラグイン作る(Conrod, iced) - Qiita

                                                                      はじめに VSTとはDAWなどの音楽ソフト上で動くプラグインの規格の一つです。 シンセサイザーやオーディオフィルターなどを作ることができて、DAW上から簡単に利用することができます。 画像はVSTHost上で動いている有名なシンセサイザープラグイン、Serum 余談ですがSerumは有料ソフトで、2万円位します。結構いい市場なのでは? この記事ではRustでGUI付きのVSTプラグインを作っていきます。 各OSのAPIの仕様が関わってくるため、本記事の対象プラットフォームはWindowsのみです 他のプラットフォームで成功した方はコメント下さい vst-rs vst-rsを使うとRustでVSTプラグインを作ることができます。 ここで説明すると長くなってしまうので、簡単な使い方をCreating a simple synthesizer VST plugin in Rustで各自参照してく

                                                                        RustでGUI付きのVSTプラグイン作る(Conrod, iced) - Qiita
                                                                      • しゃべり方から数秒で2型糖尿病かどうかを見抜けるAIが登場

                                                                        AIと音声技術を組み合わせることで、2型糖尿病を高精度で判別する手法をカナダの医療スタートアップであるKlick Healthの研究所・Klick Labsが開発しました。このモデルによる病気の検出精度は女性で89%、男性で86%だとのことで、論文は「Mayo Clinic Proceedings: Digital Health」に掲載されています。 Acoustic Analysis and Prediction of Type 2 Diabetes Mellitus Using Smartphone-Recorded Voice Segments - Mayo Clinic Proceedings: Digital Health https://www.mcpdigitalhealth.org/article/S2949-7612(23)00073-1/fulltext AI and

                                                                          しゃべり方から数秒で2型糖尿病かどうかを見抜けるAIが登場
                                                                        • オープンソースAI(Whisper、BERT、VOICEVOX)を用いた音声対話ロボットの作成 - Qiita

                                                                          はじめに どうもこんにちは。ヤフー株式会社のkunishouです。気づけば2022年も残り3週間、皆様いかがお過ごしでしょうか? 今年の機械学習のトレンドと言えば、海外のAI企業から次々とオープンソースのAIが発表されたことが非常に印象的でした。画像生成分野ではStability AI社の「Stable Diffusion」、音声認識分野ではOpenAI社の「Whisper」などが発表されました。発表されたこれらのAIは非常に高機能であるにも関わらず、オープンソースのAIとして、自由に利用することができます。 今回、 クリスマスも近いということなのでこれらの高機能なAIを活用して何か面白い物を作ることはできないか と考え、物理的に言葉を投げかけると返事が返ってくるような音声対話ロボットを作ってみることにしました( クリスマスにしゃべる相手がいないからというわけでは決してありません )。 目

                                                                            オープンソースAI(Whisper、BERT、VOICEVOX)を用いた音声対話ロボットの作成 - Qiita
                                                                          • 【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL

                                                                            【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。 このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを(AIが)読み上げることができるんです、、、! 参考:https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。 この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら

                                                                              【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL
                                                                            • リアルタイム音声変換 ParakeetVC

                                                                              誰の声でも好きなようにカスタマイズできる最先端AIを自社研究し,サービスの開発 & 展開をしています.

                                                                                リアルタイム音声変換 ParakeetVC
                                                                              • Wavacity | Online Audio Editor Based on Audacity

                                                                                Wavacity is a port of the Audacity® audio editor to the web browser. It is free, open-source software released under the GNU GPL v2. No install required. You can download the original Audacity software from The Audacity Team. Wavacity is neither affiliated with nor endorsed by Audacity.

                                                                                  Wavacity | Online Audio Editor Based on Audacity
                                                                                • OpenAIの音声認識Whisperがすごいので,Google Colabで試してみた - Qiita

                                                                                  はじめに 2022/09/22にOpenAIが音声認識モデルWhisperを発表しました.Whisperは人間レベルのロバスト性と音声認識の精度を持ったニューラルネットワークであり,オープンソース化されているので誰でも利用可能です! [参考文献] 公式サイト:https://openai.com/blog/whisper 論文   :https://cdn.openai.com/papers/whisper.pdf Github  :https://github.com/openai/whisper Whisperの概要 Whisperは68万時間分の大規模なデータセットで学習された自動音声認識モデルであり,アクセントやバックグラウンドノイズ,および専門用語に対する堅牢性が向上しています.アーキテクチャは,encoder/decoder Transformerとして実装されており,30秒ご

                                                                                    OpenAIの音声認識Whisperがすごいので,Google Colabで試してみた - Qiita