[10ページ] 音声の人気記事 597件 - はてなブックマーク

361 - 400 件 / 597件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声の検索結果361 - 400 件 / 597件

ゲームキャラ音声読み上げソフト「15.ai」公開中。『Undertale』や『Portal』のキャラに好きなセリフを言ってもらえる - AUTOMATON
- 29 users
- automaton-media.com
- テクノロジー
- 2021/01/19
マサチューセッツ工科大学卒業生の技術者15氏は現在、テキスト読み上げソフト「15.ai」の最新バージョンを公開中だ。本プログラムではさまざまなゲームや映画・アニメキャラクターのボイスが用意されており、ユーザーが入力した任意の英語をキャラクターの声で読み上げてくれる。現在17の作品のキャラクターが登録されており、お気に入りのキャラクターに好きなセリフを読み上げてもらうことができる。＊『Portal』よりGLaDOSの音声でSiri風に話してもらった作例。本プロジェクトはマサチューセッツ工科大学の学部研究機会プログラムの一環として発展を遂げてきた。「15.ai」はディープラーニングにより、さまざまなキャラクターの声を生成することができる。たとえ入力されたテキストに対して利用可能なデータがほとんどない場合でも、トレーニング済みのアルゴリズムを複数組み合わせ、独自にカスタマイズされたネットワー
まつもとゆきひろ「Matzチャンネル」/ Voicy - 音声プラットフォーム
- 29 users
- voicy.jp
- テクノロジー
- 2022/06/02
Rubyのパパ、まつもとゆきひろがいろいろ話します。
一日で俺の嫁を作る方法　～一日で自分の好きな声・キャラ・見た目でおしゃべりしてくれるAIキャラクターを作ろう～ - Qiita
- 29 users
- qiita.com/mfuji3326
- テクノロジー
- 2019/12/19
はじめにいくつかのAPIを組み合わせることで、一日で自分の好きな声・キャラ・見た目でおしゃべりできるAIキャラクターを作りました。この記事を読めば同じ感じで誰でも一日で俺の嫁を作ることができるようになります。また今回はVR環境版とスマートフォン環境版の二種類を作成しました。これらのアプリとUnity Projectは以下のgithubで公開しています。軽く試してみたい人は作り方の6に従って、AgentCraftでAIの会話例を作成して、それをSebastienでデバイスIDとして発行すれば試すことができます。詳しくは6および6に載せている資料をご覧ください。 https://github.com/gyokuro33/ai-agent 何を作ったかこんなのです。スマートフォン版俺の嫁を一日で作ってみた pic.twitter.com/c3xbmofXH8 — おろろ (@oro
- Unity
- AI
- あとで読む
- api
Apple、AI採用障害者支援ツールを多数発表　失う前に登録した声で話せる「Personal Voice」など
- 29 users
- www.itmedia.co.jp
- テクノロジー
- 2023/05/17
Apple、AI採用障害者支援ツールを多数発表　失う前に登録した声で話せる「Personal Voice」など米Appleは5月16日（現地時間）、認知、音声、視覚、モビリティのアクセシビリティを支援する複数のツールを発表した。年内に提供を開始する計画だ。Appleはプレスリリースで言及していないが、「iOS 17」「iPadOS 17」の機能とみられる。声を出せない人でも音声で会話に参加できる「Live Speech」「Live Speech」は、iPhone、iPad、Macで使えるテキストを音声に変換するツール。電話やFaceTime、リアルな対面での会話で、入力したテキストをユーザーの代わりに読み上げる。すぐに使えるフレーズを複数保存しておくこともできる。声を出せなくなる前に自分の声を登録し、Live Speechに使える「Personal Voice」「Personal
- 障害者支援
- AI
- 音声
- Apple
- あとで読む
- ツール
日本で流行りはじめた音声SNS｢Clubhouse（クラブハウス）｣ってなんだろう
- 28 users
- www.gizmodo.jp
- テクノロジー
- 2021/01/29
日本で流行りはじめた音声SNS｢Clubhouse（クラブハウス）｣ってなんだろう2021.01.29 11:00101,788 武者良太いま、ナウで、リアルタイムで日本のアーリーアダプター＆アーリーマジョリティ層に勢いよく浸透しつつあります。｢Clubhouse（クラブハウス）｣。音声チャットでコミュニケーションするiOS専用音声SNSです。2020年4月から英語圏で広がりはじめたサービスですが、1月16日から（1月22日説もあり）日本のApp Storeに登録されたことから、日本の利用者数がガンガンに伸びています。原稿執筆時点で、ソーシャルネットワーキングカテゴリ内、1位となっていました。 Capture: 武者良太誰でも自由に好きなルームを作り、好きな人と好きに話せる。しかも体感レベルでノー遅延。ルームの種類によってはトークを他の人も自由に聴くことができるし、トーク中にモデレータ
- sns
- あとで読む
Twitter、音声ツイートのテストを開始　140秒単位の録音カードとして
- 28 users
- www.itmedia.co.jp
- テクノロジー
- 2020/06/18
音声ツイートにはテキストを添えることもできる。完成したらTweetボタンをタップすれば普通に投稿できる。音声ツイートはタイムライン上では下図の様に見える。音声はカードとして表示されるので、これをタップすると再生が始まる。 iOSユーザーの場合は、音声ツイートを再生するとカードがタイムラインの下に表示され、再生しながらタイムラインのスクロールを続けられる。マルチタスクにも対応する（再生しながら他のアプリを使える）。ヘイトスピーチや嫌がらせの音声ツイートをどう取り締まるのかと懸念する向きもあるが、Twitterは、音声ツイートはテキストよりも自分の考えを早く簡単に共有でき、「より人間的な体験が生まれることを願っている」としている。関連記事 Twitter、内容を読まずにRTしようとすると「読んだ？」と尋ねるテスト開始 Twitterが、タイトルだけ見て記事をRTすることで意図しない記事が
AIによる「声」の復活とその脅威
- 28 users
- www.mhatta.org
- テクノロジー
- 2024/04/28
The Atlantic誌に「外国語教育の終焉」（The End of Foreign-Language Education）という記事が載っていた。この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試しに作ってみるとなんだか不気味ですらある。自分であって自分でない、確かにシミュラクルだ。とすると外国語を学ぶモチベーションが落ちるのもやむを得ないところで、記事によれば米国の大学における英語以外の言語コースの総登録者数は、2009年から2021年にかけて29.3％減少したという。オーストラリアでは2021年の高校3年生の8.6％しか外国語を学んでおらず、韓国やニュージーランドでも、外国語学科を閉鎖する大学が相次いでいるそうだ。逆に非英語圏では、
Amazon Connect と ChatGPTのAPIを使い、電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築してみた | DevelopersIO
- 27 users
- dev.classmethod.jp
- テクノロジー
- 2023/03/10
Amazon Connect と ChatGPTのAPIを使い、電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築してみた電話で質問するとChatGPTが何でも答えてくれるコールセンター向けチャットボットシステムを構築しました（実際のデモ動画あり）。構築手順についてご説明します。はじめに題名の通り、電話でChatGPTが質問に答えてくれるチャットボットシステムを構築してみました。電話をかけて質問すると、ChatGPTのAPIを利用し、質問に答えてくれます。音声は、Amazon Connectで用意されているものを使用しています。下記は、イメージ図になりますこちらは、電話をかけた時の動画になります動画では、ChatGPTのレスポンスに時間がかかっているように思えます。レスポンス時間を短縮する方法をブログ化しましたので、今回の記事を
- aws
- api
- AI
- lambda
- chatgpt
- 文章
- エンジニア
アレクサは生成AI対応へ　アマゾンの5980円スピーカー「Echo Pop」
- 27 users
- www.watch.impress.co.jp
- テクノロジー
- 2023/05/18
- AI
- Alexa
- Amazon
- 文章
- あとで読む
【Python】pydub使ったら音声データの解析がめっちゃ簡単だった
- 27 users
- zenn.dev/labcode
- テクノロジー
- 2024/01/26
音声データをPythonで取り込んで表示したり解析したりしたいと思ったことはありませんか？この記事では音声データの入出力をPythonで行えるpydubのインストールと基本的な使用方法（音声データの読み込み）について説明します。 pydubで音声データファイルの入力ができれば，Numpyが提供する関数等を使用してPython上で音声データの解析・加工ができるようになります。動作検証済み環境 macOS Catalina(10.15.7), python3.7.10, Jupyter Notebook, OpenCV 3.4.2 Pythonで音声データを読み込み，波形を描画する方法 pydubのインストール Pythonで音声データファイルの読み込みをするときは，pydubが便利です。 pydubは内部で ffmpegというライブラリを使用しますので，あらかじめインストールしておく必要
- 音声
- python
- データ
AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載｜DTMステーション
- 27 users
- www.dtmstation.com
- テクノロジー
- 2024/04/12
昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか？」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハー
VALL-E
- 27 users
- valle-demo.github.io
- テクノロジー
- 2023/01/06
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [Paper] Chengyi Wang*, Sanyuan Chen*, Yu Wu*, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, Furu Wei Microsoft Abstract. We introduce a language modeling approach for text to speech synthesis (TTS). Specifically, we train a neural codec language m
CASIOが間もなく、新音源方式のシンセサイザーを発表か!?｜DTMステーション
- 27 users
- www.dtmstation.com
- エンタメ
- 2022/01/10
カシオが1980年代～1990年代に開発してきたデジタルシンセサイザについて、これまで5回に渡ってDTMステーションの記事で取り上げてきました。具体的には1980年に発売されたカシオートーン201に搭載された子音・母音音源システム、CZ-101などに搭載されたPD音源、VZ-1などに搭載されたiPD音源、CTK-1000などに搭載されたiXA音源、そしてSK-1に代表されるサンプラー/PCM音源…という歴史でしたが、そこから20年の時を経て、ついにカシオがまったく新しい音源方式のシンセサイザを発表するようです。過去5回の記事のインタビューの中でも、新しい方式のシンセサイザを開発している……という話を聞いてはいたのですが、詳細については、いまひとつハッキリしないまま今日に至っていました。しかし、昨年末にカシオの英国サイトにおいて「Are You Ready?」というページを公開するとともに
- DTM
- CASIO
- 楽器
最新AIでついにラップも実現、まだまだ進化するSynthesizer Vの技術背景と目指す方向｜DTMステーション
- 27 users
- www.dtmstation.com
- テクノロジー
- 2023/07/15
すでに使っている方も多いと思いますが、2023年6月21日にSynthesizer Vの最新バージョン1.9.0が正式にリリースされています。これまでのSynthesizer V Studio Proのユーザーであれば、誰でも無料でバージョンアップできるようになっているのがスゴイところですが、この1.9.0ではついにラップに対応するという、音声合成・歌声合成の世界の中で初の試みが実現されています。これまでラップを音声合成ソフトや歌声合成ソフトで、無理やり実現させようと打ち込みを頑張ってみた経験のある方も少なくないと思います。でも、なかなか思うようにいかなかったのが現実ではないでしょうか？そのラップを今回のSynthesizer V 1.9.0ではついに現実のものにしたのです。現時点においては英語のラップと中国語のラップへの対応で、日本語にはまだ対応できていないようですが、現在準備中なので
OBSに画質を求めるのは間違っているだろうか
- 26 users
- nyanshiba.com
- テクノロジー
- 2020/05/22
TL;DR #見出しにジャンプこの記事はOSSのOpen Broadcaster Software(OBS Studio)のチュートリアルです。 OBSは配信の品質向上、処理の軽量化に最適なアプリケーションです。たとえ録画用途であってもBandicamやShadowPlay等の他のアプリケーションを選ぶ余地はありません。日本語の情報が少なく、OBS関連では辿り着けない情報も含めて解説するので、何かに躓いている方や更に配信・録画品質を上げたい方は必見です。目次・Ctrl-F を活用してね！
- obs
- streaming
- 映像
チンパンジーが390もの構文を使って会話をしていることが鳴き声5000回の録音から示唆される
- 26 users
- gigazine.net
- 学び
- 2022/05/25
野生のチンパンジーの鳴き声5000回を録音して解析した新しい研究により、チンパンジーは12種類の異なる鳴き声を複雑に組み合わせて390通りもの「構文」を作っていることが明らかになりました。 Chimpanzees produce diverse vocal sequences with ordered and recombinatorial properties | Communications Biology https://doi.org/10.1038/s42003-022-03350-8 Chimpanzees combine calls to form numerous vocal sequences | Max-Planck-Gesellschaft https://www.mpg.de/18653265/0517-evan-chimpanzees-combine-calls-
機械の声で気持ちよくなれるか　ささやきAIで「メイドさんASMR」動画作ってみた
- 26 users
- www.itmedia.co.jp
- テクノロジー
- 2022/03/16
「ASMR動画」をご存じだろうか。YouTubeでは主に「脳がゾクゾクするような気持ちいい音を収録した動画」という意味で使われる言葉だ。「包丁でいろんなものを切る音」「耳かきの音」「ささやき声」などを収めた動画が人気ジャンルになっている。そんなASMRにぴったりの“ささやくAI”が登場したので、早速動画にしてみた。シナリオは普段からASMR動画を楽しんでいるという同僚に頼んで書いてもらった。タイトルは「あなたのことを世界一愛している一途メイドと密着添い寝ASMR」。登場人物はメイド、聞き手は女主人とのこと。後半が少し過激だったためカットしている。「あなたのことを世界一愛している一途メイドと密着添い寝ASMR」　シナリオ：吉川大貴　コメント「音声作品らしさを出しつつ、プラトニックラブにも見えるようにしました」いかがだろうか。普段からASMR動画を聞いている人であれば「これは確かにASM
- AI
- あとで読む
GPT音声認識雑談マシーンをつくった。：村上福之の「ネットとケータイと俺様」：オルタナティブ・ブログ
- 26 users
- blogs.itmedia.co.jp/fukuyuki
- テクノロジー
- 2023/03/08
パソコンに話しかけると音声認識でGPTで雑談に応じてくれるサービスをつくった。ぼくのように、誰にも話しかけられなくてPCの前で独り言をブツブツいっててキモい孤独なオッサンのためのベストなソリューションです。返答は一応、日本語合成音で返ってきます。一応、雑にメイドっぽく調教済。ユーザーを「ご主人さま」と呼びます。適宜、語尾に「にゃん」をつけるようにしてます。あとは、適当にメイドっぽくとしか指示してないです。将来的に人工知能が、現代人類最大の問題である「孤独」を解決するかもしれません。たぶん。 PC/MacのChromeのみ(開発はChromebook+gitpodなので実機動作確認してないｗ) ２ヶ月前に作った時はOpenAIの利用料が高すぎて、あー、マジどうしようとおもったのですが、OpenAIが(モデル限定されますが)大幅に値下げしたんで、まぁ、ブログに書いてみた。要go
合成音声を使ってboard（SaaS）のチュートリアル動画を制作した話（VOICEPEAKとGoogle Cloud Text-to-Speech） - ヴェルク - IT起業の記録
- 26 users
- tamukai.blog.velc.jp
- テクノロジー
- 2023/02/06
boardというSaaSのチュートリアル動画を合成音声を使って制作しているので、その話を書いていきます。個別相談会のデモとチュートリアル動画以前書いた board（SaaS）個別相談会の変遷の中で少し触れたのですが、2021年に、個別相談会の中でやっていたデモをベースに、チュートリアル動画を制作しました。個別相談会では、業務の流れに沿って基本的な操作を一通り説明していくデモを行っていたのですが、途中に質問が挟まることも多く、そうすると、全体で30〜40分ほどかかってしまうことも多くありました。個別相談会は1時間枠なので、そのうち40分をデモで使うのは、時間の使い方としてもったいないなという課題感がありました。また、弊社は営業など外向けに活動するメンバーがいないため個別相談会はすべて僕がやっており、個別相談会を開催できる回数にも限りがありました。一方で「お試しする前にとりあえずデ
喋り出しを高速化したり現実の情報とリンクしてAIエージェントを進化させる｜ねぎぽよし
- 26 users
- note.com/negipoyoc
- テクノロジー
- 2023/03/05
ChatGPT APIが公開されてからいろんな人が自分のキャラクターとおしゃべりしたりAITuberが一歩先に進化したりと面白いものがたくさん見れてとても嬉しいです！ AI界隈の情報密度が高すぎて↓の記事を書いたのが2日前というのが信じられませんね。さてChatGPT APIでみんなのキャラクターが知能を持って喋れるようになったわけですが、自分が作ったものを振り返ってみたらまだまだ改善の余地がいっぱいありそう+もうちょっとできることが増えてほしいなと思い、自分のAIエージェントに追加で実装をしてみました。そこで実装した内容について概要をお話します。 AIの喋り出しを高速化するまず気になったのは自分とAIエージェントのコミュニケーションにおいて待たされる時間が非常に長いことです。この間を整理すると、以下のような時間がかかります。 1.自分の発話をテキストに起こす時間 2.そのテキストを
- ChatGPT
- 機械学習
- AI
- あとで読む
- Unity
- 文章
- API
- 技術
グーグルがビデオ会議のイライラを解消、音声の途切れをAIで補完
- 26 users
- www.technologyreview.jp
- テクノロジー
- 2020/04/08
対面でのやり取りにビデオ通話を使う人が多くなった現在、接続が途切れ途切れになり、以前にも増してイライラさせられるようになった。そこで、個々の話者の話し方を模倣して発言のスニペット（断片）を生成し、小さな隙間を埋めることで、途切れをスムーズにしてくれる人工知能（AI）が登場した。グーグルのチームが開発したこのテクノロジーは現在、同社のビデオ通話アプリ「デュオ（Duo）」で使われている。オンライン通話中、私たちの声はたくさんの小さな断片に切り刻まれ、パケットと呼ばれるデータブロックの形でインターネット上を通り抜けていく。パケットは多くの場合、相手方にごちゃごちゃになって到着するので、ソフトウェアでそれらを並べ替える必要がある。しかし、まったく届かないパケットもあり、それが原因で会話に不具合や途切れが生じる。これは通話状態がもっともよい時でさえ起こる。グーグルによると、デュオでの通話の99%で
OpenAIのAudio Transcription APIで遊んだ - Lambdaカクテル
- 25 users
- blog.3qe.us
- テクノロジー
- 2023/11/15
最近OpenAIがオーディオ系のAPIをいくつか出していた。といってもけっこう前の話だ。そんな中、最近OpenAIが色々なサービスを展開している。自分も触って習熟しておいたほうが、面白いアイデアを思い付いたときにすぐにプロダクトを作れて役に立つはずだ。そういうわけで色々APIを見ていたところ、その中でも面白そうだった書き起こしAPIを使うことにした。自分が喋った内容を書き起こしてもらいたい。上手くいくだろうか？ボソボソ喋るオタクボイスでも？ openai.itshinan.jp このAPIを使うと、オーディオ音声(wavとかflacとか色々な入力形式を使える)から各言語の書き起こしをやってくれる。イクゾー素材音声小銭を払う Scalaから呼び出す所見まとめ素材音声今回用意した自分の音声はこれ。過去の自分の記事の内容の一部をボソボソ読み上げている。お世辞にも上手ではないし、AP
- AI
- あとで読む
- API
日本語の文字起こしAIサービス「Rimo Voice」提供開始、1時間の音声を5分でテキスト化、句読点も自然に挿入
- 25 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/09/09
NEUTRINO(歌声合成エンジン)とは (ニュートリノとは) [単語記事] - ニコニコ大百科
- 25 users
- dic.nicovideo.jp
- テクノロジー
- 2020/02/23
NEUTRINO(歌声合成エンジン)単語 16933件ニュートリノ 4.4千文字の記事 66 0pt ほめる掲示板へ記事編集概要歌声合成手法の詳細について関連動画関連リンク関連項目脚注掲示板NEUTRINOとは、ニューラルネットワークを用いた歌声シンセサイザーである。概要楽譜データ（MusicXML形式）から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推定し、実際の歌唱データからなる歌声ライブラリで合成するソフトウェア。「NEUTRINO」との名称については、「まだ聞いたことのないような楽曲・ジャンルを開拓してほしいという思いを込めて名付けました。[1]」とのこと。 2020年2月22日にαテスト版のVersion.0.100が公開された。公開されると早速、NEUTRINOを用いて様々な楽曲を歌唱させた動画が複数のユーザーからニコニコ動画などで
- 人工知能
- AI
- 音楽
- vocaloid
- あとで読む
End-to-End 音声認識のレスポンスを高速化する最小遅延学習
- 25 users
- techblog.yahoo.co.jp
- テクノロジー
- 2022/09/26
ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは。音声認識技術の研究開発を担当している篠原です。皆さんはスマートフォンで音声による検索を使ったことがあるでしょうか？　音声認識は入力された音声をテキストに変換する技術で音声検索などさまざまなアプリで使われています。最近「End-to-End 音声認識」というニューラルネットに基づく革新的な方式が登場して驚くようなスピードで技術が発展しているところです。この記事ではヤフーにおける End-to-End 音声認識の研究成果の一例として「最小遅延学習」と呼ばれるレスポンス高速化の新技術を紹介します。なお、本研究は米国カーネギーメロン大学の渡部晋治准教授との共同研究として実施したものです。また、この技術の詳細は先週開催された
- yahoo!
- あとで読む
- 学習
- 勉強
- AI
- technology
- 技術
OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくった - Qiita
- 25 users
- qiita.com/airtanker
- テクノロジー
- 2022/09/25
OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を非エンジニアやMacユーザでも簡単に使え、GoogleSheetsやExcelに取り込めるGoogleColaboratoryをつくったPythonwhisperOpenAIGoogleColaboratory 概要 OpenAIが2022/09/22に発表した高精度音声認識モデル「Whisper」を発表しました。ただこのモデルはGPUを使うので、精度を試したりするのに気軽に実行できません。特にGPUを積んでいるWindows機がないような、Macユーザは中々このモデルのすごさを自分の使いたい音声や動画で試せないのはもったいないと思います。また個人的に、このWhisperの音声認識の恩恵を受けれるのは、非エンジニアで議事録などを書かれている方だと考えています。そこで公式のGoogleColabora
ビートルズ「最後の楽曲」、AIで制作年内リリースへマッカートニーさん
- 24 users
- www.afpbb.com
- テクノロジー
- 2023/06/13
米カリフォルニア州でステージに立つ英ミュージシャンのポール・マッカートニーさん（2016年4月13日撮影、資料写真）。(c)Steve Jennings / GETTY IMAGES NORTH AMERICA / Getty Images via AFP 【6月13日 AFP】英ロックバンド「ビートルズ（The Beatles）」の「最後の楽曲」が人工知能（AI）を用いて制作され、年内にリリースされる。元メンバーのポール・マッカートニー（Paul McCartney）さんが、13日に公開された英BBCのインタビューで明らかにした。来週81歳の誕生日を迎えるマッカートニーさんは「ジョン（・レノンさん、John Lennon）が持っていたデモを僕らが作業して、完成させただけなんだ」と語った。 2人に故ジョージ・ハリソン（George Harrison）さん、リンゴ・スター（Ringo St
- ai
- 音楽
- 人工知能
- あとで読む
- music
Conformer：Transformerを音声認識に応用！？ GoogleによるTransformer×CNNが凄すぎる！！
- 24 users
- ai-scholar.tech
- テクノロジー
- 2020/11/19
3つの要点 ✔️ TransformerとCNNを組み合わせたモデル，Conformerを音声認識に応用 ✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった ✔️ 既存の音声認識研究の中でも最高の精度を確認 Conformer: Convolution-augmented Transformer for Speech Recognition written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang (Submitted on 16 May 2020) Comments: Accepted at Interspeech20
アーティストのGrimes、生成AIで自分の声を自由に使っていいとツイート
- 24 users
- www.itmedia.co.jp
- テクノロジー
- 2023/04/25
起業家イーロン・マスク氏の元妻でアーティストのGrimesは4月24日、自分の声を使ってAIで曲を作っていいと表明した。「私の声を使ってAIが生成した曲がヒットした場合、ロイヤリティの50％をシェアしよう。これは、いつも私がコラボするアーティストとの取引条件と同じだ。私の声は自由に使っていい」とツイートした。このツイートに添付されているのは、アーティストのドレイクとザ・ウィークエンドの声を無断で使って作曲されたAI生成楽曲「Heart On My Sleeve」についての記事だ。この曲はSpotifyやYouTube上でヒットしたが、公開24時間以内に削除された。削除されたYouTube動画のURLには「このビデオは、UNIVERSAL MUSIC GROUP（UMG）による著作権侵害の申し立てにより利用できなくなりました」と表示される。UMGはドレイクとザ・ウィークエンドが所属するレ
音声合成してみよう
- 24 users
- speakerdeck.com/xztaityozx
- テクノロジー
- 2023/02/26
第63回シェル芸勉強会のLTで使った資料です
- voice
- あとで読む
音楽生成AI のリリース年表｜npaka
- 24 users
- note.com/npaka
- テクノロジー
- 2023/12/18
AI 🤝 Music Suno can now sing! Our new model generates music with vocals, and you can try it now on Diśčòrd. See below for some early examples and an invite link to our open beta: pic.twitter.com/CjjfYM2YRZ — Suno (@suno_ai_) July 21, 2023
- 音楽制作
- 作曲
- AI
- 音楽
- history
- music
- 人工知能
「Teachable Machine」で機械学習した音声認識データを使って「Scratch」でプログラミング～拡張機能「TM2Scratch」を専用の「Scratch」で【どれ使う？プログラミング教育ツール】
- 23 users
- forest.watch.impress.co.jp
- テクノロジー
- 2020/08/27
あらゆる場面に対応できる音声合成ソフト『VOICEVOX Nemo』リリース&動画制作ソフトウェア『Vrew』提携のお知らせ
- 22 users
- prtimes.jp
- テクノロジー
- 2023/11/18
無料のテキスト読み上げソフトウェア「VOICEVOX」から、新ブランド「VOICEVOX Nemo」が11月17日リリース。動画編集ソフト「Vrew」と提携し、VOICEVOXの音声を簡単に活用可能に。無料で使える中品質なテキスト読み上げソフトウェア「VOICEVOX」は、キャラクター無しの話者シリーズ「VOICEVOX Nemo」を2023年11月17日(金)にリリースすることをお知らせいたします。また、VOICEVOXはVoyagerX, Inc.と提携しまして、マルチOS対応の動画制作ソフト「Vrew」にてVOICEVOXの音声を簡単に利用できるようになりました。(VOICEVOX Nemoは今後対応予定) 別途プランに加入せずとも、誰でも無料でお使いいただけます。 VOICEVOX Nemoとは「VOICEVOX Nemo ( https://voicevox.hiroshi
RustでGUI付きのVSTプラグイン作る(Conrod, iced) - Qiita
- 22 users
- qiita.com/hatoo@github
- テクノロジー
- 2019/12/14
はじめに VSTとはDAWなどの音楽ソフト上で動くプラグインの規格の一つです。シンセサイザーやオーディオフィルターなどを作ることができて、DAW上から簡単に利用することができます。画像はVSTHost上で動いている有名なシンセサイザープラグイン、Serum 余談ですがSerumは有料ソフトで、2万円位します。結構いい市場なのでは？この記事ではRustでGUI付きのVSTプラグインを作っていきます。各OSのAPIの仕様が関わってくるため、本記事の対象プラットフォームはWindowsのみです他のプラットフォームで成功した方はコメント下さい vst-rs vst-rsを使うとRustでVSTプラグインを作ることができます。ここで説明すると長くなってしまうので、簡単な使い方をCreating a simple synthesizer VST plugin in Rustで各自参照してく
しゃべり方から数秒で2型糖尿病かどうかを見抜けるAIが登場
- 22 users
- gigazine.net
- テクノロジー
- 2023/10/23
AIと音声技術を組み合わせることで、2型糖尿病を高精度で判別する手法をカナダの医療スタートアップであるKlick Healthの研究所・Klick Labsが開発しました。このモデルによる病気の検出精度は女性で89％、男性で86％だとのことで、論文は「Mayo Clinic Proceedings: Digital Health」に掲載されています。 Acoustic Analysis and Prediction of Type 2 Diabetes Mellitus Using Smartphone-Recorded Voice Segments - Mayo Clinic Proceedings: Digital Health https://www.mcpdigitalhealth.org/article/S2949-7612(23)00073-1/fulltext AI and
- AI
- health
- 研究
- あとで読む
オープンソースAI（Whisper、BERT、VOICEVOX）を用いた音声対話ロボットの作成 - Qiita
- 22 users
- qiita.com/kunishou
- テクノロジー
- 2022/12/12
はじめにどうもこんにちは。ヤフー株式会社のkunishouです。気づけば2022年も残り3週間、皆様いかがお過ごしでしょうか？今年の機械学習のトレンドと言えば、海外のAI企業から次々とオープンソースのAIが発表されたことが非常に印象的でした。画像生成分野ではStability AI社の「Stable Diffusion」、音声認識分野ではOpenAI社の「Whisper」などが発表されました。発表されたこれらのAIは非常に高機能であるにも関わらず、オープンソースのAIとして、自由に利用することができます。今回、クリスマスも近いということなのでこれらの高機能なAIを活用して何か面白い物を作ることはできないかと考え、物理的に言葉を投げかけると返事が返ってくるような音声対話ロボットを作ってみることにしました（クリスマスにしゃべる相手がいないからというわけでは決してありません）。目
- ロボット
- ai
- 音声
- qiita
- あとで読む
【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL
- 22 users
- weel.co.jp
- テクノロジー
- 2024/01/22
【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを（AIが）読み上げることができるんです、、、！参考：https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら
- 音声
- AI
- モデル
- あとで読む
- 開発
リアルタイム音声変換 ParakeetVC
- 21 users
- www.parakeet-inc.com
- テクノロジー
- 2023/10/18
誰の声でも好きなようにカスタマイズできる最先端AIを自社研究し，サービスの開発 & 展開をしています．
Wavacity | Online Audio Editor Based on Audacity
- 21 users
- wavacity.com
- エンタメ
- 2022/09/03
Wavacity is a port of the Audacity® audio editor to the web browser. It is free, open-source software released under the GNU GPL v2. No install required. You can download the original Audacity software from The Audacity Team. Wavacity is neither affiliated with nor endorsed by Audacity.
- audio
- tools
- サービス
- webサービス
- web
OpenAIの音声認識Whisperがすごいので，Google Colabで試してみた - Qiita
- 21 users
- qiita.com/walnut-pro
- テクノロジー
- 2022/09/23
はじめに 2022/09/22にOpenAIが音声認識モデルWhisperを発表しました．Whisperは人間レベルのロバスト性と音声認識の精度を持ったニューラルネットワークであり，オープンソース化されているので誰でも利用可能です！ [参考文献] 公式サイト：https://openai.com/blog/whisper 論文　　　：https://cdn.openai.com/papers/whisper.pdf Github　　：https://github.com/openai/whisper Whisperの概要 Whisperは68万時間分の大規模なデータセットで学習された自動音声認識モデルであり，アクセントやバックグラウンドノイズ，および専門用語に対する堅牢性が向上しています．アーキテクチャは，encoder/decoder Transformerとして実装されており，30秒ご
- OpenAI
- 論文
- qiita
- あとで読む
- library
- AI
- google