音声の最新人気記事 593件 - はてなブックマーク

1 - 40 件 / 593件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声の検索結果1 - 40 件 / 593件

zenncast - 技術トレンドをAIがラジオに変換
- 59 users
- zenncast-web.vercel.app
- テクノロジー
- 2024/05/07
Zennのトレンド記事をまとめてAIがラジオをつくります。毎朝7時に更新。お便りも募集中。送っていただいたお便りはAIパーソナリティが読み上げます。
- AI
- Podcast
- 技術
- あとで読む
AIによる「声」の復活とその脅威
- 28 users
- www.mhatta.org
- テクノロジー
- 2024/04/28
The Atlantic誌に「外国語教育の終焉」（The End of Foreign-Language Education）という記事が載っていた。この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試しに作ってみるとなんだか不気味ですらある。自分であって自分でない、確かにシミュラクルだ。とすると外国語を学ぶモチベーションが落ちるのもやむを得ないところで、記事によれば米国の大学における英語以外の言語コースの総登録者数は、2009年から2021年にかけて29.3％減少したという。オーストラリアでは2021年の高校3年生の8.6％しか外国語を学んでおらず、韓国やニュージーランドでも、外国語学科を閉鎖する大学が相次いでいるそうだ。逆に非英語圏では、
ChatGPTと“声”で会話する方法解説書が発売～ブラウザーやAlexaにも組み込める！／『ChatGPTと音声で会話する3つの方法』発売【Book Watch/ニュース】
- 92 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/04/26
- ChatGPT
- あとで読む
- AI
- ブラウザ
- 本
- *あとで読む
- book
- あとでみる
最新のAI声質変換技術を採用したボイチェン「Voidol3R」
- 33 users
- pc.watch.impress.co.jp
- テクノロジー
- 2024/04/26
- AI
- 技術
- あとで読む
- メモ
- 仕事
「パパ、ママ、会いに来たよ」AIで死者を“復活” 中国で新ビジネスが論争に「冒とく」か「心の救済」か | TBS NEWS DIG
- 528 users
- newsdig.tbs.co.jp
- テクノロジー
- 2024/04/18
世界では今、インプットされたデータから文章や画像などを自動で作り出す「生成AI」の技術が急速に進化しています。こうした中、中国では「生成AI」を使って亡くなった人を「復活」させるビジネスが登場し、論争を…
- AI
- あとで読む
- ビジネス
- 人工知能
- 中国
- 技術
- 倫理
- technology
- 人生
- 宗教
Vocoflex | Dreamtonics株式会社
- 7 users
- dreamtonics.com
- テクノロジー
- 2024/04/16
Vocoflexは、Dreamtonicsの音声モーフィング技術研究により生まれた実験的な製品です。
- 音声
- 研究
kotoba-tech/kotoba-whisper-v1.0 · Hugging Face
- 3 users
- huggingface.co
- テクノロジー
- 2024/04/16
","eos_token":"<|endoftext|>","pad_token":"<|endoftext|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":1177,"downloadsAllTime":1177,"id":"kotoba-tech/kotoba-whisper-v1.0","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-04-22T01:56:19.000Z","likes":27,"pipeline_tag":"automatic-speech-recognition","library_name":"transformers","librariesO
AIが文字起こしてくれるボイスレコーダー、AutoMemoがさらに進化。オンラインミーティングにも対応し、自動要約機能なども搭載｜DTMステーション
- 28 users
- www.dtmstation.com
- テクノロジー
- 2024/04/12
昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか？」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハー
Gemini API でラジオ番組の音声からの文字起こしを試す｜npaka
- 17 users
- note.com/npaka
- テクノロジー
- 2024/04/12
「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MIMEタイプの制限・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。・1プロンプト内の音声ファイルの数には制限ない。・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオチャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と
- dev
- api
- ai
- google
Suno
- 10 users
- suno.com
- テクノロジー
- 2024/04/11
Suno is building a future where anyone can make great music.
- AI
- 音楽
AI作曲サービスの新星「Udio」が誰でも利用可能に。Sunoを超えたか、試してみた（CloseBox） | テクノエッジ TechnoEdge
- 363 users
- www.techno-edge.net
- テクノロジー
- 2024/04/11
Suno対抗のAI作曲サービスとして前評判の高かったUdioがパブリックベータとして一般公開されました。
- AI
- あとで読む
- 音楽
- 人工知能
- webサービス
- music
- service
- サービス
- DTM
- これはすごい
音声を盗んだりアーティストを置き換えたりする「略奪的AI」を非難する書簡にビリー・アイリッシュやスティーヴィー・ワンダーなど200人以上の著名人が署名
- 21 users
- gigazine.net
- テクノロジー
- 2024/04/03
近年ではAIの発展により、人間のアーティストの歌声などを学習して新たな楽曲を作り出す技術が登場しています。アーティストの権利団体「Artist Rights Alliance(ARA)」は2024年4月2日、「人間のアーティストの権利を侵害し、音楽の価値を下げかねないAIの使用は控えるべき」との書簡を発表しました。この書簡には、ビリー・アイリッシュ氏やスティーヴィー・ワンダー氏など、200名以上の著名アーティストが署名しています。 200+ Artists Urge Tech Platforms: Stop Devaluing Music - Artist Rights Alliance - Medium https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb
「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入！の顛末記】
- 314 users
- internet.watch.impress.co.jp
- テクノロジー
- 2024/04/01
- 文字起こし
- あとで読む
- iphone
- PC
- zoom
- 仕事
ニッポン放送、AMステレオ放送をモノラルに。「保守・維持が困難」
- 112 users
- av.watch.impress.co.jp
- テクノロジー
- 2024/03/27
AI音声合成ソフト「VoiSona Talk」が正式公開～女性ボイス「田中傘」とともに無償提供／同社のAI歌唱ソフト「VoiSona」をベースにした読み上げツール
- 69 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/03/22
- 人工知能
- 音声合成
- 音声
- techfeed
- tool
- あとで読む
- -
- AI
- ツール
AIボイチェンアプリ「Voidol」が無償化～誰でも美少女・イケメンボイスになれる！／クリムゾンテクノロジーが初代「Voidol」と「Voidol Plugin Package」を無料公開中
- 63 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/03/19
- AI
- あとで読む
- 音声
- プラグイン
- 無料
- Voidol
顔も名前も知らなかったコンビが異例の1万DL達成!? 同人音声作品『カス嘘お姉さんASMR』の嘘じゃない誕生秘話
- 181 users
- togetter.com
- アニメとゲーム
- 2024/03/19
こんにちは。ASMR作品を聴きまくった結果、風間くん※みたいなザコ耳になってしまったライター、シュゴウです。どちらかというと、右耳が弱いです。 ※編集部注：蛇足ですが『クレヨンしんちゃん』の風間くんちなみにASMR（エー・エス・エム・アール。Autonomous Sensory Meridian Responseの略）とは、簡単に言うと「なんかゾワゾワする立体的な音声」のこと。最近はASMR動画がYouTubeにたくさん投稿されていますし、同人作品販売サイト「DLsite」では、同人サークルが制作したASMR作品がいろいろと販売されています。そんな、一部の人は日常的に聴くけど、なじみのない人は全然知らないであろうASMR作品ですが、最近ネットで猛烈に話題になったASMR作品があるのをご存じでしょうか？それがこちら、『ダウナー系お姉さんに毎日カスの嘘を流し込まれる音声』（以下、カス嘘
- 同人
- togetter
- あとで読む
- ネット
- オタク
- ネタ
AIボイチェンソフト「Voidol 1」が無償化
- 420 users
- pc.watch.impress.co.jp
- テクノロジー
- 2024/03/19
- AI
- あとで読む
- 音声
- DTM
- tool
- ソフトウェア
- software
- 音声合成
- 人工知能
- voice
ファンタジーで美しいエルフ語を作る方法：人工言語の印象を決める要素が判明！ - ナゾロジー
- 82 users
- nazology.net
- 学び
- 2024/03/15
異世界の言語学です。ドイツのフンボルト大学ベルリン（HU Berlin）で行われた研究によって、ファンタジーやSFの世界で使われている人工言語のどんな要素が、美しさや邪悪さなどの音声的な印象に繋がっているかが調べられました。調査対象となった人工言語には、有名なフィクション作品で創作された優雅な響きを持つエルフ語や醜く凶悪なオークたちのオーク語、理知的な異星人たちのバルカン語、荒々しい戦闘民族の使うクリンゴン語など12種類が含まれています。本研究は、ファンタジーやSFの世界が好きな人たちならば、一度は考えたことがある異世界言語の音声学的な魅力を分析したものと言えるでしょう。研究内容の詳細は『Language and Speech』にて公開されています。 From Star Trek’s Klingon to Tolkien’s Orkish: Unraveling the audit
- 言語
- あとで読む
- language
- 音声
- 研究
- AI
- 心理
Shinnosuke Takamichi (高道慎之介) - 東京大学を離れるにあたって
- 14 users
- sites.google.com
- 政治と経済
- 2024/03/14
博士課程当時，研究職に就くつもりはありませんでした．理由は2つ．１つは，研究より教育が好きなこと．保育士や塾講師をやっていたこともあり，子どもたちが喜んでくれる職に就きたかったのです．今も，教育のコンテンツとして研究をやっています．もう1つは，単純に研究の才能を持たなかったこと．悲しい．研究をやっていく上では，様々な能力が必要とされます．いわゆる研究活動，広報活動，資金繰り活動あたりですかね．どれをとっても，まあ人並みの域を越えてない自覚がありました． D3当時，博士論文研究を辞めて自由に研究している時期でした．補足すると，D2終了時点で学位取得の見通しができたので，最後の1年は博士論文の研究をせず，自由研究で遊んでいました．で，ゆったり就職活動をやっていました．以下，その履歴です．学振PD： (書類が面倒で) 出さなかった．結果論で就職できましたが，やっておくべきだった企業・研究
- あとで読む
『オーディオ愛好者必見！グランドループがもたらすサウンドのクリアさ』
- 6 users
- ameblo.jp/yssdayoyss
- 暮らし
- 2024/03/07
ミニツーストア(mini2x)トレーディングカードサプライ、ゲームグッズ、コレクショングッズのオリジナル製品を卸し販売しております。当店だけのオリジナル商品(mini2xブランド）を販売中！www.sw-inc.net ◆特別お得なセール開催中です!!◆ プレゼント選びに迷ったらこれ！ノイズ除去アイテムの魅力を解説♪♪ 本体サイズ:約 6.5×1.8cm ケーブルの長さ:約16.5cm ※誤差がある場合がございます。重さ:約 26g 【小さくて便利】小さくて便利なこのガジェットは、場所を取らず、持ち運びも簡単です。【使いやすい】このノイズフィルタプラグアンドプレイ、充電を必要とせず、バッテリーを内蔵していません。【製品の特徴】現在のサウンドフィルターを接続した後、クリアで純粋な音楽を実現します。オーディオソースが再生機器に接続されているときに発生する可能性のあるグランドル
Adobeが生成AI搭載の音楽版Photoshop「Project Music GenAI Control」を発表
- 18 users
- gigazine.net
- テクノロジー
- 2024/02/29
Adobeが生成AI搭載の音楽生成および編集ソフトウェア「Project Music GenAI Control」を発表しました。Project Music GenAI Controlを使うことで、ユーザーはテキストプロンプトから音楽を生成し、そのまま生成した音楽を使って音声を編集することができるとのことです。 Here’s how generative AI is about to revolutionize audio creation and editing | Adobe Blog https://blog.adobe.com/en/publish/2024/02/28/adobe-research-audio-creation-editing Adobe announces new prototype AI tool for creating and editing audio
面倒で難しい「私はロボットではありません」をワンクリックで突破できるCAPTCHA自動回答ツール「Buster」レビュー
- 110 users
- gigazine.net
- テクノロジー
- 2024/02/25
ウェブサイトにログインしたり問い合わせフォームを送信したりすると、「私はロボットではありません」といった文言のボット排除システム「CAPTCHA」に遭遇しがちです。CAPTCHAでは「バスを含む画像をクリック」などの問題が出題されますが、「バスの画像を正しく選択しているはずなのに人間と認めてもらえない！」という事態が頻繁に発生します。無料のブラウザ拡張機能「Buster」を使えば、ワンクリックでCAPTCHAを突破できるとのことなので、実際に使ってみました。 GitHub - dessant/buster: Captcha solver extension for humans, available for Chrome, Edge and Firefox https://github.com/dessant/buster BusterはChromeやFirefox、Edge、Operaな
- CAPTCHA
- セキュリティ
- ツール
- ロボット
- AI
- あとで読む
- 人工知能
- chrome
- アプリ
動画だけじゃない。効果音も作れるAIが近日登場
- 19 users
- www.gizmodo.jp
- テクノロジー
- 2024/02/25
動画だけじゃない。効果音も作れるAIが近日登場2024.02.25 08:006,481 岡本玄介何から何までAIで完成しちゃう。文章入力だけで超リアルな動画を生成できる、OpenAIの新AIツール｢Sora｣。現実世界で撮影したようなクオリティーなので、勘違いする人もたくさん出てきそう…というレベルです。｢Sora｣は映像を作るツールとしては凄まじい性能ですが、そこにはまだ音がありません。そこで開発されているのが、｢だったら効果音もAIで作っちゃえばイイじゃん？｣というもの。｢AI Sound Effects｣誕生ElevenLabsの｢AI Sound Effects｣により、OpenAIが発表した動画にAI生成の音が追加されました。 Video: ElevenLabs/YouTube足音やロボットの機械音、街の喧騒や雪がワサワサする音、タイピング音もこの通り。ナレーションや台
- 人工知能
- AI
- 動画
- techfeed
音声会話型おしゃべりAIアプリ Cotomo(コトモ）
- 42 users
- cotomo.ai
- テクノロジー
- 2024/02/23
Cotomo(コトモ)は毎日のおしゃべりから、あなたのことを覚えてより身近な話し相手になってくれる音声会話型おしゃべりAIアプリです。
- AI
- アプリ
- ChatGPT
- webサービス
- neta
- あとで読む
音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大規模言語モデル(LLM)「AnyGPT」が登場
- 33 users
- gigazine.net
- テクノロジー
- 2024/02/22
音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。 AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができるという新しいマルチモーダルLLMがAnyGPTです。AnyGPTはデータレベルの前処理のみに依存しており、新しい言語を組み込むのと同様に、新しいモダリティのLLMへのシームレスな統合を促進することが可能。マルチモーダルアライメントの事前トレーニング用に、マルチモーダルテキスト中心のデータセットを構築することで、生成モデルを利用して大規模な「Any-to-Any」(任意のデータ形式から任意のデータ形式に出力できる)
- AI
- 人工知能
- LLM
- techfeed
- 画像
- 音楽
- モデル
- データ
「面倒なことはChatGPTにやらせよう」の全プロンプトを実行した配信のリンクを整理しました｜カレーちゃん
- 1825 users
- note.com/currypurin
- テクノロジー
- 2024/02/19
Youtubeで配信しながら全プロンプトを実行しましたので、各節へのリンクを整理しました。時間のところにYoutubeへのリンクになっています。もしずれていたら、その時間まで移動して視聴ください。はじめに (4:00) 1章 ChatGPTの基礎知識 (5:50) 2章 ChatGPTの基本的な使い方 (6:28) 3章 ChatGPT Plusのセットアップ (7:32) 4章ファイルのアップロードとダウンロード (12:40)4.1 アップロード・ダウンロード (13:03) 4.2 扱うことができるファイル (16:02) 5章繰り返し作業を一瞬で (16:55)5.1 文字列操作 (17:20) 5.2 正規表現でのパターンマッチ (25:36) →54ページの正規表現でできることの例の説明 (29:09) 5.3 ファイルの一括操作 (46:20) 5.4 QRコード作成
- ChatGPT
- あとで読む
- AI
- プロンプト
- データ
- excel
- 仕事
- GPT
- LLM
- webサービス
AI Webcam - ゆーすけべー日記
- 94 users
- yusukebe.com
- テクノロジー
- 2024/02/11
AI Webcamについて紹介します。 AI Webcam AI WebcamはWebcamでとった写真についてAIが音声で返答してくれるというものです。AIのキャラクターというか音声は指定可能です。また文章のプロンプトでどのように返答するかも指定できます。例えば、アメリカの若い女性「レイチェル」に自分の容姿を褒めてもらった時の大爆笑映像はこちらです。元ネタ実は元ネタがあって、Wes Bosというポドキャスターがやってたのを真似てます。コードも公開されているので、それを使わせてもらってます。みなさんもできます。 YAPCでLT あまりにも面白いので、先日のYAPC::HiroshimaのLTでこれを応用したものをデモしました。レイチェルだけを流しても尺が余るしインパクトにかけるので、YAPCっぽく「dankogai」さんと「papix」をAIにしました。 UIはこんな感じです。例え
- AI
- OpenAI
- yapchiroshima2024
- あとで読む
- ネタ
- 人工知能
- イベント
- 写真
AVマニアが「PS5」を“AV機器”として使ってみたら - 価格.comマガジン
- 130 users
- kakakumag.com
- アニメとゲーム
- 2024/02/10
新「PS5」はスリムなサイズとなったことが最大の特徴で、サイズは約358×216×96mm（横置き時の幅×奥行×高さ）と従来モデルと比較して30％以上小型化。重量も約3.2kg（ディスクドライブ搭載モデル）と18％も軽量となっている。採用する技術や機能はそのままで、内蔵するSSDストレージは1TBだ。希望小売価格はディスクドライブ搭載モデルの「CFI-2000A01」が66,980円（税込）、ディスクドライブなしのデジタル・エディション「CFI-2000B01」が59,980円（税込）。昨今の物価高騰などの影響もありSSDストレージが増量されているとはいえ、従来よりも価格が高くなっているのは少し残念。ただし、ディスクドライブの着脱が可能になり、デジタル・エディションを購入した後でもディスクドライブを購入して増設できるようになっているなど、改善が図られた点もある。なお、1台付属するDua
- PS5
- あとで読む
- game
- av
LLMではなく「RMM」？シスコWebexの生成AI技術について詳しく聞いた
- 3 users
- ascii.jp
- テクノロジー
- 2024/02/08
シスコが昨年（2023年）10月に米国で開催した「WebexOne 2023」において、「Webex」に搭載予定の3つのAI新技術／機能が発表された。Webexの音声／ビデオに高度な処理を適用するための生成AIモデル「Real-Time Media Model（RMM）」、生成AIでパケットロスによる音声の途切れ／劣化を防ぐ音声コーデック「Webex AI Codec」、LLM（大規模言語モデル）を使った自然言語によるAIアシスタント「Webex AI Assistant」だ。 AIアシスタント機能は他社のツールでも多く見られるが、音声／ビデオ処理に生成AI技術を適用するのは“シスコならでは”のアプローチでありユニークだ。そして実は、LLMの能力を引き出すうえでも、その基盤としてクリアな音声／ビデオが重要だという。これらの最新技術がどんなものなのか、何を実現するのかについて、Webexの
- IT
- あとで読む
（Style-)Bert-VITS2 JP-Extra (日本語特化版)について
- 4 users
- zenn.dev/litagin
- テクノロジー
- 2024/02/07
宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています概要 2024-02-01、音声合成（TTS）の中国発オープンソースのBert-VITS2の日本語特化版のBert-VITS2 JP-Extra がリリースされ、私が作っているそれの改造版 Style-Bert-VITS2 でもJP-Extra版を2/3に使えるようになりました（しました）。実際にどんな感じかはオンラインのデモ上で試せるのでぜひお試しください。これにより日本語の発音やアクセントやイントネーション等の自然性が上がり、クリアさや学習を回していったときのガタツキが大きく減る傾向があります。英語と中国語で音声合成したいという需要がなく日本語しか使わない場合はJP-Extra版を使うことを強くおすすめします。本稿では、以前のの記事で
- ai
無料で300以上のAIアバターやAI音声を使って超絶簡単に動画作成ができる「Vidnoz AI」を使ってみたレビュー
- 36 users
- gigazine.net
- テクノロジー
- 2024/01/30
実写の人間のように見えるリアルなAIアバターや動く画像を作成し、日本語を含む140カ国語以上の言語に対応したAI音声読み上げ機能で自然にしゃべらせ、400種類以上あるテンプレートを使って手軽にそれっぽい動画を作れるAI動画作成ツールが「Vidnoz AI」です。通常の動画作成で必要になるカメラやマイクなどの専門機材や、出演者やナレーターといった専門スタッフを用意しなくても簡単かつ低コストで動画作成が可能になるということで、実際にどんな動画が作成できるのか使ってみました。 Vidnoz AI：無料AI動画作成ツール｜AIで動画生成は1分でできる https://jp.vidnoz.com/?insur=jpgigazine Vidnoz AIでどんな動画を作成できるのかは、以下の動画を再生すれば一発でわかります。 Vidnoz AIでは専用アカウントがなくてもAIアバターの作成機能やAI音声
【Python】pydub使ったら音声データの解析がめっちゃ簡単だった
- 27 users
- zenn.dev/labcode
- テクノロジー
- 2024/01/26
音声データをPythonで取り込んで表示したり解析したりしたいと思ったことはありませんか？この記事では音声データの入出力をPythonで行えるpydubのインストールと基本的な使用方法（音声データの読み込み）について説明します。 pydubで音声データファイルの入力ができれば，Numpyが提供する関数等を使用してPython上で音声データの解析・加工ができるようになります。動作検証済み環境 macOS Catalina(10.15.7), python3.7.10, Jupyter Notebook, OpenCV 3.4.2 Pythonで音声データを読み込み，波形を描画する方法 pydubのインストール Pythonで音声データファイルの読み込みをするときは，pydubが便利です。 pydubは内部で ffmpegというライブラリを使用しますので，あらかじめインストールしておく必要
- 音声
- python
- データ
litagin/moe-speech · Datasets at Hugging Face
- 37 users
- huggingface.co
- テクノロジー
- 2024/01/24
Not-For-All-Audiences This repository has been marked as containing sensitive content and may contain potentially harmful and sensitive information. View content
【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた | WEEL
- 22 users
- weel.co.jp
- テクノロジー
- 2024/01/22
【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを（AIが）読み上げることができるんです、、、！参考：https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら
- 音声
- AI
- モデル
- あとで読む
- 開発
｢お尻洗って｣と、ウォシュレットに話しかける時代が来た #CES2024
- 103 users
- www.gizmodo.jp
- テクノロジー
- 2024/01/19
｢お尻洗って｣と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US ［原文］（湯木進悟）これぞベスト機能では？ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の｢CES 2024｣では、意外なる新機能がデビューを果たしていましたよ。音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり？ Kohlerは、そんな願いをかなえる｢PureWash Bidet Seat｣を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis
GitHub - collabora/WhisperSpeech: An Open Source text-to-speech system built by inverting Whisper.
- 4 users
- github.com/collabora
- テクノロジー
- 2024/01/18
If you have questions or you want to help you can find us in the #audio-generation channel on the LAION Discord server. An Open Source text-to-speech system built by inverting Whisper. Previously known as spear-tts-pytorch. We want this model to be like Stable Diffusion but for speech – both powerful and easily customizable. We are working only with properly licensed speech recordings and all the
Feedly + ChatGPTで、毎朝自分専用のポッドキャストを自動生成する仕組みを作った｜鈴木慎吾 / TSUMIKI INC.
- 95 users
- note.com/shingo2000
- テクノロジー
- 2024/01/18
毎朝、デザイン系の英語記事を10件ほどおすすめしてくれるSlackボットです。このボットは現在も問題なく稼働し続けていますが、毎朝のニュースは文字で読むよりも音声として聞いたほうが負担が少なく続けられそうです。そこで、このSlackボットを拡張して、毎朝デザインニュースのポッドキャストを自動生成する仕組みを作ることにしました。成果物はじめに成果物について。完成したポッドキャストは毎朝SpotifyとApple Podcastで配信しています。おおまかな処理の流れ開発前に想定した処理の流れは以下の通りです。毎朝ポッドキャストが自動で配信される理想的なフロー自分はコンテンツ制作者ではなく、あくまでリスナーというスタンスを取りたいため、ワークフローに自分が介在しない完全自動化が理想です。ところが、Sound Cloud APIの利用に必要なアプリケーション登録の受付が現在停止しているこ
- AI
- 人工知能
- あとで読む
- API
- ChatGPT
superwhisperでの音声入力を試す
- 71 users
- efcl.info
- テクノロジー
- 2024/01/17
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。特徴 Whisperの認識精度が高いかなり早く喋っても認識してくれる日本語も認識してくれるモデルがある日本語で喋って英語に翻訳してくれる機能もあるオフライン対応有料: サブスクと買い切りの2種類のプランがある無料で15分のトライアル、その後は選べるモデルが制限される公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
- mac
- 音声認識
- voice
- macOS
- software
- あとで読む
NTT、自分の分身AIを低コストで作る技術。自分の合成音声を簡単に作れる技術も
- 39 users
- pc.watch.impress.co.jp
- テクノロジー
- 2024/01/17
- AI
- あとで読む
- 技術
- 人工知能
- techfeed