Zennのトレンド記事をまとめてAIがラジオをつくります。毎朝7時に更新。 お便りも募集中。送っていただいたお便りはAIパーソナリティが読み上げます。
The Atlantic誌に「外国語教育の終焉」(The End of Foreign-Language Education)という記事が載っていた。 この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試しに作ってみるとなんだか不気味ですらある。自分であって自分でない、確かにシミュラクルだ。 とすると外国語を学ぶモチベーションが落ちるのもやむを得ないところで、記事によれば米国の大学における英語以外の言語コースの総登録者数は、2009年から2021年にかけて29.3%減少したという。オーストラリアでは2021年の高校3年生の8.6%しか外国語を学んでおらず、韓国やニュージーランドでも、外国語学科を閉鎖する大学が相次いでいるそうだ。逆に非英語圏では、
","eos_token":"<|endoftext|>","pad_token":"<|endoftext|>","unk_token":"<|endoftext|>"}},"discussionsDisabled":false,"downloads":1177,"downloadsAllTime":1177,"id":"kotoba-tech/kotoba-whisper-v1.0","isLikedByUser":false,"isWatchedByUser":false,"inference":"Yes","lastModified":"2024-04-22T01:56:19.000Z","likes":27,"pipeline_tag":"automatic-speech-recognition","library_name":"transformers","librariesO
昨年10月に「OpenAIのエンジン採用で話者認識もできる超高性能なAIボイスレコーダー、AutoMemoはどこまで進化するのか?」という記事で開発者インタビューも行ったソースネクストが展開するAutoMemo。会議を録音すれば簡単に議事録を作ることができるし、われわれライターや編集にとってはインタビューした内容をそのまま文字起こししてくれるという意味で、まさに長年の夢が叶ったシステムであり、もはや手放すことが不可能なほど重要なアイテムになっています。 文字起こし正解率98.9%(※)を誇るという、このAutoMemoは昨年10月以降もアップデートを繰り返し、性能改善を行うとともに、いくつかの新機能を実装してきています。そのひとつがWebアプリ版のAutoMemoに録音機能が搭載されたこと。これによりZoomやTeams、Google Meetなどを使ったオンライン会議の文字起こしも、ハー
「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の 音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。 サポートしているファイル形式は、次のとおりです。 ・MIMEタイプの制限 ・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。 ・1プロンプト内の音声ファイルの数には制限ない。 ・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオ チャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と
近年ではAIの発展により、人間のアーティストの歌声などを学習して新たな楽曲を作り出す技術が登場しています。アーティストの権利団体「Artist Rights Alliance(ARA)」は2024年4月2日、「人間のアーティストの権利を侵害し、音楽の価値を下げかねないAIの使用は控えるべき」との書簡を発表しました。この書簡には、ビリー・アイリッシュ氏やスティーヴィー・ワンダー氏など、200名以上の著名アーティストが署名しています。 200+ Artists Urge Tech Platforms: Stop Devaluing Music - Artist Rights Alliance - Medium https://artistrightsnow.medium.com/200-artists-urge-tech-platforms-stop-devaluing-music-559fb
こんにちは。ASMR作品を聴きまくった結果、風間くん※みたいなザコ耳になってしまったライター、シュゴウです。どちらかというと、右耳が弱いです。 ※編集部注:蛇足ですが『クレヨンしんちゃん』の風間くん ちなみにASMR(エー・エス・エム・アール。Autonomous Sensory Meridian Responseの略)とは、簡単に言うと「なんかゾワゾワする立体的な音声」のこと。 最近はASMR動画がYouTubeにたくさん投稿されていますし、同人作品販売サイト「DLsite」では、同人サークルが制作したASMR作品がいろいろと販売されています。 そんな、一部の人は日常的に聴くけど、なじみのない人は全然知らないであろうASMR作品ですが、最近ネットで猛烈に話題になったASMR作品があるのをご存じでしょうか? それがこちら、『ダウナー系お姉さんに毎日カスの嘘を流し込まれる音声』(以下、カス嘘
異世界の言語学です。 ドイツのフンボルト大学ベルリン(HU Berlin)で行われた研究によって、ファンタジーやSFの世界で使われている人工言語のどんな要素が、美しさや邪悪さなどの音声的な印象に繋がっているかが調べられました。 調査対象となった人工言語には、有名なフィクション作品で創作された優雅な響きを持つエルフ語や醜く凶悪なオークたちのオーク語、理知的な異星人たちのバルカン語、荒々しい戦闘民族の使うクリンゴン語など12種類が含まれています。 本研究は、ファンタジーやSFの世界が好きな人たちならば、一度は考えたことがある異世界言語の音声学的な魅力を分析したものと言えるでしょう。 研究内容の詳細は『Language and Speech』にて公開されています。 From Star Trek’s Klingon to Tolkien’s Orkish: Unraveling the audit
博士課程当時,研究職に就くつもりはありませんでした.理由は2つ. 1つは,研究より教育が好きなこと.保育士や塾講師をやっていたこともあり,子どもたちが喜んでくれる職に就きたかったのです.今も,教育のコンテンツとして研究をやっています. もう1つは,単純に研究の才能を持たなかったこと.悲しい.研究をやっていく上では,様々な能力が必要とされます.いわゆる研究活動,広報活動,資金繰り活動あたりですかね.どれをとっても,まあ人並みの域を越えてない自覚がありました. D3当時,博士論文研究を辞めて自由に研究している時期でした.補足すると,D2終了時点で学位取得の見通しができたので,最後の1年は博士論文の研究をせず,自由研究で遊んでいました.で,ゆったり就職活動をやっていました.以下,その履歴です. 学振PD: (書類が面倒で) 出さなかった.結果論で就職できましたが,やっておくべきだった 企業・研究
ミニツーストア(mini2x)トレーディングカードサプライ、ゲームグッズ、コレクショングッズのオリジナル製品を卸し販売しております。当店だけのオリジナル商品(mini2xブランド)を販売中!www.sw-inc.net ◆特別お得なセール 開催中です!!◆ プレゼント選びに迷ったらこれ! ノイズ除去アイテムの魅力を解説♪♪ 本体サイズ:約 6.5×1.8cm ケーブルの長さ:約16.5cm ※誤差がある場合がございます。 重さ:約 26g 【小さくて便利】 小さくて便利なこのガジェットは、場所を取らず、持ち運びも簡単です。 【使いやすい】 このノイズフィルタプラグアンドプレイ、充電を必要とせず、バッテリーを内蔵していません。 【製品の特徴】 現在のサウンドフィルターを接続した後、クリアで純粋な音楽を実現します。 オーディオソースが再生機器に接続されているときに発生する可能性のあるグランドル
Adobeが生成AI搭載の音楽生成および編集ソフトウェア「Project Music GenAI Control」を発表しました。Project Music GenAI Controlを使うことで、ユーザーはテキストプロンプトから音楽を生成し、そのまま生成した音楽を使って音声を編集することができるとのことです。 Here’s how generative AI is about to revolutionize audio creation and editing | Adobe Blog https://blog.adobe.com/en/publish/2024/02/28/adobe-research-audio-creation-editing Adobe announces new prototype AI tool for creating and editing audio
ウェブサイトにログインしたり問い合わせフォームを送信したりすると、「私はロボットではありません」といった文言のボット排除システム「CAPTCHA」に遭遇しがちです。CAPTCHAでは「バスを含む画像をクリック」などの問題が出題されますが、「バスの画像を正しく選択しているはずなのに人間と認めてもらえない!」という事態が頻繁に発生します。無料のブラウザ拡張機能「Buster」を使えば、ワンクリックでCAPTCHAを突破できるとのことなので、実際に使ってみました。 GitHub - dessant/buster: Captcha solver extension for humans, available for Chrome, Edge and Firefox https://github.com/dessant/buster BusterはChromeやFirefox、Edge、Operaな
動画だけじゃない。効果音も作れるAIが近日登場2024.02.25 08:006,481 岡本玄介 何から何までAIで完成しちゃう。 文章入力だけで超リアルな動画を生成できる、OpenAIの新AIツール「Sora」。現実世界で撮影したようなクオリティーなので、勘違いする人もたくさん出てきそう…というレベルです。 「Sora」は映像を作るツールとしては凄まじい性能ですが、そこにはまだ音がありません。そこで開発されているのが、「だったら効果音もAIで作っちゃえばイイじゃん?」というもの。 「AI Sound Effects」誕生ElevenLabsの「AI Sound Effects」により、OpenAIが発表した動画にAI生成の音が追加されました。 Video: ElevenLabs/YouTube足音やロボットの機械音、街の喧騒や雪がワサワサする音、タイピング音もこの通り。ナレーションや台
音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。 AnyGPT https://junzhan2000.github.io/AnyGPT.github.io/ 既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定してトレーニングすることができるという新しいマルチモーダルLLMがAnyGPTです。AnyGPTはデータレベルの前処理のみに依存しており、新しい言語を組み込むのと同様に、新しいモダリティのLLMへのシームレスな統合を促進することが可能。マルチモーダルアライメントの事前トレーニング用に、マルチモーダルテキスト中心のデータセットを構築することで、生成モデルを利用して大規模な「Any-to-Any」(任意のデータ形式から任意のデータ形式に出力できる)
Youtubeで配信しながら全プロンプトを実行しましたので、各節へのリンクを整理しました。時間のところにYoutubeへのリンクになっています。 もしずれていたら、その時間まで移動して視聴ください。 はじめに (4:00) 1章 ChatGPTの基礎知識 (5:50) 2章 ChatGPTの基本的な使い方 (6:28) 3章 ChatGPT Plusのセットアップ (7:32) 4章 ファイルのアップロードとダウンロード (12:40)4.1 アップロード・ダウンロード (13:03) 4.2 扱うことができるファイル (16:02) 5章 繰り返し作業を一瞬で (16:55)5.1 文字列操作 (17:20) 5.2 正規表現でのパターンマッチ (25:36) →54ページの正規表現でできることの例の説明 (29:09) 5.3 ファイルの一括操作 (46:20) 5.4 QRコード作成
AI Webcamについて紹介します。 AI Webcam AI WebcamはWebcamでとった写真についてAIが音声で返答してくれるというものです。AIのキャラクターというか音声は指定可能です。また文章のプロンプトでどのように返答するかも指定できます。 例えば、アメリカの若い女性「レイチェル」に自分の容姿を褒めてもらった時の大爆笑映像はこちらです。 元ネタ 実は元ネタがあって、Wes Bosというポドキャスターがやってたのを真似てます。コードも公開されているので、それを使わせてもらってます。みなさんもできます。 YAPCでLT あまりにも面白いので、先日のYAPC::HiroshimaのLTでこれを応用したものをデモしました。レイチェルだけを流しても尺が余るしインパクトにかけるので、YAPCっぽく「dankogai」さんと「papix」をAIにしました。 UIはこんな感じです。 例え
新「PS5」はスリムなサイズとなったことが最大の特徴で、サイズは約358×216×96mm(横置き時の幅×奥行×高さ)と従来モデルと比較して30%以上小型化。重量も約3.2kg(ディスクドライブ搭載モデル)と18%も軽量となっている。採用する技術や機能はそのままで、内蔵するSSDストレージは1TBだ。 希望小売価格はディスクドライブ搭載モデルの「CFI-2000A01」が66,980円(税込)、ディスクドライブなしのデジタル・エディション「CFI-2000B01」が59,980円(税込)。昨今の物価高騰などの影響もありSSDストレージが増量されているとはいえ、従来よりも価格が高くなっているのは少し残念。 ただし、ディスクドライブの着脱が可能になり、デジタル・エディションを購入した後でもディスクドライブを購入して増設できるようになっているなど、改善が図られた点もある。なお、1台付属するDua
シスコが昨年(2023年)10月に米国で開催した「WebexOne 2023」において、「Webex」に搭載予定の3つのAI新技術/機能が発表された。Webexの音声/ビデオに高度な処理を適用するための生成AIモデル「Real-Time Media Model(RMM)」、生成AIでパケットロスによる音声の途切れ/劣化を防ぐ音声コーデック「Webex AI Codec」、LLM(大規模言語モデル)を使った自然言語によるAIアシスタント「Webex AI Assistant」だ。 AIアシスタント機能は他社のツールでも多く見られるが、音声/ビデオ処理に生成AI技術を適用するのは“シスコならでは”のアプローチでありユニークだ。そして実は、LLMの能力を引き出すうえでも、その基盤としてクリアな音声/ビデオが重要だという。 これらの最新技術がどんなものなのか、何を実現するのかについて、Webexの
宣伝 Style-Bert-VITS2のチュートリアル解説動画を作りました discordサーバー「AI声づくり研究会」によく出没しています 概要 2024-02-01、音声合成(TTS)の中国発オープンソースのBert-VITS2の日本語特化版のBert-VITS2 JP-Extra がリリースされ、私が作っているそれの改造版 Style-Bert-VITS2 でもJP-Extra版を2/3に使えるようになりました(しました)。 実際にどんな感じかは オンラインのデモ 上で試せるのでぜひお試しください。 これにより日本語の発音やアクセントやイントネーション等の自然性が上がり、クリアさや学習を回していったときのガタツキが大きく減る傾向があります。英語と中国語で音声合成したいという需要がなく日本語しか使わない場合はJP-Extra版を使うことを強くおすすめします。 本稿では、以前の の記事で
実写の人間のように見えるリアルなAIアバターや動く画像を作成し、日本語を含む140カ国語以上の言語に対応したAI音声読み上げ機能で自然にしゃべらせ、400種類以上あるテンプレートを使って手軽にそれっぽい動画を作れるAI動画作成ツールが「Vidnoz AI」です。通常の動画作成で必要になるカメラやマイクなどの専門機材や、出演者やナレーターといった専門スタッフを用意しなくても簡単かつ低コストで動画作成が可能になるということで、実際にどんな動画が作成できるのか使ってみました。 Vidnoz AI:無料AI動画作成ツール|AIで動画生成は1分でできる https://jp.vidnoz.com/?insur=jpgigazine Vidnoz AIでどんな動画を作成できるのかは、以下の動画を再生すれば一発でわかります。 Vidnoz AIでは専用アカウントがなくてもAIアバターの作成機能やAI音声
音声データをPythonで取り込んで表示したり解析したりしたいと思ったことはありませんか? この記事では音声データの入出力をPythonで行えるpydubのインストールと基本的な使用方法(音声データの読み込み)について説明します。 pydubで音声データファイルの入力ができれば,Numpyが提供する関数等を使用してPython上で音声データの解析・加工ができるようになります。 動作検証済み環境 macOS Catalina(10.15.7), python3.7.10, Jupyter Notebook, OpenCV 3.4.2 Pythonで音声データを読み込み,波形を描画する方法 pydubのインストール Pythonで音声データファイルの読み込みをするときは,pydubが便利です。 pydubは内部で ffmpegというライブラリを使用しますので,あらかじめインストールしておく必要
【WhisperSpeech】Whisperがさらに高性能になった音声モデルを使ってエミネムにゆっくり喋らせてみた 2024 2/20 WEELメディア事業部LLMリサーチャーの中田です。 1月18日、Whisperを利用したText-to-Speechモデル「WhisperSpeech」のアップデート版を、Collaboraが公開しました。 このAIモデルを用いることで、テキストを入力するだけで、簡単にそのテキストを(AIが)読み上げることができるんです、、、! 参考:https://github.com/collabora/WhisperSpeech GitHubでのスター数は、すでに1700を超えており、期待度が高いことを示しています。 この記事ではWhisperSpeechの使い方や、有効性の検証まで行います。本記事を熟読することで、WhisperSpeechの凄さを実感し、そこら
「お尻洗って」と、ウォシュレットに話しかける時代が来た2024.01.19 08:006,460 Florence Ion - Gizmodo US [原文] ( 湯木進悟 ) これぞベスト機能では? ウォシュレットが登場したとき、その新感覚に驚いたことを覚えている人もいるでしょう。いまではすっかりトイレの標準機能になっていますけど、今年の「CES 2024」では、意外なる新機能がデビューを果たしていましたよ。 音声認識でコントロール可能にそもそも当たり前のように、ウォシュレットのボタンを指でタッチしていますけど、もし一切なににも触れずコントロールできたら、衛生面でも最高だったり? Kohlerは、そんな願いをかなえる「PureWash Bidet Seat」を発表しました。 Image: Kohlerなんと音声認識アシスタントとなる、AmazonのAlexaまたはGoogle Assis
If you have questions or you want to help you can find us in the #audio-generation channel on the LAION Discord server. An Open Source text-to-speech system built by inverting Whisper. Previously known as spear-tts-pytorch. We want this model to be like Stable Diffusion but for speech – both powerful and easily customizable. We are working only with properly licensed speech recordings and all the
毎朝、デザイン系の英語記事を10件ほどおすすめしてくれるSlackボットです。このボットは現在も問題なく稼働し続けていますが、毎朝のニュースは文字で読むよりも音声として聞いたほうが負担が少なく続けられそうです。 そこで、このSlackボットを拡張して、毎朝デザインニュースのポッドキャストを自動生成する仕組みを作ることにしました。 成果物はじめに成果物について。完成したポッドキャストは毎朝SpotifyとApple Podcastで配信しています。 おおまかな処理の流れ開発前に想定した処理の流れは以下の通りです。 毎朝ポッドキャストが自動で配信される理想的なフロー自分はコンテンツ制作者ではなく、あくまでリスナーというスタンスを取りたいため、ワークフローに自分が介在しない完全自動化が理想です。 ところが、Sound Cloud APIの利用に必要なアプリケーション登録の受付が現在停止しているこ
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く