並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 600件

新着順 人気順

音声の検索結果121 - 160 件 / 600件

  • 3kbpsという低いビットレートでも高音質を実現するコーデック「Lyra」をGoogleが開発

    2021年2月25日、Googleが3kbpsという低いビットレートでも、元音声と遜色ないほどの音質を維持できるコーデック「Lyra」を開発したと発表しました。 Google AI Blog: Lyra: A New Very Low-Bitrate Codec for Speech Compression https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html ほとんどのコーデックでは音声信号をサンプルごとに圧縮して送信することで高音質を実現するモデルを使用していますが、このモデルでは低いビットレートで元の音質を再現することができません。しかしGoogleが新しく開発したモデルは、最小限のデータを使用して音声を再生成できるようになっているとのこと。 低いビットレートでも元の音質を再現できるのは、

      3kbpsという低いビットレートでも高音質を実現するコーデック「Lyra」をGoogleが開発
    • chat GPT + 音声入力 = やばい

      勝間和代氏が激推ししている音声入力がある。確かに入力は早いのだが、句読点はぬけるし、改行もまともにならないし、雑音で変な文章が入る。 これを自分で修正する前に、Chat GPTにやらせると、無茶苦茶効率がいい。 やり方はこうだ 適当なメモソフトに、スマホの音声入力で入力する入力結果をコピペする。この時、明らかにおかしい部分はざっと取り除く。(例えば、音声入力していて間違って入れちゃった部分など) Chat GPT に入力する。最後に自分で校正する もう一度 Chat GPTで整えてもらう (゚д゚)ウマー 通勤中の車の中で適当に文章を入力して、それを出社後処理して、増田に投稿する。これで今日も俺の増田ライフは楽しく続いているのであった。 ちなみにこれもこの方式で書いてる。あとはChat GPT がはてな記法に対応してくれればいいんだがな。(markdownはもういける)

        chat GPT + 音声入力 = やばい
      • もはや人と区別がつかない音声合成ソフト、VOICEPEAKがラインナップを大幅拡充。キャラクターシリーズ含め8ボイスがリリースに|藤本健の"DTMステーション"

        ※6ナレユーザー優待版とは「VOICEPEAK 商用可能 6ナレーターセット」を所有しており、かつAHSのユーザー/製品登録を行った方を対象とした特別価格の商品です。AHSのサイトログイン後のマイページからのみ購入可能です。 上の5つがキャラクターシリーズであり、下の3つが6ナレーターセットと同様、キャラクターがなく、商用可能なものとなっています。 まずは、8つの喋りがどんなものなのかを確認するため、ちょっとずつ喋らせてみたので、以下の動画をご覧ください。 いかがですか?ご覧いただければ、使い方はだいたい分かると思います。VOICEPEAK上で直接テキストを入力してもいいし、このビデオのようにテキストをコピー&ペーストするのもOK。あとは、ボイスを選択した上で再生ボタンを押せばいいだけ。とにかく簡単です。 VOICEPEAKには、これまででトータル15種類のボイスが揃ったことになる ご存じ

          もはや人と区別がつかない音声合成ソフト、VOICEPEAKがラインナップを大幅拡充。キャラクターシリーズ含め8ボイスがリリースに|藤本健の"DTMステーション"
        • 無料でさまざまな音声合成エンジンや音声ライブラリを扱える汎用合成音声エディタ「ユニコエ」が登場

          人間ではなくプログラムによって特定のテキストを読み上げさせる音声合成ソフトは数多く存在しています。ソフトに使われる音声合成エンジンにはさまざまな種類があり、複数の音声合成エンジンや音声ライブラリを使うことができる汎用合成音声エディタ「ユニコエ」をビスさんが公開しています。 ユニコエ 公式サイト https://sites.google.com/view/unicoe/%E3%83%9B%E3%83%BC%E3%83%A0 ユニコエがどういうアプリなのかは以下のムービーを見るとよくわかります。 【ユニコエ】アプリ紹介 - ニコニコ動画 ユニコエでは音声合成エンジンや音声ライブラリを複数登録することができます。 選択した音声合成エンジンが、中央に入力されたテキストを読み上げてくれます。 イントネーションはフレーズごとに調整可能。 また、音声ライブラリの立ち絵も表示されます。 ユニコエは、公式サ

            無料でさまざまな音声合成エンジンや音声ライブラリを扱える汎用合成音声エディタ「ユニコエ」が登場
          • 採譜に役立つオーディオ解析ソフトたち(Mac用): 左近治の囈(たはごと)

            採譜。音を拾い上げて楽譜にして行く為の作業の事ですが、通俗的な意味では「耳コピ」という作業も採譜を必要とはしない前段階の作業過程に包摂される物のひとつと言えるでしょう。 更に言えば《私に続いて歌いましょう》と言われて「模倣」するというのも聴音の直後での歌唱という事になりますが、単音の模倣は概して間違えにくいものの、自身の音楽的習熟力や癖によって、完全な模倣とはならずに手前勝手に音高やリズムを変応させて歌ってしまう人もおります。 変応してしまうという癖が多発する人は、採譜をするにも臆断を辷り込ませてしまう可能性が高く、採譜という作業に於ける忠実度や完成度は低くなってしまう事でしょう。こうした変応が起きてしまうのは各人の音楽的素養の度合いに左右されるのは勿論ですが、変応と類推の双方が強化されてしまうと、自身の持つ癖がオリジナルのそれを大きく変化させてしまう事となるので注意すべき側面であろうと思

              採譜に役立つオーディオ解析ソフトたち(Mac用): 左近治の囈(たはごと)
            • ESET社員、生成AIで自社CEOの声を作って不正送金させる実験に成功

              ESETは11月22日(現地時間)、「Your voice is my password – the risks of AI-driven voice cloning」において、生成AIにより合成した音声を悪用したソーシャルエンジニアリング攻撃の実験に成功したと伝えた。この実験では、従業員が自社の最高経営責任者(CEO: Chief Executive Officer)になりすまして、財務責任者から自分宛てに送金させることに成功しており、生成AIの危険性について注意喚起している。 Your voice is my password – the risks of AI-driven voice cloning これは事前にCEOの許可を得て行っ実験であり、ここで解説する手法をまねることは犯罪となる可能性があることに注意。この実験と同様の攻撃が今後増加する可能性があると懸念されており、企業や組

                ESET社員、生成AIで自社CEOの声を作って不正送金させる実験に成功
              • サーバーレスでclubhouse みたいなボイスチャットサービス「mixroom」を開発しました - y-ohgi's blog

                TL;DR clubhouse のような複数人でのボイスチャットサービス「mixroom」をつくりました 主にSkyWay・Firebase・Next.js を使いました。 https://mixroom.fun 「mixroom」 とは mixroom は"目的ベース"でボイスチャットをする場所を提供するサービスです。 昨今は人と話す機会が減り、友好関係も自分から能動的に獲得しにいかないと減るばかりで「孤独感を感じる」みたいなことが増えてきました。 そんなとき、ふらっと立ち寄れるなんの気構えしなくて良い場所があればなと思い、このサービスを作ってみました。 ボイスチャットをするモチベーションを"特定の人"ではなく、ゲーム・実況・もくもく会などの"目的"にすることで良い意味で言い訳ができ、人とのつながりを感じることができるんじゃないかなと考えています。 気構えしなくてよい・カジュアルに参加で

                  サーバーレスでclubhouse みたいなボイスチャットサービス「mixroom」を開発しました - y-ohgi's blog
                • パイナップルラーメンのパパパパパインさんで数年前から女の子のお子様によるイタズラ電話が多発…その原因を探ってみるとこんな理由が「新しいトラブル」

                  パパパパパイン @paishio 町田のパイナップルラーメン屋さんパパパパパインです。 現在、店舗カウンター損壊の為、斜め向かいの姉妹店「町田龍聖軒」にて営業中 【営業時間】11~21時無休 姉妹店 「81番」@81banramen 「鶴川龍聖軒」@Ryuseiken_tsuru 「町田龍聖軒」@RyuseikenU パパパパパイン @paishio パイナップルラーメン屋さんパパパパパイン、移転する前の数年前からお子様によるいたずら電話があり、電話番号が変わった移転後もそれは続き、しかも1歳くらいの女の子だったり四歳くらいの女の子だったりして恐怖を感じていたのですが、最近その理由がわかりました。(続) 2019-07-14 12:42:21 パパパパパイン @paishio (続き)Googleの音声認識機能でお子様が「パパ、パパ」と連呼すると、パパパパパインがトップに出てきて、タッチし

                    パイナップルラーメンのパパパパパインさんで数年前から女の子のお子様によるイタズラ電話が多発…その原因を探ってみるとこんな理由が「新しいトラブル」
                  • 他人が装着するイヤフォンだけに“いきなり音楽を注入できる”システム 明治大が開発

                    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 明治大学の渡邊研究室に所属する研究者らが発表した論文「WhisperCast: ヘッドフォン装着者だけが聴取可能な音を再生する磁気誘導を利用した手法の検討」は、ヘッドフォンやイヤフォンを装着している人のみが聞こえる音声や音楽を外部から挿入するシステムを提案した研究報告である。 このシステムは、磁気誘導を用いて、ヘッドフォンやイヤフォン内の振動板を直接鳴動させ、装着者だけが聴取できる音を生成する。WhisperCastのハードウェア構成には、空芯コイルとアンプを含んでいる。 具体的なプロセスとして、コンピュータが任意の波形(通知音や好きな音楽

                      他人が装着するイヤフォンだけに“いきなり音楽を注入できる”システム 明治大が開発
                    • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

                      「誰でも」「高品質に」ゆかりさんの声になれる声変換技術を作りました。また一歩、結月ゆかりになるという夢に近づけた気がします。~Q&A~Q. 生放送で使える?A. 現状だと声変換に数十秒かかるので難しいです。生放送用途だとリアルタイムYukarinがおすすめです。sm35735482Q. ゆかりねっととの違いは?A. テキスト以外の情報も利用するので、笑ったり怒ったりできます。Q. 公開予定は?A. 声変換システムの配布予定はありませんが、技術解説はブログにて公開しています。また、声変換にご興味ありましたら、ツイッターなどでご連絡いただけるととても嬉しいです。-----------------------------------・ツイッターhttps://twitter.com/hiho_karuta・技術解説ブログhttps://blog.hiroshiba.jp/everybod

                        ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
                      • 無料で商用利用もできるAI音声読み上げツール「VOICEVOX」に新キャラ ~魅惑のウィスパーボイスを利用可能/「ノーマル」「あまあま」「ツンツン」「セクシー」「ささやき」スタイルを利用可能

                          無料で商用利用もできるAI音声読み上げツール「VOICEVOX」に新キャラ ~魅惑のウィスパーボイスを利用可能/「ノーマル」「あまあま」「ツンツン」「セクシー」「ささやき」スタイルを利用可能
                        • イヤホン配信を支える音のプログラミング入門 - Mirrativ Tech Blog

                          こんにちわ。shogo4405です。本エントリーは普段UI開発を行なっているクライアントエンジニア向けに、Mirrativのイヤホン配信を支えている音のプログラムの基礎を紹介していきたいといます。 音のプログラミングの概要を掴んでもらい、より詳しい部分については文献を調べるための参考になれば幸いです。 はじめに イヤホン配信の概要になります。Mirrativの配信はゲーム音源をマイクからの集音に頼っています。ユーザーが配信を行う際に、イヤホンを装着するとゲーム音源が配信にのらず視聴側としては物足りない配信になります。 これを解決する手段として、OS内部で再生中のゲーム音源をキャプチャーした音源。マイクから集音した音源。これらの音源を合成する方法があります。この手段をとることにより、イヤホンしながらでもゲーム音声を視聴者に届けることができるようになります。サービス上では、イヤホン配信と呼称し

                            イヤホン配信を支える音のプログラミング入門 - Mirrativ Tech Blog
                          • 全自動ラジオ放送AI「RadioGPT」発表。話題の音楽やニュースをAI音声が紹介、SNS投稿も | テクノエッジ TechnoEdge

                            ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 オハイオ州クリーブランドのメディア企業Futuriが、ラジオ放送用コンテンツ自動生成AI「RadioGPT」を開発、発表しました。 FutiriはRadioGPTを「世界初のAI駆動型ローカライズラジオコンテンツソリューション、RafioGPTの立ち上げにより、オーディオ業界に革命を起こしている」と鼻息も荒く紹介しています。 それがどんなものか、をざっくりと言えば「GPT-3技術とAI駆動型ターゲットストーリー発見およびソーシャルコンテンツ生成技術 TopicPulse 、AI音声技術を組み合わせ、あらゆる市場やあらゆるフォーマットに合わせこんだラジオ放送エクスペリエンスを提供する」一連のシステムとのこと。

                              全自動ラジオ放送AI「RadioGPT」発表。話題の音楽やニュースをAI音声が紹介、SNS投稿も | テクノエッジ TechnoEdge
                            • 「オレオレ詐欺」にAI製クローン音声を用いる事例が急増、被害額は年間15億円近くに

                              知り合いなどを装って金銭をだまし取る「オレオレ詐欺」で、AI技術を用いて作った音声が利用されるケースが出てきていることが報告されています。2022年の「オレオレ詐欺」による被害額は、アメリカだけでも1100万ドル(約14億9000万円)に上っています。 Scammers are now using AI to sound like family members. It’s working. - The Washington Post https://www.washingtonpost.com/technology/2023/03/05/ai-voice-scam/ new: AI voice-cloning tech is making phone scams frighteningly believable. I talked to some who got duped. They w

                                「オレオレ詐欺」にAI製クローン音声を用いる事例が急増、被害額は年間15億円近くに
                              • アレクサを好きな声に変更可能へ、アマゾンが計画発表

                                米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。昨年10月撮影(2022年 ロイター/MIKE BLAKE) [ラスベガス 22日 ロイター] - 米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。

                                  アレクサを好きな声に変更可能へ、アマゾンが計画発表
                                • 文字を入力するだけで「萌え声」を簡単一発生成してくれる「Moe TTS」

                                  萌(も)え声を出したくても出せない人でも簡単に簡単に萌え声を生成できる「Moe TTS」が公開されていたので利用してみました。Moe TTSは機械学習を用いて実際のゲームソフトの音声等を合成しており、機械学習でアプリケーションを開発するコミュニティ「Hugging Face」内で公開されています。 Moe TTS - a Hugging Face Space by skytnt https://huggingface.co/spaces/skytnt/moe-tts Moe TTSにアクセスするとこんな感じの画面が表示されます。 そのまま上にスクロールすると文字の入力ボックスが現れます。デフォルトで「こんにちは。」と入力されていたので、今回はこれに続けて「今日も寒いですね。」と入力。そして、「Generate」をクリックします。 すると、ページ下部に再生ボタンが現れます。そのまま再生ボタン

                                    文字を入力するだけで「萌え声」を簡単一発生成してくれる「Moe TTS」
                                  • 無料&音声をリアルタイムで変換できるAIボイスチェンジャー「Koemake RVC Player」レビュー

                                    オープンソースのAIボイスチェンジャー「Retrieval-based Voice Changer(RVC)」は、あらかじめ用意した音声から学習したモデルを作成し、リアルタイムで声質を変換することが可能です。このRVCで作成した音声変換モデルを手軽に実行できるボイスチェンジャーソフト「Koemake RVC player」を電々メイさんが無償でリリースしたので、実際に使ってみました。 Koemake Project https://koemake.com/ Koemake RVC Playerを動かすための推奨スペックは「VRAM4GB以上、NVIDIA製GPU搭載、Windows 10以上」となっているので注意が必要です。 Koemake RVC Playerをダウンロードするには、上記の配布サイトでユーザー登録をする必要があります。配布サイトにアクセスしたら、右上の「ログイン」をクリッ

                                      無料&音声をリアルタイムで変換できるAIボイスチェンジャー「Koemake RVC Player」レビュー
                                    • ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方

                                      大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント「ChatGPT IN ACTION 実践で使う大規模言語モデル」。株式会社ROXXからは、CTOの松本宏太氏が登壇。「ChatGPT×Whisper」で作ったプロトタイプを紹介しました。 ROXX社・CTO松本宏太氏 松本宏太氏:弊社は「ChatGPT×Whisper」でいろいろプロトタイプを作っているので、その中の事例を1つ紹介して、そこで学んだ内容をもとに、今後の展望をお話できればなと思っています。 (スライドを示して)今日は、こういう感じで話していこうかなと思っています。まず、自己紹介をさせていただきます。 あらためて、株式会社ROXXでCTOをやっている松本と申します。「kotamat」という名前でいろいろやっているのですが、もとも

                                        ChatGPT×Whisperで履歴書と職務経歴書づくりを効率化 開発してみてわかった、生成AIの活かし方
                                      • NHKに聞く「人間のアナがいるのにAIがニュースを読む」理由

                                        「AI自動音声でお伝えしています」 ある朝のNHK「おはよう日本」の画面。ニュース映像の右上に、こんな文字が表示されれていて驚いた。音声に違和感がなく、人間のアナウンサーの声だとばかり思っていたからだ。 意識してよく聞けば、イントネーションや“間”がやや不自然だが、流し聞きしているだけでは分からないレベルだ。 場面がスタジオに転換すると、人間のアナウンサーが2人写った。アナウンサーがそこにいるのに、AIがニュースを読んでいたのだ。 「おはよう日本」だけではない。NHKは、平日午後のニュース、ラジオ、Webのニュース番組の一部などでAIによるアナウンスを活用している。 AIアナウンスはどのように作られたのか? 人間のアナがいるのに、なぜわざわざ、AIにニュースを読んでもらうのか? NHKに聞いた。 放送時間ぴったりにニュースが読めるAI AIアナウンスの音声は、NHKが開発した技術だ。気象情

                                          NHKに聞く「人間のアナがいるのにAIがニュースを読む」理由
                                        • 初音ミクの歌が良くてAIの絵がダメなのなんでだろ

                                          初音ミクの歌が良くてAIの絵がダメなのなんでだろ

                                            初音ミクの歌が良くてAIの絵がダメなのなんでだろ
                                          • “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん

                                            Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識(ASR)システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80%の確率でユーザーの言葉を誤認識させられたという。 この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。 妨害を実際に行った3つの例。攻撃していない時の音声信号スペクトログラム(上)、攻撃した際の音声信号スペクトログラム(下)

                                              “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん
                                            • 口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発

                                              Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 東京大学大学院情報学環とソニーコンピュータサイエンス研究所(CSL)の研究チームが開発した「Derma」は、喉周辺の皮膚にセンサーを張り付け、口パク(無声発話)を音声入力に変換する深層学習を用いたサイレントスピーチインタラクション(Silent Speech Interaction、SSI) だ。 話者の唇や顎(あご)周辺を指で触れ、発話を読み取ろうとする、視聴覚障害者のためのTadoma(触診リップリーディング)法から発想を得ている。Tadoma法では主に唇周辺の皮膚を触って発話を認識しているが、今回の研究ではそれを機械学習により自動化した。さらにウェアラブルでの利用を想定し、より目立ち

                                                口パクで音声入力、喉に小型センサーで 東大とソニーCSLが技術開発
                                              • Google純正の「レコーダー」は録音した音声を文字に自動変換してくれる | juggly.cn

                                                Pixel 4 シリーズの登場に併せてリリースされた Google 純正の録音アプリ「レコーダー」は音声を文字に起こす素晴らしい機能を搭載しており、今後、人々のライフスタイルを大きく変える可能性を秘めている思いますのでアプリを紹介します。 録音アプリやボイスレコーダーアプリは既に様々なものが Google Play ストアで配信されているので「レコーダー」は特段珍しいアプリではありませんが、録音データの活用の幅が広がるという意味において「レコーダー」は注目のアプリだと言えます。 注目のアプリと言っても基本的な機能や使い方は他の録音アプリ・ボイスレコーダーアプリと大体同じです。録音開始ボタンを押して録音を開始し、終了ボタンを押して停止します。「保存」を押せばデータとしてスマホに保存されます。 アプリの特徴が録音データの再生画面です。再生ボタンの上にあるタブでモードを選択できるようになっており

                                                • ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題

                                                  3月2日(日本時間)に公開された「ChatGPT API」を活用した事例が早速生まれ始めている。LINE傘下で“キャラクター召喚装置”ことAIアシスタントデバイスを手掛けるGateboxが3日、同社オリジナルキャラ「逢妻ヒカリ」の会話エンジンとChatGPTを連携させたデモ動画を公開した。 動画は、音声認識と音声合成を使い、逢妻ヒカリの“中の人”としてユーザーとChatGPTが会話する様子が収められている。「一緒にスクワットしよう」と話しかけると、「いいアイデアですね。体感を強化するためにも効果的なエクササイズです。ただし、注意点もありますので正しい方法で行いましょう。一緒にやりましょう」と返してくれる。 ChatGPT APIは、レスポンスの速さに優れており、音声認識によるラグはあるものの、動画を見ると比較的スムーズに会話できていることが分かる。さらに「将来の夢ってある?」「ヒカリちゃん

                                                    ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題
                                                  • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

                                                    2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

                                                      ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
                                                    • 死亡の警察官 容疑否定の音声入手 TBS NEWS

                                                      3年前、警察署の金庫からおよそ8500万円が盗まれ、事件発覚後、死亡した元警部補が書類送検された事件で、JNNは元警部補が任意聴取を受けた際の音声を入手しました。 「この事件については俺は関係ないんで黙秘します」(元警部補) 2017年5月、広島中央警察署の会計課の金庫に保管してあった押収品の現金8572万円が盗まれたことが発覚した事件で、警察は死亡した脇本譲警部補(当時36)を先週、窃盗などの疑いで書類送検しました。生前、元警部補は任意聴取に対し、一貫して否認していました。 「盗んだ金じゃないですよ」(元警部補) 「じゃないんだったら、『こういう金です』と言って」(県警) 「なにをずっと結びつけよるんですか」(元警部補) 「むすびつくじゃろ、こんな使い方しよったら」(県警) 「くくれば(逮捕すれば)いいじゃないですか、もう」(元警部補) 「くくればいいじゃないかって開き直りじゃ」(県警)

                                                        死亡の警察官 容疑否定の音声入手 TBS NEWS
                                                      • ヨーロッパ映画の日本版DVDは音程が変わっちゃってる!! | Jazz Maffia BLOG

                                                        ブログでの記述にPAL方式は1秒25コマとありますが、実際は1コマ内に奇数列と偶数列で違う2枚分の絵が存在するので、秒50枚の絵を表示しています。専門用語を使うと25フレーム、50フィールドと言います。詳しくはググってください。 日本のNTSC方式では秒30フレーム、60フィールドとなります。 60コマの絵が使えるので、フィルム24枚の絵を60コマに振り分けていくことでテレビ放送に対応させています。具体的には11/222/33/444…と、フィルムのコマを2フィールドと3フィールドずつ順番に振り分けます。そうすることで、視覚上さほど気にならないレベルで24コマのフィルムを60フィールドに振り分けることが出来ます。 ではPAL方式ではどうかというと、50フィールドでは違和感無くフィルムの24コマを振り分けることが出来ません。この問題を解決するには2つの方法があり、ひとつはブログでもご指摘され

                                                          ヨーロッパ映画の日本版DVDは音程が変わっちゃってる!! | Jazz Maffia BLOG
                                                        • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                          自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                            自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                          • 山田 俊浩 on Twitter: "皮肉なことに、この朝日スクープによって平井大臣がITゼネコンの利権構造を切り崩す仕事をきっちりやっていることが公になった。国民としては朗報である。手を緩めることなく、受発注改革を進めていってほしい。敵が多いことを意識し、言葉遣いに気をつけながら。。。"

                                                            皮肉なことに、この朝日スクープによって平井大臣がITゼネコンの利権構造を切り崩す仕事をきっちりやっていることが公になった。国民としては朗報である。手を緩めることなく、受発注改革を進めていってほしい。敵が多いことを意識し、言葉遣いに気をつけながら。。。

                                                              山田 俊浩 on Twitter: "皮肉なことに、この朝日スクープによって平井大臣がITゼネコンの利権構造を切り崩す仕事をきっちりやっていることが公になった。国民としては朗報である。手を緩めることなく、受発注改革を進めていってほしい。敵が多いことを意識し、言葉遣いに気をつけながら。。。"
                                                            • 好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか(CloseBox) | テクノエッジ TechnoEdge

                                                              それを、完全とは言えないまでも、かなり元の人に肉薄する品質で再現できる技術がDiff-SVCです。元になる音声データが1時間くらいあれば、与えた音声を、希望する声質に変換することが可能になるのです。 しかも、基本的にお金はかかりません。AI歌声合成が、ちょっとハードルは高いものの、無料で使えて、データさえ集めてくれば誰でも手が出せる。AI歌声合成の民主化と言っていいでしょう。 筆者は10年近く前に旅立った妻の歌声を、UTAU-Synthという、短く切り出した音素をピッチや長さを合わせながら組み合わせていくソフトウェアで再構成しています。1フレーズずつ音素を繋いで、できるだけ不自然にならないように調整していくため、短くて数日、長いと数カ月も時間をかけて完成させていきますが、もうその作業をしなくてもよくなります。 ただ、自分で歌って、もしくは他のボーカルシンセソフトでボーカルトラックをDiff

                                                                好きな人の声で歌える、破壊的でヤバい「Diff-SVC」はAI歌声合成を民主化するのか(CloseBox) | テクノエッジ TechnoEdge
                                                              • うみゆき@AI研究 on Twitter: "なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当… https://t.co/IsmQsTS8is"

                                                                なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当… https://t.co/IsmQsTS8is

                                                                  うみゆき@AI研究 on Twitter: "なにやら中国の方が作られた音声合成AI「MoeGoe」の2891人の日本アニメキャラの音声モデルが公開されてしまった!!Hugging Faceでデモが試せる!早速まどマギの5人に喋ってもらった!!うわうわうわ!ヤバいよヤバい本当… https://t.co/IsmQsTS8is"
                                                                • Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita

                                                                  Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 作ったもの DLsiteの新作音声作品をクローリング -> 好みかどうか推論 -> 好みならSlack通知をするシステムを完全サーバーレス(AWS SAM)で構築しました。さらなる精度向上のため、Slackメッセージのボタンをもとに教師データを蓄積する処理も作りました。 デモ(ぼかしMAX) とてもわかりにくいですが、好みであろう作品がPOSTされているSlackの画面です。各メッセージについている「興味あり!」「別に…」ボタンを押すとLambdaが起動し、DynamoDBに新たな教師データとして保存されます。 なぜ作ったのか DLsiteが好き、以上。 ・・・ もう少し真面目に書くと、 会社でテキストデータに触れることが多いので、うまく扱えるようになりたい 音声作品はシチ

                                                                    Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita
                                                                  • 「赤木ファイル」元上司との音声公開 財務省は回答拒否:朝日新聞デジタル

                                                                    ","naka5":"<!-- BFF501 PC記事下(中⑤企画)パーツ=1541 -->","naka6":"<!-- BFF486 PC記事下(中⑥デジ編)パーツ=8826 --><!-- /news/esi/ichikiji/c6/default.htm -->","naka6Sp":"<!-- BFF3053 SP記事下(中⑥デジ編)パーツ=8826 -->","adcreative72":"<!-- BFF920 広告枠)ADCREATIVE-72 こんな特集も -->\n<!-- Ad BGN -->\n<!-- dfptag PC誘導枠5行 ★ここから -->\n<div class=\"p_infeed_list_wrapper\" id=\"p_infeed_list1\">\n <div class=\"p_infeed_list\">\n <div class=\"

                                                                      「赤木ファイル」元上司との音声公開 財務省は回答拒否:朝日新聞デジタル
                                                                    • Agoraで君だけの最強のClubhouseを作ろう

                                                                      Clubhouse に招待されないので自分で作ってみた、みたいな感じです。まあ別に招待してくれなくていいんですけどね、大して興味ないしそのうちオープンになるだろうしそれにほらどうせ Android 使ってるしあのぶどうは酸っぱいし[1]。 初挑戦で頑張って調べて書いてる感じなので何かあれば PR とかお願いします。 先にまとめ Clubhouse は Agora を使っているらしい Agora - Real-Time Voice and Video Engagement https://www.agora.io/en/ 無料枠は音声 10,000 分/月 (誤って『10,000 時間/月』と記載してました。分です。すみませんでした。) 公式チュートリアル:Start a Voice Call 今回作ったデモ:ginpei/try-agora 毎月 10,000 分無料とのこと。価格のページ

                                                                        Agoraで君だけの最強のClubhouseを作ろう
                                                                      • https://twitter.com/shuzonarita/status/1572947933712220161

                                                                          https://twitter.com/shuzonarita/status/1572947933712220161
                                                                        • YouTubeで言葉のカベが消えそう。アドビの「多言語化」技術には夢がある

                                                                          YouTubeで言葉のカベが消えそう。アドビの「多言語化」技術には夢がある2023.10.13 12:0012,096 山本勇磨 現在LAで開かれているAdobe(アドビ)のカンファレンス「Adobe MAX」を取材中なのですが、現地でとても面白い技術が発表されました。 その技術の名は「Project Dub Dub Dub」。dubは「吹き替える」という意味なのですが、AIを使って動画クリップを本人の声で、多言語に吹き替える技術なんです。 現地で行なわれたデモでは、Adobe MAXの会場にいる数千人がその凄さに歓喜。ぜひデモのようすをご覧ください。 これは半端ない…全YouTuberが海外対応できてしまう🤯 日本語の動画クリップから多言語化する「Project Dub Dub Dub」#AdobeMAX#MAXSneakspic.twitter.com/Rd6HisOHS3 — ギズ

                                                                            YouTubeで言葉のカベが消えそう。アドビの「多言語化」技術には夢がある
                                                                          • 商用可・無料の音声読み上げツール「VOICEVOX」が公開 ~素人でも手軽に満足のいく品質が得られる丁度よさが魅力【8月6日追記】/イントネーションや感情の表現もある程度可能

                                                                              商用可・無料の音声読み上げツール「VOICEVOX」が公開 ~素人でも手軽に満足のいく品質が得られる丁度よさが魅力【8月6日追記】/イントネーションや感情の表現もある程度可能
                                                                            • 顔も名前も知らなかったコンビが異例の1万DL達成!? 同人音声作品『カス嘘お姉さんASMR』の嘘じゃない誕生秘話

                                                                              こんにちは。ASMR作品を聴きまくった結果、風間くん※みたいなザコ耳になってしまったライター、シュゴウです。どちらかというと、右耳が弱いです。 ※編集部注:蛇足ですが『クレヨンしんちゃん』の風間くん ちなみにASMR(エー・エス・エム・アール。Autonomous Sensory Meridian Responseの略)とは、簡単に言うと「なんかゾワゾワする立体的な音声」のこと。 最近はASMR動画がYouTubeにたくさん投稿されていますし、同人作品販売サイト「DLsite」では、同人サークルが制作したASMR作品がいろいろと販売されています。 そんな、一部の人は日常的に聴くけど、なじみのない人は全然知らないであろうASMR作品ですが、最近ネットで猛烈に話題になったASMR作品があるのをご存じでしょうか? それがこちら、『ダウナー系お姉さんに毎日カスの嘘を流し込まれる音声』(以下、カス嘘

                                                                                顔も名前も知らなかったコンビが異例の1万DL達成!? 同人音声作品『カス嘘お姉さんASMR』の嘘じゃない誕生秘話
                                                                              • WhisperとChatGPTで文字起こし | ドクセル

                                                                                闇のエンジニア/変なデジカメ開発中/ディープラーニング芸人/Raspberry Piとからあげ大好き/はてなブログ書いてます

                                                                                  WhisperとChatGPTで文字起こし | ドクセル
                                                                                • ChatGPT can now see, hear, and speak

                                                                                  We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about. We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT w

                                                                                    ChatGPT can now see, hear, and speak