[B! 音声] sh19910711のブックマーク

Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 | DevelopersIO

Amazon Connect の通話データの分析結果をバッチ処理で Word 文書にする – Amazon Connect アドベントカレンダー 2022 こんにちは！森田です。この記事は「Amazon Connect アドベントカレンダー 2022」の15日目の記事となります！ Amazon Connectアドベントカレンダー2022は、クラスメソッドと株式会社ギークフィードさんでチャレンジしている企画となっており、他にもAmazon Connect関する様々な記事がありますのでぜひご参照ください！！この記事では、Amazon Connect の通話データをバッチ処理で分析しその結果を Word 文書にする方法をご紹介します。やりたいこと Amazon Connectの音声データの分析結果を AWS Lambda で Word 文書に変換し、そのファイルパスを Amazon Co

sh19910711 2024/05/02

"Amazon Connectの音声データの分析結果を AWS Lambda で Word 文書に変換 + wavファイルアップロードをトリガー / Amazon Transcribe をAPIとして呼び出す + AWSブログで紹介されていたamazon-transcribe-output-wordを利用" 2022

リンク

Kaggle音コンペで銅メダル獲得したときの手法解説 - Qiita

今年3月頃から機械学習（主にDeepLearning）とKaggleを始め、賞金のあるコンペ「Freesound Audio Tagging 2019（以下FAT2019）」に初めて挑戦しました。やるならばと金メダルを目指していましたが、結果はPrivateLB 89位で銅メダルに落ち着きました。苦労・工夫した点や、参考にした論文、記事、カーネルなども交えてここに記録したいと思います。ちなみに以下が最終提出カーネルです。定数で学習モードと推論モードを切り替えていたので、少し読みづらいですが…。なお、MixMatchなど一部の実装は実験的なもので、最終提出には使っていません。モデルAの学習カーネルモデルBの学習カーネル（A→B 転移学習）モデルBを使った推論カーネルコンペの内容 FAT2019は、環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける認識モデルを開発

sh19910711 2024/04/29

"環境音データに対して「エンジン音」や「男性の歌声」などのタグを付ける / 周波数軸に対してメルスケール、パワーに対して対数スケールで変換 / 推論時にもデータ水増しすると精度が向上することが知られ" 2019

リンク

機械学習のための音声の特徴量ざっくりメモ (Librosa ,numpy) - Qiita

Introduction この記事は基本的に自分用のメモみたいなもので、かなりあやふやな部分もあります。間違っている部分を指摘していただけると助かります。(やさしくしてね) ネット上にLibrosaの使い方、Pythonによる音声特徴量の抽出の情報が少なかったり、難しい記事ばかりだったので、かなり噛み砕いてメモするつもりでいます。基本的に機械学習に用いられている音声の特徴量について記述していきます。 (2019/8/20)勉強した分だけ載せました、ちょっとずつ更新していきます。 (2019/8/22)MFCCの分だけ更新しました。 (2019/8/23)ZCRについて書きました。紹介する特徴量 MFCC log-mel spectrum HNR ZCR 1.MFCC MFCCとの出会い音声認識に広く使われている特徴量で、だいたいの音声における機械学習の代表的な特徴量ということでだいた

sh19910711 2024/04/29

"MFCC: 人間の声道の特性(人間の声と聴覚の仕組み)をうまく反映している + 人間の低音に敏感で高音に鈍いという特徴を考慮 + この特徴量を使うと非力なマシンで機械学習をできる旨味がある" 2019

リンク

RVCのモデルを日本語向けに事前学習する - Qiita

こんにちは、nadareです。機械学習エンジニアで、普段はレコメンド・検索関連のお仕事をしています。いろんな競技プログラミングが好きです。最近はRetrieval-based-Voice-Conversion(以下RVC)という技術に関心を持ち、本家Retrieval-based-Voice-Conversion-WebUIやddPn08さん版RVC-WebUI、VC ClientにPR投げつつ勉強しています。本記事では、RVCのモデルで綺麗な日本語に変換するための学習テクニックを紹介します。 2023/05/24 追記続・RVCのモデルを日本語向けに事前学習するを公開しました。最新の内容にアップデートしたので、こちらもご参照ください。 2023/05/14 16:20追記これまではITAコーパス読み上げ音声を10~30epoch学習させたもので比較していて、その時点では事前学習

sh19910711 2024/04/27

"RVC: 日本語の発音が日本語の上手い英語話者っぽい感じであるのは、事前学習データに由来 / それぞれ英語のデータセットで学習されているため、日本語で追加学習を行うと英語訛りが出てしまいます" 2023

リンク

Twilio StudioとDialogflowで作るサーバレス自然言語による自動応答電話(IVR)システム～Kintoneでの可視化も添えて～ - ワタナベ書店

タイトル盛りすぎ。ところで「お前が神を殺したいなら、とあなたは言った」が完結しましたね。このブログを読んでる各位はもうすでにお読みでしょうが、念の為に言っておきますと、とても面白いので読みましょう。異世界転生宗教改革ものですよ。陰謀策略政治会話群像劇が好きな人絶対楽しいですよ。なお、この話が好きな方は不朽のフェーネチカも好きだと思うのでぜひ。不朽のフェーネチカ (アフタヌーンコミックス) 作者:竹良実発売日: 2018/07/06メディア: Kindle版まえがき Dialogflow とはGoogle Homeのアプリ作成で使用されている自然言語対話のプラットフォームです。ただし、Dialogflow はGoogle Homeアプリだけに使うわけではなく、APIを用いて直接自然言語対話をリクエストすることができます。よって、Google Homeアプリだけでなく、直接スピ

sh19910711 2024/04/27

"Twilioの音声認識サービスで相手の音声をテキスト化 + テキストをTwilio FunctionにてDialogflowに送信 / かかってきた電話番号と問い合わせ内容が自動で記録 / 1通話5〜10円くらい" 2018

リンク

自作データセットでWhisperをファインチューニングしたら、独自用語だらけのクラロワ実況でも使えるようになった：「データセット作成編」

とりあえず結果 40分くらいの動画で一旦文字起こししてとりあえずファインチューニングしてみた。いったん試しくらいでやったから適当だったが、その学習済みモデルで別動画の推論をした結果以下の結果になったクラロワ実況の一文正解の文章めっちゃしやすくてで迫撃にもアチャクイを当てられるでしょだもうマジで環境でゴレとかにもまあポイズンウッドだから普通に強くてエリポンも別にディガーで潰せると三銃士が来ても勝てるロイホグ系もねゴーストアチャクイゴブリンウッドだからめっちゃ強いんですよ元のWhisperでpredictした文章めっちゃしやすくてで迫撃にもあ着いを当てられるでしょだもうマジで環境で5例とかにもはポイズングッドだから普通に強くてエリポンも別にリガーで潰せると30人が来ても勝てるロイホグ系もねゴーストアチャクイゴブリングッドだからめっちゃ強いんですよ流石にゴレが5例になってたりデ

sh19910711 2024/04/17

"Whisperでも文字起こしが難しい動画を探す方が難易度が高かった / 予めwhisperに読ませておいてそれの間違っているところを修正するやり方だと非常に簡単に正解のテキストデータが作れます" 2023

リンク

Gemini API でラジオ番組の音声からの文字起こしを試す｜npaka

「Gemini API」でラジオ番組の音声からの文字起こしを試したので、まとめました。 1. Gemini 1.5 Pro の音声データ入力「Gemini 1.5 Pro」で音声データでの入力が可能になりました。サポートしているファイル形式は、次のとおりです。・MIMEタイプの制限・WAV - audio/wav ・MP3 - audio/mp3 ・AIFF - audio/aiff ・AAC - audio/aac ・OGG Vorbis - audio/ogg ・FLAC - audio/flac ・1プロンプトでの音声データの最大長は 9.5 時間。・1プロンプト内の音声ファイルの数には制限ない。・音声ファイルは16Kbpsのデータ解像度までリサンプリングされ、複数のオーディオチャネルは1チャネルに結合される。 2. ラジオ番組の音声の準備今回は、「Claude 3」と

sh19910711 2024/04/15

"Gemini 1.5 Pro: 1プロンプトでの音声データの最大長は9.5時間 + 音声ファイルの数には制限ない / 音声の準備: 「Claude 3」に台本を書いてもらう + 「VOICEVOX」に読み上げてもらう"

リンク

Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介 | さくらのナレッジ

OBS WebSocketの設定 OBSのWebSocket機能を有効にします。WebSocket機能は比較的新しい機能で、使ったことがない方も多いと思います。LAN内のコンピュータからOBSの各種プロパティを取得・変更できます。各種プログラミング言語から直接APIを呼べるので、「音声認識の結果を即時に画面に反映する」ような、頻繁に変更される値の更新に適しています。設定方法は、OBSのメニューから「ツール」-「obs-websocket設定」をクリックし、出てきたダイアログの一番上のチェックボックス「WebSocketサーバーを有効にする」をオンにします。そして「パスワードを生成する」を押します。後述のプログラムで定数として使用します。これでWebSocket機能を使用できるようになります。 Pythonのプログラムから字幕変更 PythonのプログラムからOBSにWebSocketで接

sh19910711 2023/03/11

"音声認識の字幕描画: 文の区切り、終わりがわからない / VAD (Voice Activity Detection): 人間の声の区間の始まりと終わりを検出 + ノイズや環境音は無視してくれる / Silero VADをブラウザで動くようにした、ricky0123/VADを"

リンク

coqui-ai/ttsで日本語音声合成を試す - MEMOcho-

いままで音声の生成はやってみたことがないため勉強のためにやってみたのでメモ。目的としてはどういうことを行っているのか理解したいというのと、TTSを学習させてみた場合にどの程度のコストがかかってどのくらいの音声が生成できるのかというのが気になったというのもある。 TTSの学習・推論処理をまとめたrepositoryはいくつかあるが、coqui-ai/ttsを使ってみることにした https://github.com/coqui-ai/TTS 理由としてはやってみた系の記事が上がってるので勉強にちょうどよい https://qiita.com/tset-tset-tset/it ems/7b388b0536fcc774b2ad 新しめのモデルも用意されており学習が比較的短時間でできる可能性があるちなみにcoqui-ai/ttsは、readmeに書いてあることが同じかつ開発者も同じ方なのでm

sh19910711 2022/06/17

2021 / "学習済みモデルに日本語は存在しないが、espeak-ngを用いることで日本語のテキストから発音への変換を行って学習することが可能 / 1 epochにかかる時間として、V100の場合だと2分半程度、T4なら3分半程度"

リンク

AlexaでE2Eテストを書けるようにした話 - クックパッド開発者ブログ

研究開発部の伊尾木です。研究開発部では、Alexaのスキルを公開しています（Google Assistantも公開していますよ！）。今回はAlexaスキルのテストを便利にするKuchimaneというツールを公開したので紹介したいと思います。 E2Eテストが難しい音声UIの開発はまだまだ新しい分野で知見やツールがそろっているわけではありません。特に E2E (End To End) テスト、RSpecでいうところの Feature spec に相当するようなテストを行うことがとても困難でした。 AlexaでのE2Eテスト以下のような一連の会話があったとします。あなた「クックパッドを開いて」 Alexa「クックパッドへようこそ」あなた「大根のレシピを教えて」 Alexa「大根ですね。サラダ、ナムル、スープのどのレシピがいいですか」あなた「スープ」 Alexa「大根のスープですね

sh19910711 2019/06/22

リンク

VoiceUI / VoiceUX デザインことはじめ - Qiita

はじめに長々と書いていますが、VUIのキモはたった一つと言っても過言じゃありません。エラーハンドリングです。エラーの対応ができていないと全てが台無しです。筆記とは違い、老若何女問わず毎日会話していますから、会話だけは人間誰でもプロなんです。話の通じない人と話すのは誰もが嫌がります。普通に指示して、「わかりませんでした」と、これほど失礼なことはありません。せめて、「分かんなかったけれど、こう言ってもらえればわかる」を示して挽回するのです。エラーハンドリングをして、次に何を言って欲しいかきちんと言えば大半のタスクが完了できます。あ。二つだった。 VUIとは Voice User Interface、声で操作するインターフェイスです。今ご覧になっているGraphic UIや、エンジニアの利用するCommand UI、チャットボットのConversational UIとは異なり

sh19910711 2019/01/21

“VUIのデザインは、『目隠しをして、知らない人にタスクを達成するために必要な案内をしてもらうためのデザイン』に近いと思います。”

リンク

漫画の吹き出しをリアルタイムに表示してみた

NFC (9) Arduino (13) Kinect (5) Craft (6) App (1) Windows Phone (1) Flash (4) Gainer (1) HTML5 (14) Physical Computing (5) Windows8 (4) memo (32) Award (26) Bluetooth (4) Connective Design (2) DIGITAL DIVERZ (3) DIGITAL FRAGMENTS (8) DeepLearning (2) Device (8) FirefoxOS (2) Hack (3) LINE Creators Market (1) MachineLearning (3) Mixed Reality (1) Multi Screen (1) NUI (2) Node.js (14) PerC (1) SXSW

sh19910711 2016/10/27

*tech
音声

リンク

はてなブックマーク

タグ

関連タグで絞り込む (16)

音声に関するsh19910711のブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス