[B! 音声認識] otori334のブックマーク

otori334 id:otori334

音声認識に関するotori334のブックマーク (20)

アレクサを好きな声に変更可能へ、アマゾンが計画発表
米アマゾン・ドット・コムは２２日、音声アシスタント機能「アレクサ」について、人工知能（ＡＩ）の音声を自分の好きな声に変更できるようにする計画を明らかにした。昨年１０月撮影（２０２２年　ロイター/MIKE BLAKE）［ラスベガス　２２日　ロイター］ - 米アマゾン・ドット・コムは２２日、音声アシスタント機能「アレクサ」について、人工知能（ＡＩ）の音声を自分の好きな声に変更できるようにする計画を明らかにした。
otori334 2022/06/23
音声合成

音声認識

ガジェット
リンク
Engadget | Technology News & Reviews
Ryan Gosling and Miller/Lord’s Project Hail Mary could be the sci-fi event of 2026
otori334 2022/03/08
セキュリティ

音声合成

音声認識
リンク
Raspberry Piでインターホンの音を検知してLINEに通知する (1)インターホンの音を録音する - Qiita
住居に必ず備わっているインターホン。・聞こえづらい部屋がある・イヤホンをしていると聞こえない・外出中の来客を把握したいという課題・要望に対応すべく、Raspberry Piを使ってLINEに通知するシステムを作りました。 LINEであれば、スマホがブーブブッと振動して気づきやすいですよね。少し調べたところ、インターホンのLEDや画面の点灯で検出するものが多かったですが、自分のアパートのインターホンだと難しそうだったので、音で検知するようにしました。 FFTを使って、インターホンに対応する周波数（音の高さ）を検出します。いろんなサイトから組み合わせる形になったので、まとめます。今回は、Raspberry Piを使ってインターホンの音を録音するところまで。このデータを使って、音の検知基準を作成します。 ※準備では.wavファイルに保存していますが、運用時には保存せずに処理しま
otori334 2022/02/25
Raspberry Pi

音

自動化

音声認識
リンク
This Wearable Smart Camera Can Detect Voice Commands Without a Sound
As convenient as it to ask Siri to skip to the next track or load up songs from your favorite artist without pulling out your phone, there are times when verbally interacting with smart assistants isn’t an option. So researchers at Cornell University developed a wearable smart camera that can detect voice commands even when the user doesn’t mutter a sound.
otori334 2022/02/17
音声認識

画像処理

カメラ

光

ガジェット

自作
リンク
音声入力でメモを書けるウェブアプリを書いた、x-callbackを使ったアプリケーション連携
voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。具体的にはGoogle ChromeやSafariなど
otori334 2022/02/11
音声認識

ツール

自作
リンク
長・短期記憶 - Wikipedia
長・短期記憶（ちょう・たんききおく、英: Long short-term memory、略称: LSTM）は、深層学習（ディープラーニング）の分野において用いられる人工回帰型ニューラルネットワーク（RNN）アーキテクチャである[1]。標準的な順伝播型ニューラルネットワークとは異なり、LSTMは自身を「汎用計算機」（すなわち、チューリングマシンが計算可能なことを何でも計算できる）にするフィードバック結合を有する[2]。LSTMは（画像といった）単一のデータ点だけでなく、（音声あるいは動画といった）全データ配列を処理できる。例えば、LSTMは分割されていない、つながった手書き文字認識[3]や音声認識[4][5]といった課題に適用可能である。ブルームバーグビジネスウィーク誌は「これらの力がLSTMを、病気の予測から作曲まで全てに使われる、ほぼ間違いなく最も商業的なAIの成果としている」と書いた
otori334 2022/02/09
機械学習

アーキテクチャ

OCR

音声認識

生命科学

認知

制御
リンク
イラストで学ぶ音声認識
otori334 2022/02/02
音声認識

本

PDF

確率

言葉

分解

機械学習
リンク
n-gram - Wikipedia
Six n-grams frequently found in titles of publications about Coronavirus disease 2019 (COVID-19), as of 7 May 2020 An n-gram is a sequence of n adjacent symbols in particular order. The symbols may be n adjacent letters (including punctuation marks and blanks), syllables, or rarely whole words found in a language dataset; or adjacent phonemes extracted from a speech-recording dataset, or adjacent
otori334 2022/02/01
DNAの読み枠解析にtrigram使ってそう．未確認．

言葉

分解

確率

音声認識

高分子

生命科学

疑問
リンク
INT論文本番最終版3.PDF
otori334 2022/01/29
音声の感性情報に着目したマルチメディアコンテンツ要約技術

言葉

音声認識

認知

PDF

機械学習

動画編集

音

ツール
リンク
https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/5/notes/ja/E1-DPmatching.pdf
otori334 2022/01/29
音声認識 – DP matching

音声認識

信号処理

アルゴリズム

PDF

最適化

音
リンク
https://www.jstage.jst.go.jp/article/audiology1968/40/3/40_3_189/_pdf
otori334 2022/01/29
調音結合の語音明瞭度への影響

音声認識

音源分離

認知

PDF

音
リンク
https://www.jstage.jst.go.jp/article/jasj/37/5/37_KJ00001455046/_pdf
otori334 2022/01/29
連続音声の認識および会話音声の理解

音声認識

PDF

音
リンク
第3章音声データ入力
otori334 2022/01/28
音声認識
リンク
Mac OS (Big Sur)に音声認識エンジンJuliusをインストールしたときの記録 - 備忘録
音声認識エンジンJuliusのソースコードをgithubからダウンロード https://github.com/julius-speech/julius/releases 解凍後、configureを掛けてmakeする ./configure makeすると以下のエラーに遭遇した： src/adin/adin_mic_darwin_coreaudio.c:99:3: error: implicit declaration of function 'jlog' is invalid in C99 [-Werror,-Wimplicit-function-declaration] jlog("Stat: adin_darwin: ----- details of stream -----\n");これを回避するため、まずportaudioをbrew経由でインストールしておく。 brew ins
otori334 2022/01/28
“configure時に追加のオプションを指定”

音声認識

Mac
リンク
Juliusの独自辞書を使って音声を認識させる - Qiita
はじめに Raspberry Pi＋Juliusで音声を認識するでは、Julius公式のディクテーションキットを使用してマイクから入力した音声を認識させることができました。何回か音声認識を試した方はお気づきかもしれませんが、ディクテーションキットではかなりの確率で誤認識されます。以下、「おはよう」と話してみた結果です。 pass1_best: 奥さん。 pass1_best_wordseq: <s> 奥+名詞さん+接尾辞 </s> pass1_best_phonemeseq: silB | o k u | s a N | silE pass1_best_score: -3925.215576 ### Recognition: 2nd pass (RL heuristic best-first) STAT: 00 _default: 33457 generated, 3126 pu
otori334 2022/01/25
音声認識

言葉

Raspberry Pi

自動化
リンク
GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
otori334 2022/01/25
音声認識
リンク
日本語の音声認識はなぜ難しい？精度向上のカギは、「辞書」と「文脈」にあった
スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は？」も、音声認識なしには実現しません。最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。そもそも、音声認識はどうやって人間の声を認識しているのか？　日本語の音声認識はどこが難しいのか？　音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各
otori334 2022/01/25
音

自動化

ツール

言葉

音声認識
リンク
【超初心者向け】pythonで音声認識②「音量を図示してみよう」Beginaid
流れ前回の第1回で作成したwavを読み込んで配列操作を施していきます。音量（db）の定義は以下の通りです。 \begin{eqnarray} \rm{RMS} &=& \sqrt{\frac{1}{N}\sum_{t=0}^{N-1}x_t^2} \\ \rm{db} &=& \log_{20}\rm{RMS} \end{eqnarray} この定義にしたがって，配列の値を更新してしまいましょう。必要なライブラリのインポート import wave import numpy as np import matplotlib.pyplot as plt wavファイルの読み込みとnumpy化 wave_file = wave.open("[path-to-aiueo.wav]","rb") #Open x = wave_file.readframes(wave_file.getnframe
otori334 2021/10/23
音

信号処理

Python

音声認識
リンク
音声認識結果に基づき複数話者でテキスト音声合成する簡易音声変換アプリをPythonで書いた話 - 備忘録
はじめに PySimpleGUIの応用シリーズ。スクリプトの動作の様子は以下の通り。 wavファイルを音声認識して、複数話者で音声合成するデモ（最初はデフォルトのテキストで合成） pic.twitter.com/CYX5pw0qiX— mat (@ballforest) September 5, 2021 本記事の趣旨は今回作成したスクリプトで実現された機能や利用したライブラリ群ほか、関連情報を補足的に説明することである。はじめに作成したスクリプト動作確認環境 PySimpleGUI 音声収録・音声再生機能音声認識機能音声合成機能・話者選択機能関連事例 Seiren Voice VOICEVOX おわりに作成したスクリプトスクリプトへのURLを置く。 https://gist.github.com/tam17aki/4f11c904832ce270b0fd4e11894bb
otori334 2021/09/07
音

Python

音声認識
リンク
音声認識や音声合成に出てくる用語のまとめ - ichou1のブログ
（随時、更新します）「スペクトラム」と「スペクトログラム」の違い時間領域で標本化されたデータはチャンクに分けられ（チャンクは一般にオーバーラップさせる）、チャンク毎にフーリエ変換を施す。各チャンクの変換結果が、ある時間における全周波数成分のグラフ（スペクトラム）となるので、これを時系列に並べるとスペクトログラムが完成する。 wikiより引用（一部、加工）単語言語次元（x, y, z） spectrum 英語 2次元（周波数、信号成分の強さ） spectrogram 英語 3次元（時間、周波数、信号成分の強さ）「スペクトラム」と「スペクトル」の違い同じ意味。言語単語品詞英語 spectrum 名詞 spectral 形容詞フランス語 spectre 名詞「振幅」、「パワー」、「magnitude」、「Energy」の違いフーリエ変換で求まった「実数」と「虚数」に
otori334 2021/07/17
“各チャンクの変換結果が、ある時間における全周波数成分のグラフ（スペクトラム）となるので、これを時系列に並べるとスペクトログラムが完成する”

信号処理

音

言葉

音声認識
リンク
1