米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。昨年10月撮影(2022年 ロイター/MIKE BLAKE) [ラスベガス 22日 ロイター] - 米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。
住居に必ず備わっているインターホン。 ・聞こえづらい部屋がある ・イヤホンをしていると聞こえない ・外出中の来客を把握したい という課題・要望に対応すべく、Raspberry Piを使ってLINEに通知するシステムを作りました。 LINEであれば、スマホがブーブブッと振動して気づきやすいですよね。 少し調べたところ、インターホンのLEDや画面の点灯で検出するものが多かったですが、 自分のアパートのインターホンだと難しそうだったので、音で検知するようにしました。 FFTを使って、インターホンに対応する周波数(音の高さ)を検出します。 いろんなサイトから組み合わせる形になったので、まとめます。 今回は、Raspberry Piを使ってインターホンの音を録音するところまで。 このデータを使って、音の検知基準を作成します。 ※準備では.wavファイルに保存していますが、運用時には保存せずに処理しま
As convenient as it to ask Siri to skip to the next track or load up songs from your favorite artist without pulling out your phone, there are times when verbally interacting with smart assistants isn’t an option. So researchers at Cornell University developed a wearable smart camera that can detect voice commands even when the user doesn’t mutter a sound.
voicodという音声入力でメモを書けるシンプルなウェブアプリケーションを書きました。 音声入力でメモができるシンプルなアプリケーションを書きました。https://t.co/EHSKnNKNaL x-callbackを使ってショートカット.app 等と連携すれば、入力内容をNotionに保存したりできます。 Note: SpeechRecognitionに対応したブラウザ(ChromeやSafari)が必要 Source: https://t.co/NnzXVjlGnF pic.twitter.com/yzoA3VIzzl — azu (@azu_re) February 10, 2022 SpeechRecognitionというウェブブラウザで音声認識をするAPIを使っているので、このAPIに対応しているブラウザが必要になります。 具体的にはGoogle ChromeやSafariなど
長・短期記憶(ちょう・たんききおく、英: Long short-term memory、略称: LSTM)は、深層学習(ディープラーニング)の分野において用いられる人工回帰型ニューラルネットワーク(RNN)アーキテクチャである[1]。標準的な順伝播型ニューラルネットワークとは異なり、LSTMは自身を「汎用計算機」(すなわち、チューリングマシンが計算可能なことを何でも計算できる)にするフィードバック結合を有する[2]。LSTMは(画像といった)単一のデータ点だけでなく、(音声あるいは動画といった)全データ配列を処理できる。例えば、LSTMは分割されていない、つながった手書き文字認識[3]や音声認識[4][5]といった課題に適用可能である。ブルームバーグ ビジネスウィーク誌は「これらの力がLSTMを、病気の予測から作曲まで全てに使われる、ほぼ間違いなく最も商業的なAIの成果としている」と書いた
Six n-grams frequently found in titles of publications about Coronavirus disease 2019 (COVID-19), as of 7 May 2020 An n-gram is a sequence of n adjacent symbols in particular order. The symbols may be n adjacent letters (including punctuation marks and blanks), syllables, or rarely whole words found in a language dataset; or adjacent phonemes extracted from a speech-recording dataset, or adjacent
音声認識エンジンJuliusのソースコードをgithubからダウンロード https://github.com/julius-speech/julius/releases 解凍後、configureを掛けてmakeする ./configure makeすると以下のエラーに遭遇した: src/adin/adin_mic_darwin_coreaudio.c:99:3: error: implicit declaration of function 'jlog' is invalid in C99 [-Werror,-Wimplicit-function-declaration] jlog("Stat: adin_darwin: ----- details of stream -----\n");これを回避するため、まずportaudioをbrew経由でインストールしておく。 brew ins
はじめに Raspberry Pi+Juliusで音声を認識するでは、Julius公式のディクテーションキットを使用してマイクから入力した音声を認識させることができました。 何回か音声認識を試した方はお気づきかもしれませんが、ディクテーションキットではかなりの確率で誤認識されます。 以下、「おはよう」と話してみた結果です。 pass1_best: 奥 さん 。 pass1_best_wordseq: <s> 奥+名詞 さん+接尾辞 </s> pass1_best_phonemeseq: silB | o k u | s a N | silE pass1_best_score: -3925.215576 ### Recognition: 2nd pass (RL heuristic best-first) STAT: 00 _default: 33457 generated, 3126 pu
スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は?」も、音声認識なしには実現しません。 最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。 そもそも、音声認識はどうやって人間の声を認識しているのか? 日本語の音声認識はどこが難しいのか? 音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。 株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各
流れ 前回の第1回で作成したwavを読み込んで配列操作を施していきます。音量(db)の定義は以下の通りです。 \begin{eqnarray} \rm{RMS} &=& \sqrt{\frac{1}{N}\sum_{t=0}^{N-1}x_t^2} \\ \rm{db} &=& \log_{20}\rm{RMS} \end{eqnarray} この定義にしたがって,配列の値を更新してしまいましょう。 必要なライブラリのインポート import wave import numpy as np import matplotlib.pyplot as plt wavファイルの読み込みとnumpy化 wave_file = wave.open("[path-to-aiueo.wav]","rb") #Open x = wave_file.readframes(wave_file.getnframe
はじめに PySimpleGUIの応用シリーズ。スクリプトの動作の様子は以下の通り。 wavファイルを音声認識して、複数話者で音声合成するデモ(最初はデフォルトのテキストで合成) pic.twitter.com/CYX5pw0qiX— mat (@ballforest) September 5, 2021 本記事の趣旨は今回作成したスクリプトで実現された機能や利用したライブラリ群ほか、関連情報を補足的に説明することである。 はじめに 作成したスクリプト 動作確認環境 PySimpleGUI 音声収録・音声再生機能 音声認識機能 音声合成機能・話者選択機能 関連事例 Seiren Voice VOICEVOX おわりに 作成したスクリプト スクリプトへのURLを置く。 https://gist.github.com/tam17aki/4f11c904832ce270b0fd4e11894bb
(随時、更新します) 「スペクトラム」と「スペクトログラム」の違い 時間領域で標本化されたデータはチャンクに分けられ(チャンクは一般にオーバーラップさせる)、チャンク毎にフーリエ変換を施す。 各チャンクの変換結果が、ある時間における全周波数成分のグラフ(スペクトラム)となるので、これを時系列に並べるとスペクトログラムが完成する。 wikiより引用(一部、加工) 単語 言語 次元(x, y, z) spectrum 英語 2次元(周波数、信号成分の強さ) spectrogram 英語 3次元(時間、周波数、信号成分の強さ) 「スペクトラム」と「スペクトル」の違い 同じ意味。 言語 単語 品詞 英語 spectrum 名詞 spectral 形容詞 フランス語 spectre 名詞 「振幅」、「パワー」、「magnitude」、「Energy」の違い フーリエ変換で求まった「実数」と「虚数」に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く