タグ

音声処理に関するNyohoのブックマーク (10)

  • TechCrunch

    Meta said today that its text-based social network Threads has under 100 million monthly users three months after its launch. Mark Zuckerberg noted during the company’s latest earnings call that

    TechCrunch
    Nyoho
    Nyoho 2019/04/08
    ほんまじゃこりゃ本当にリアルじゃわ
  • 深層学習を用いて特定の人物の声“だけ”抽出する、音声分離技術のしくみ

    2018年4月20日、Deep Learning Labが主催するイベント「音声・言語ナイト」が開催されました。Chainerを提供するPreferred Networksと、Azureクラウドを提供するMicrosoftによる、エンジニアコミュニティDeep Learning Lab。今回は、自然言語処理や合成音声など、音声・言語×深層学習の最新事例や知見を発表しました。プレゼンテーション「Microsoft Imagine Cupと深層学習を用いた音源分離技術について」に登場したのは、佐藤邦彦氏。深層学習を用いた、人の声や音楽などを分離し、ある特定の音声のみを抽出する技術を紹介しました。 学生コンテスト世界大会出場の経歴 佐藤邦彦氏(以下、佐藤):よろしくお願いします。「Microsoft Imagine Cupと深層学習を用いた音源分離技術について」と題して、佐藤邦彦が発表します。こ

    深層学習を用いて特定の人物の声“だけ”抽出する、音声分離技術のしくみ
  • Speech Processing for Machine Learning: Filter banks, Mel-Frequency Cepstral Coefficients (MFCCs) and What’s In-Between

    Speech processing plays an important role in any speech system whether its Automatic Speech Recognition (ASR) or speaker recognition or something else. Mel-Frequency Cepstral Coefficients (MFCCs) were very popular features for a long time; but more recently, filter banks are becoming increasingly popular. In this post, I will discuss filter banks and MFCCs and why are filter banks becoming increas

  • Python で音響信号処理:オリジナルの Python スペクトルアナライザーに入力デバイス選択の処理、ケプストラム分析の実験を追加。

    readme.md Python で音響信号処理 spectrum.py 2016-07-16 Takuya Nishimoto (@24motz) 広島版IoT縛りの勉強会! IoTLT広島 vol.2 http://iotlt.connpass.com/event/33441/ $ sudo apt-get install portaudio19-dev python-dev $ curl https://bootstrap.pypa.io/get-pip.py | sudo python $ sudo pip install pyaudio $ sudo pip install numpy Raspberry Pi 3 (Raspbian) で USB Audio Interface を接続、マイクをつなぐ python spectrum.py を実行 オーディオミキサーで入力ゲイン

    Python で音響信号処理:オリジナルの Python スペクトルアナライザーに入力デバイス選択の処理、ケプストラム分析の実験を追加。
  • 統計的声質変換 (7) GMMによる声質変換 - 人工知能に関する断創録

    統計的声質変換 (6) 声質変換モデルの学習の続き。今回が統計的声質変換シリーズの最終回です。 今回は、前回学習した声質変換モデルを使って当に声が変換できるか試してみたい。前回やったGMMの学習で における各コンポーネント の と と が学習データから推定された状態である。 と は、 のように分割できる。この学習結果は、 clb_slt.gmm clb_slt.gmm_01.npy clb_slt.gmm_02.npy clb_slt.gmm_03.npyの4つのファイルにダンプされている。 GMMによる声質変換 GMMによる声質変換は、が与えられたときのの期待値を求めることで行う。 ここで、 である。今回は導出は省いて、論文(PDF)の結果をそのまま借用しよう。 たとえば、Aさんの声をBさんの声に変換することを考える。Aさんの声から抽出したメルケプストラムパラメータ を使って上の式で変

    統計的声質変換 (7) GMMによる声質変換 - 人工知能に関する断創録
  • 統計的声質変換 (6) 声質変換モデルの学習 - 人工知能に関する断創録

    統計的声質変換 (5) scikit-learnのGMMの使い方(2015/3/22)の続き。 今回は、いよいよ声質変換モデルを混合ガウスモデル(GMM)で学習しよう!第3回目(2015/3/4)で述べたようにclbさんの声をsltさんの声に変換することを前提に進める。 今まで「声質変換モデルをGMMで学習する」と書いてきたが、参考にしていたチュートリアルを読んでも何をGMMで表すのかがいまいちピンとこなかった。そこで、元論文(PDF)を当たったところ式 (6) を見てようやく理解できた。 この式から がGMMでモデル化されていることがわかる。そして、この は、変換元話者の t フレーム目の特徴量 と変換先話者の t フレーム目の特徴量 の結合ベクトル である。今回は26次元のメルケプストラム特徴量を使うため は2人のメルケプストラム特徴量を結合した52次元ベクトルになる。つまり、学習する

    統計的声質変換 (6) 声質変換モデルの学習 - 人工知能に関する断創録
  • 統計的声質変換 (5) scikit-learnのGMMの使い方 - 人工知能に関する断創録

    統計的声質変換 (4) パラレルデータの作成(2015/3/10)の続き。 今回は、いよいよ声質変換モデルを混合ガウスモデルで学習しよう!と思ったのだけれど、その前にscikit-learnのGMMライブラリの使い方を簡単にまとめることにした。格的に使う前に簡単なデータで使い方を確認しておこうというのが趣旨。scikit-learnは最近使い始めたので使ったことがない機能がまだたくさんある。 混合ガウスモデル(GMM) GMMは、データxの生成される確率を複数のガウス分布の重み付き和で表すモデルである。 ここで、Kは使用するガウス分布の個数、はk番目のガウス分布の重み(混合係数)、は、k番目のガウス分布の平均ベクトル、は、k番目のガウス分布の共分散行列。混合係数はすべてのkについて足し合わせると1になる。 GMMの学習は、データセットXを用いて、尤度がもっとも高くなる混合係数と平均ベクト

    統計的声質変換 (5) scikit-learnのGMMの使い方 - 人工知能に関する断創録
  • 統計的声質変換 (4) パラレルデータの作成 - 人工知能に関する断創録

    統計的声質変換 (3) メルケプストラムの抽出(2015/3/4)の続き。 前回は変換元のclbさんと変換先のsltさんのメルケプストラムを一括抽出した。前回の最後の結果を見ると、二人のしゃべる速さが違うためメルケプストラムが時間方向にずれていることがわかった。たとえば、下の図は青色がclbさんのメルケプストラム系列、緑色がsltさんのメルケプストラム系列を表している。赤の矢印の場所で形状が似ているが位置がずれていることがわかる。 このずれはメルケプストラム間の変換モデルを学習するときに問題になるため時間同期を取る。この時間同期を取ったデータをパラレルデータと呼ぶ。 DTW (Dynamic Time Warping: 動的時間伸縮法) この二つの時系列データの時間同期を取るアルゴリズムにDTWというのがあるので使ってみる。DTWは、二つの時系列データがなるべく重なりあうように伸ばしたり、

    統計的声質変換 (4) パラレルデータの作成 - 人工知能に関する断創録
  • 統計的声質変換 (3) メルケプストラムの抽出 - 人工知能に関する断創録

    統計的声質変換 (2) ボイスチェンジャーを作ろう(2015/2/25)の続き。 前回は音声から抽出したメルケプストラムやピッチのパラメータを直接いじることで簡単なボイスチェンジャーを作った。今回からAさんの音声をBさんの音声に変換する規則を機械学習の手法で学習する声質変換の実験をしていきたい。今回は学習データとなる音声データをダウンロードするところとメルケプストラムを抽出するところまで。 音声データのダウンロード チュートリアルと同じようにCMU ARCTIC Databasesという公開データを使う。このデータは7名の英語話者が同じ文章を朗読した音声がついている。今回作る統計的声質変換の手法は、変換元のAさんと変換先のBさんが同じ文章を読んだ音声が必要になるのでちょうどよいデータ。英語なのが残念。日語の音声は探したけどなかった。あとで自分の声でやってみたい。 一括ダウンロードするスク

    統計的声質変換 (3) メルケプストラムの抽出 - 人工知能に関する断創録
  • 統計的声質変換 (2) ボイスチェンジャーを作ろう - 人工知能に関する断創録

    統計的声質変換 (1) ロードマップ(2015/2/11)の続き。 統計的声質変換の第二回ということでまずは統計的じゃない声質変換の枠組みで簡単なボイスチェンジャーを作ってみたい。いきなり題とずれているけれどここをしっかり理解できていないと統計的な方はまったく歯が立たないため整理しておきたい。 ソース・フィルタモデル 人間の音声は、ノドの声帯を振動させたブザー音が声道、口、唇を通過することで出てくる仕組みになっている。これを数学的にモデル化したのがソース・フィルタモデル。 http://www.kumikomi.net/archives/2010/08/ep30gose.php から引用 このモデルでは、音源にあたるブザー音を作り出し、ブザー音をディジタルフィルタに通すことで音声を作る。音源のパラメータとして声の高さを表すピッチ、声道のパラメータとしてメルケプストラムというのがよく使われ

    統計的声質変換 (2) ボイスチェンジャーを作ろう - 人工知能に関する断創録
  • 1