タグ

機械学習と音声処理に関するrin51のブックマーク (2)

  • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

    メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
  • AI技術により超高精度な歌声合成を実現

    株式会社テクノスピーチ(所在地:名古屋市千種区、代表取締役:大浦 圭一郎、以下 テクノスピーチ)と国立大学法人名古屋工業大学 国際音声言語技術研究所(所在地:名古屋市昭和区、代表:徳田 恵一、以下 名古屋工業大学)は、このたび人間の声質・癖・歌い方をこれまでになく高精度に再現できる歌声合成技術を開発いたしました。 ​ テクノスピーチと名古屋工業大学は共同で音声合成・歌声合成技術の研究・開発に取り組んでおり、これまでに業務用カラオケ機器「JOYSOUND」や音声創作ソフトウェア「CeVIO Creative Studio」等に音声合成・歌声合成技術の導入を進めてきました。研究では、特定の歌唱者の約2時間の歌声データベースに対して、深層学習等のAI技術を適用することにより、歌唱者の声質・癖・歌い方を学習しました。合成の際は、任意の歌詞付き楽譜を入力するだけで高品質な歌声を合成することができま

  • 1