[B! 深層学習][音声処理] skypenguinsのブックマーク

skypenguins id:skypenguins

深層学習と音声処理に関するskypenguinsのブックマーク (1)

変換と高精細化の2段階に分けた声質変換 - Dwango Media Village(ドワンゴメディアヴィレッジ,dmv)
概要本研究では，少数のパラレルデータで学習可能な声質変換モデルと，多数のノンパラレルデータで学習可能な高品質化モデルに分けることで，必要なパラレルデータ数を抑えつつ高品質な声質変換を行う手法を提案する。 1段目のモデルでは，時間方向に1次元畳み込み層を持つ畳込みニューラルネットワーク (CNN) を用いて，時間的な依存関係を考慮しつつ，入力話者の基本周波数と低次のメルケプストラム系列を目標話者のものに変換する． 2段目のモデルでは，GANを用いて，過剰に平滑化された変換時の音響特徴を高精細化する．実験結果から，従来手法と比べ，提案手法は同程度の自然性と高い個人性を持つ声質変換が可能であることを示した．実験結果主観評価実験により，変換音声の自然性と個人性をそれぞれ比較した．自然性は音声が自然に聞こえるか，個人性は音声が目標話者らしく聞こえるかを表した指標である．
skypenguins 2021/09/14
機械学習

深層学習

音声処理

deeplearning
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx