MMVCというリアルタイムボイスチェンジャーの実験をしてみたので記録を放流する。個人的にボイチェンの進化にはすごく興味がある。今後、AIの進化によってディープフェイクが溢れるのは間違いないと思うが、音声変換は一つの重要なモーダルを担っている認識だ。ひと昔前のボイチェンはピッチとフォルマントをうまく変換するだけという印象だった(VT-4など)が、最近はなんとニューラルネットベースのボイチェンもほぼほぼリアルタイムで動くようになってきたらしい。 MMVCはIsletennos (https://twitter.com/IsleTennos) さんという方を中心に開発が進んでいるOSSのボイチェンで、ほぼリアルタイムで動かせる。モデルの学習は必要だが、変換元の音声と変換先のターゲットの音声を十分に集めれば声質を変換できる(v1.5からは読み上げ音声に対応するテキストデータすらいらなくなる、すごい