ディープラーニングを使って音声データのノイズリダクションに挑戦してみることにしました。 ソツーで音声認識をやる上で、入力値となる音声データのノイズを事前に減らしておけると良いのではと思ったのと、単純に面白そうで勉強にもなるかなと思ったのが動機です。上手いこと動いてくれれば、上記以外でも使い道がありそうっていうのも魅力的です。 折角なので、Tensorflowを使ってend-to-endのモデルがトレーニング出来たら良いなと思っています。 1週間もあれば、成果を出せるかなと思ったのですが、舐めてました。end-to-endの音声のノイズ除去は調べてみると中々大変。また、取り組んでいる開発者が少ないせいか、説明してくれているウェブサイトもGithubのソースコードも少ないかったです。 というわけで、一気にやり切ることは断念し、3回か4回にわけてプロジェクトを進めることにしました。 作戦 調査