Word2Vecの単語ベクトルから、いい感じな文書ベクトルが作れるSCDVというのを使ってテキスト分類をしてみました。 SCDVって? 今回やること 今回使うもの 1. データの用意 Wikipediaの記事をダウンロード ツイートの用意 形態素解析 訓練データとテストデータに分ける SCDVを作る 1. Word2Vecを作る 2. 確率重み付き単語ベクトルを求める 3. SCDVを求める。 テキスト分類 結果 ソースコード scdv.py dataset.py main.py SCDVって? SCDVについて分かりやすく説明されている記事がQiitaにあるので詳細は下の記事を参照してください。 文書ベクトルをお手軽に高い精度で作れるSCDVって実際どうなのか日本語コーパスで実験した(EMNLP2017) こちらは本家のGithubです。 GitHub - dheeraj7596/SCD