モチベーション 初めまして、pyaNottyと申します。初投稿です。 最近、MeCabやらkerasやらに触れる機会があり、せっかくなので何か自然言語処理にチャレンジしたいなと思いました。自然言語処理、とくにLSTMなどを用いた文章生成なんかでは、Word2Vecによる分散表現が利用されることが多いと聞きます。今回は、LSTMモデルに食わせることができる単語の分散表現を、Word2Vecで作ってみようと思います。 ねこ並みの知能しか持ち合わせていない筆者でも、なんとかできるくらい簡単です。 Word2Vecとは 単語をベクトルに変換するためのモデルのことです。 何か文章を使ってLSTMモデルとかを訓練する場合、生の文字列をモデルに食わせることはできません。ですので、文章を何らかの数値表現に変換する必要があります。例えば、「これはペンです」という文章の場合、['これは', 'ペン', 'です