列の各単語がその文書内にいくつ出現するか を表すのが BoW です。 後述の TF-IDF 計算で必要となってきます。 各ブログの BoW を計算する CountVectorizer を作成します。 from sklearn.feature_extraction.text import CountVectorizer import random vectorizer = CountVectorizer() vectorizer.fit_transform を使って全ブログの BoW を計算します。 結果(各ブログの BoW ベクトル) を BLOG[i]["bow"] に格納します。 X = vectorizer.fit_transform([BLOG[i]["wakati"] for i in BLOG.keys()]) for i, bow in enumerate(X.toarray