データ解析を行う上でデータの性質を知ることは欠かせません.データの性質を知ること自体が価値を持つこともありますし,正しい前処理の方法やモデルを選択する為にもデータの性質を知らなければいけません. カテゴリー型の変数なら分布や従属変数との関係などの簡単な統計量を調べるだけでも多くのことがわかります. しかし自然言語データの場合は全く同じ文章が2度現れることはまずありません.文章を単語単位に分解して考えようとしても,単語の種類が膨大なため,データ探索は一筋縄ではいきません. 自然言語データの探索法は色々ありますが,今回の記事ではその中でも - 教師ありデータと相性が良い - 間違った解釈に至りづらい - 数学的にエレガントな 探索法であるCollective Matrix Factorization (CMF)について紹介します. 要約 自然言語データは高次元なので,次元を削減することが解釈の