タグ

言葉とRubyに関するskam666のブックマーク (1)

  • 青空文庫の作品から TF-IDF を指標として特徴となる語彙を抽出する - Qiita

    文書要約と情報抽出 だいぶ前に特徴抽出と TF-IDF について説明し、また scikit-learn で TF-IDF を計算してみました。 文書の要約を作成するためには次の 3 つの作業が必要となります。 1. 文章の内容を理解する 2. 中心的な話題を特定する 3. 簡潔にまとめる 現在の言語処理の技術では文書の内容を完全に理解したり、高品質の要約文書を作成するということは困難です。しかし要約ではなく、特徴となる語彙を抜き出して抄録を作成するということであれば、それほどではありません。抄録とは重要な情報を伝えている語句を文書から抜き出して並べたものです。 一般的には、文書中における語句の登場頻度から、その文書内での語句の重要性を計算する方法が選択されます。今回は過去の記事を参考にしながら、青空文庫にある小説作品をダウンロードして、その小説の特徴となる語彙を抽出してみます。 素材を用意

    青空文庫の作品から TF-IDF を指標として特徴となる語彙を抽出する - Qiita
    skam666
    skam666 2014/11/04
    “青空文庫にある小説作品をダウンロードして、その小説の特徴となる語彙を抽出してみます”
  • 1