ブックマーク / gensen.dl.itc.u-tokyo.ac.jp (1)

  • 専門用語(キーワード)自動抽出Pythonモジュールtermextract

    1.概要 termextractはテキストデータから専門用語を取り出すためのPython3モジュールです。 特徴は以下のとおりです。 複合語からなる専門用語を抽出します。用語は重要度でランキングします(重要度の低い用語も抽出しますが、ノイズとなる可能性が高くなります)。 和文・英文・中文のテキストデータ(平文)を入力にできます。和布蕪との組み合わせのみ和布蕪により解析済みの和文テキストを入力にします。 そのままコマンドラインから使えるサンプルスクリプトを用意しています。 提供する機能に自作コードを組み合わせた拡張・応用が可能です。 Linux/Windows環境のいずれでも使えます。 2.インストール pytermextractをダウンロード pytermextractを解凍し以下のコマンドを実行します。 pip install . 高精度の用語抽出を行うためには、日形態素解析器やPO

  • 1