NLPに関するforhatebuidのブックマーク (7)

  • MeCabでオリジナル辞書を作成する - Qiita

    MeCabにデフォルトで入っていない言葉を形態素解析した時に,意図しない区切られ方になることが有ります. 例えばレシピ中に出てくる「水を切る」という言葉は,「水」「を」「切る」と形態素解析されます. これは間違いではありませんが,「水を切る」という意味ではなくなってしまい,それが困る場合があります. なので,MeCabの辞書に登録されていない語句をまとめた,「オリジナル辞書」の作り方を書いていこうと思います. 辞書の作成方法 ここでは,MeCabのオリジナル辞書の作成方法を記載します. データは全てCSV形式(カンマ区切り)で作成します. 文字コードはShift-JIS,改行コードは¥r(Linux)で作成してください. 名詞 名詞は,以下のように登録します. 左から, 登録したい名詞,ID,ID,重み,品詞,品詞の説明,*,*,*,*,登録したい名詞,カタカナ表示,カタカナ表記 と並んで

    MeCabでオリジナル辞書を作成する - Qiita
  • 専門用語(キーワード)自動抽出Pythonモジュールtermextract

    1.概要 termextractはテキストデータから専門用語を取り出すためのPython3モジュールです。 特徴は以下のとおりです。 複合語からなる専門用語を抽出します。用語は重要度でランキングします(重要度の低い用語も抽出しますが、ノイズとなる可能性が高くなります)。 和文・英文・中文のテキストデータ(平文)を入力にできます。和布蕪との組み合わせのみ和布蕪により解析済みの和文テキストを入力にします。 そのままコマンドラインから使えるサンプルスクリプトを用意しています。 提供する機能に自作コードを組み合わせた拡張・応用が可能です。 Linux/Windows環境のいずれでも使えます。 2.インストール pytermextractをダウンロード pytermextractを解凍し以下のコマンドを実行します。 pip install . 高精度の用語抽出を行うためには、日形態素解析器やPO

  • 特許公報が似ているかどうかDoc2Vecで判断 - Qiita

    1.背景 (理解が間違っていたらすみませんが)Doc2Vecは、文章が似ているかどうかの判断ができるんだろうな、と考えました。 「判断」とは曖昧なもので、人によっても異なるものです。 もし、Doc2Vecが定量的な数値として「判断」の基準を示してくれれば、これほどありがたいものはありません。 こんな考えから、Doc2Vecを使ってみました。 2.環境 ubuntu 16.04 python 3 3.材料 Doc2Vecに判断してもらう材料として、次のものを用意しました。 願   :特開2014-223436 刊行物1 :特開2005-176862 刊行物2 :特開2006-326215 刊行物3 :特開2001-218930 ランダム1:特開2012-123654 ランダム2:特開2015-123654 これは、願、刊行物1〜3については、特許不服審判「不服2016-15403」からの

    特許公報が似ているかどうかDoc2Vecで判断 - Qiita
  • MeCabをブーストさせよう - Qiita

    はじめに MeCabとは日語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、http://qiita.com/Hironsan/items/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/items/

    MeCabをブーストさせよう - Qiita
  • AI開発 - 人工知能(AI)・機械学習研究会コミュニティ【Team AI】

  • 自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita

    自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。 研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。 文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-より また、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。 今回は自然言語処理における基的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ

    自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita
  • MeCabより高精度?RNNLMの形態素解析器JUMAN++

    JUMAN++とは 外国人参政権? RNNLM 大規模語彙知識 JUMANやMeCabとの比較 精度 速度 MeCab JUMAN JUMAN++ JUMAN++とPythonバインディングのインストール JUMAN++の使い方 コマンドライン Pythonから使用する まとめ 参考 日語は、英語と違ってスペースで単語が区切られていない。 だから、日語の自然言語処理においては、まず単語の境界と品詞を推定することから始めることが多い。 このテキストを単語に分割して品詞や意味を推定することを、「形態素解析」という。 記事では、その形態素解析をニューラルネットワークの一種であるRNNLM(Recurrent Neural Network Language Model)で構築された、JUMAN++を紹介する。 記事を読むと、 JUMAN++とRNNLMについて MeCabなど他の形態素解析

    MeCabより高精度?RNNLMの形態素解析器JUMAN++
  • 1