[B! NLP] forhatebuidのブックマーク

MeCabでオリジナル辞書を作成する - Qiita

MeCabにデフォルトで入っていない言葉を形態素解析した時に，意図しない区切られ方になることが有ります．例えばレシピ中に出てくる「水を切る」という言葉は，「水」「を」「切る」と形態素解析されます．これは間違いではありませんが，「水を切る」という意味ではなくなってしまい，それが困る場合があります．なので，MeCabの辞書に登録されていない語句をまとめた，「オリジナル辞書」の作り方を書いていこうと思います．辞書の作成方法ここでは，MeCabのオリジナル辞書の作成方法を記載します．データは全てCSV形式（カンマ区切り）で作成します．文字コードはShift-JIS，改行コードは¥r(Linux)で作成してください．名詞名詞は，以下のように登録します．左から，登録したい名詞,ID,ID,重み,品詞,品詞の説明,*,*,*,*,登録したい名詞,カタカナ表示,カタカナ表記と並んで

forhatebuid 2018/03/18

NLP

リンク

専門用語（キーワード）自動抽出Pythonモジュールtermextract

１．概要 termextractはテキストデータから専門用語を取り出すためのPython3モジュールです。特徴は以下のとおりです。複合語からなる専門用語を抽出します。用語は重要度でランキングします（重要度の低い用語も抽出しますが、ノイズとなる可能性が高くなります）。和文・英文・中文のテキストデータ（平文）を入力にできます。和布蕪との組み合わせのみ和布蕪により解析済みの和文テキストを入力にします。そのままコマンドラインから使えるサンプルスクリプトを用意しています。提供する機能に自作コードを組み合わせた拡張・応用が可能です。 Linux/Windows環境のいずれでも使えます。２．インストール pytermextractをダウンロード pytermextractを解凍し以下のコマンドを実行します。 pip install . 高精度の用語抽出を行うためには、日本語形態素解析器やPO

forhatebuid 2018/03/07

NLP

リンク

特許公報が似ているかどうかDoc2Vecで判断 - Qiita

１．背景（理解が間違っていたらすみませんが）Doc2Vecは、文章が似ているかどうかの判断ができるんだろうな、と考えました。「判断」とは曖昧なもので、人によっても異なるものです。もし、Doc2Vecが定量的な数値として「判断」の基準を示してくれれば、これほどありがたいものはありません。こんな考えから、Doc2Vecを使ってみました。２．環境 ubuntu 16.04 python 3 ３．材料 Doc2Vecに判断してもらう材料として、次のものを用意しました。本願　　　:特開2014-223436 刊行物１　:特開2005-176862 刊行物２　:特開2006-326215 刊行物３　:特開2001-218930 ランダム１:特開2012-123654 ランダム２:特開2015-123654 これは、本願、刊行物１〜３については、特許不服審判「不服2016-15403」からの

forhatebuid 2018/03/01

NLP
Doc2Vec

リンク

MeCabをブーストさせよう - Qiita

はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。そもそもなぜ、形態素解析なんかやるの？っていう動機については、http://qiita.com/Hironsan/it ems/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1 追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/it ems/

forhatebuid 2018/02/25

NLP

リンク

AI開発 - 人工知能(AI)・機械学習研究会コミュニティ【Team AI】

forhatebuid 2018/02/25

NLP

リンク

自然言語処理による文書分類の基礎の基礎、トピックモデルを学ぶ - Qiita

自然言語においても、最近は生ビールを頼む感覚で「とりあえずディープラーニング」となることが多いです。実際ディープラーニングは高精度を記録できることが多いですが、実はその精度は基礎的なモデルでも記録できたり、あげく負けるようなこともあったりします。研究機関として名高いDeepMindの発表した論文でも、こうした事態がありました。文章を読み、理解する機能の獲得に向けて-Machine Comprehensionの研究動向-よりまた、最近はベースラインとして良く利用されているモデルでも最高精度を達成できるといった論文もありました。このように、ベースラインとして足蹴にされているモデルでも存外隅には置けないのです。今回は自然言語処理における基本的な手法の一種であるトピックモデルを取り上げてみます。これは文書分類などに使用されるモデルですが、文書分類の際に著者の存在を仮定するなど(オーサートピ

forhatebuid 2018/02/25

NLP

リンク

MeCabより高精度？RNNLMの形態素解析器JUMAN++

JUMAN++とは外国人参政権？ RNNLM 大規模語彙知識 JUMANやMeCabとの比較精度速度 MeCab JUMAN JUMAN++ JUMAN++とPythonバインディングのインストール JUMAN++の使い方コマンドライン Pythonから使用するまとめ参考日本語は、英語と違ってスペースで単語が区切られていない。だから、日本語の自然言語処理においては、まず単語の境界と品詞を推定することから始めることが多い。このテキストを単語に分割して品詞や意味を推定することを、「形態素解析」という。本記事では、その形態素解析をニューラルネットワークの一種であるRNNLM（Recurrent Neural Network Language Model）で構築された、JUMAN++を紹介する。本記事を読むと、 JUMAN++とRNNLMについて MeCabなど他の形態素解析

forhatebuid 2018/02/24

NLP

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

NLPに関するforhatebuidのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス