[B! MeCab] yubessyのブックマーク

形態素解析 MeCab（１） - 数学、ときどき統計、ところによりＩＴ

与えられた任意の文に対して、意味を持つ最小単位の音素（これを形態素と言います）に分解して、音素の品詞を判別する処理を形態素解析と言います。今回は形態素解析を行うツールである MaCab の使い方についての個人的なメモです。インストール以下の記述は全て Windows の場合のものです*1。公式サイトのダウンロードの項目に "Binary package for MS-Windows" とあるので、そこから実行形式のバイナリーパッケージ（mecab-0.996.exe）を入手して下さい。インストーラー実行後、使用する文字コードを選択*2すれば、ファイルの生成が開始されます。ソースコードを使ってインストールする場合は別途、辞書ファイルをダウンロードする必要がありますが、Windows 用のバイナリーパッケージには辞書ファイルが予め付いているのでインストール直後から使用可能な状態になって

yubessy 2018/06/15

MeCab

リンク

mecabの辞書を自動コストで作成 - Qiita

そもそもmecabを入れないとダメなのでmecabを入れます。といっても私の場合はmroongaを使ってあることをしているので、mroongaのmecabを利用します。ということなので、mroongaのリポジトリを使ってください。 % sudo yum install -y http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm % sudo yum makecache % sudo yum install -y mecab mecab-ipadic mecab-devel モデルファイル辞書作成時にはある程度の語彙のコストを記録しているモデルファイルが必要です。 mecabの配布先でモデルファイルも配布しているので、それを利用します。 code.google.com テストなので、このファイルを/t

yubessy 2017/03/21

MeCab

リンク

MeCabの辞書をカスタマイズする | mwSoft

概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成（mecab-dict-index）する方法と、文章の解析結果を用意してそれを利用して学習（mecab-cost-train）する方法。 Linuxで実行。Windowsは知らない。単語追加用のCSVファイルを作成するまずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。やり方は公式サイトに載っている。今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク名詞,一般,*,

yubessy 2017/03/17

MeCab

リンク

RNNLMベースの形態素解析器 JUMAN++ をhomebrewでインストールできるようにした - once upon a time,

京大の黒橋・河原研から最近出たJUMAN++をmacOSのhomebrewでinstallできるようにしました。 JUMAN++はRNNLMというディープラーニングベースの言語モデルを使っています。こちらの記事を読んで知ったという方も多いのではないでしょうか。 qiita.com インストール方法は、現段階では後述する理由のためhomebrew-coreにはまだ入っていないので、tapを使ってください。 [2016/10/23追記] やっと本家homebrewに入ったので、tapは要らなくなりました。 [/追記] $ brew install jumanpp github github.com JUMAN++のサイト凄い JUMAN++のサイトには解析を試せるWebアプリケーションがあるのですが、それがなかなか面白いです。このリンクに対して、 http://tulip.kuee.kyo

yubessy 2016/10/16

リンク

日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ

こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推

yubessy 2016/05/12

リンク

mecab-ipadic-NEologd の効果的な使い方

mecab-ipadic-NEologd は IPA 辞書を拡張した mecab のシステム辞書新語・固有表現などを160万語以上再録 - 読み仮名・原型付きで(異表記の重複込み) 最低月2回アップデート(初旬・中旬) - Apache License 2.0 なOSSなので安心辞書はタスクに応じて使い分けると効果UP !! - 5種類のタスク向けの選択例 + 2つの前処理をご紹介 - NEologd は特徴量作成とテキストマイニングに最適

yubessy 2015/05/29

リンク

MeCabをPythonから使う注意点とか

日本語の文章をコンピュータで色々いじるときに，必ずと言っていいほどよく使うのが形態素解析器．スペースなどの明示的な区切りの無い日本語を単語に分割してくれるツールです．中でもMeCabが非常に有名で，さまざまなところで使われています． MeCabはいろいろな言語から呼び出すことができます．自然言語処理の分野ではPythonが人気のようですね．僕も使っています．しかし，MeCabをPythonから使う場合，注意する点がいくつかあります．そこにハマっている後輩を見かけたので，文章として残しておくことにします． Python2系が対象です(3系はよくわからない)．注意するのは以下の二点です． MeCabに渡す文字列はencode，戻ってきた文字列はdecodeする MeCabに渡した文字列は必ず変数に入れておく EncodeとDecode Python2系の文字列には，バイト列として

yubessy 2014/05/28

リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2012-01-27 MeCab 0.993 MeCab::Tagger::formatNode()が正しく動いていなかった問題の修正スタックの消費を抑えるため、ほとんどのローカル変数(配列)をヒープ上に退避 2012-01-14 MeCab 0.992 ソースコード中のTypoの修正 2012-01-14 MeCab 0.991 空文字列もしくは空白文字列を解析した時に解析エラーとなる問題を修正ユーザ辞書の作成に失敗する場合がある問題を修正 2011-12-24 MeCab 0.99 MeCab::Model, MeCab::Lattice クラスを追加マルチスレッド環境でのユーザビリティの向上。複数スレッドが同一

yubessy 2013/12/27

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

MeCabに関するyubessyのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス