[B! 形態素解析] otihateten3510のブックマーク

otihateten3510 id:otihateten3510

形態素解析に関するotihateten3510のブックマーク (3)

日本語解析ツール MeCab, CaboCha の紹介工藤拓 (PDF)
otihateten3510 2017/07/28
形態素解析
リンク
日本語形態素解析の裏側を覗く！MeCab はどのように形態素解析しているか - クックパッド開発者ブログ
こんにちは、買物情報事業部の荒引 (@a_bicky) です。前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。なお、MeCab は汎用テキスト変換ツールとしても使用できますが、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。アジェンダ形態素解析とは MeCab における最適な解析結果の推
otihateten3510 2017/07/28
形態素解析
リンク
新形態素解析器JUMAN++を触ってみたけど思ったより高精度でMeCabから乗り換えようかと思った話
JUMAN++は最近黒橋・河原研究室から発表された、JUMANの後継となる形態素解析器です。これまでの形態素解析器と比べて違うのは、RNN言語モデルを用いて意味的自然さを考慮する、ニューラルネットワークを利用した形態素解析器となっている点です。速度や語彙等の課題はあるものの、解析能力自体はMeCab以上なので、導入方法と共に触ってみた所感を述べてみます。導入方法前提 OS X Yosem ite 10.10.5 VirtualBox 5.1.6 Vagrant 1.8.6 インストール vagrant boxは bento/ubuntu-16.04を使用します。推奨はCentOSですが、自分の環境ではCentOSではビルドに失敗しました。また、OSはubuntu16.04でもboxによっては上手くインストールすることができないため、bentoのboxがおすすめです。 $ vagr
otihateten3510 2016/10/13
ぉぃしかったでーーす　／　かぼちゃめかぶの一強時代ようやく終わるのか？長かったな

形態素解析
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx