こんにちは、買物情報事業部の荒引 (@a_bicky) です。 前回、「検索結果の疑問を解消するための検索の基礎」で単語単位でインデキシングする前提で説明しましたが、今回は文などを単語単位で分割するために使う技術である形態素解析について触れます。 形態素解析器には色々ありますが、中でもメジャーと思われる MeCab の仕組みについて説明します。 MeCab の解析精度を上げるために辞書に単語を追加したことのある方もいると思いますが、動作原理を理解することで単語を追加する際に適切な生起コストを設定できるようになったり、学習の際に適切なパラメータを設定できるようになったりするはずです。 なお、MeCab は汎用テキスト変換ツールとしても使用できます が、簡単のため MeCab + IPA 辞書のデフォルト設定前提で説明します。 アジェンダ 形態素解析とは MeCab における最適な解析結果の推
kagomeを使うと、こんな感じで文章が分解され、「読み」や「品詞」が分かります。 ②文中に名詞と同じ「読み」が登場する回数を調べる kagomeで「読み」や「品詞」が分かったので、文章の中にある名詞と同じ「読み」が何回登場するか数えます。 例えば、 猫が寝転んだ という文章は ネコガネコロンダ という読みになります。 そして「猫が寝転んだ」という文の中には「猫」という名詞が含まれていますので、「ネコガネコロンダ」の中に「ネコ」が2回登場することが分かります。 ③文中に名詞と同じ「単語」が登場する回数を調べる もう②だけでダジャレ検出ができるようになった気になっていませんか? 実はこのままでは欠陥があります。 人民の人民による人民のための政治 や 靴を靴箱に入れる がダジャレ扱いされてしまいます。 こんなものダジャレとは言えません。ダジャレをなめてます。 この程度の重複で「今ダジャレ言った
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く