タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Natural-Language-Processingとあとで読むに関するmasa8aurumのブックマーク (2)

  • ゼロからはじめるPython(82) 形態素解析で表記揺れを吸収してファイル検索しよう

    ファイル検索したのに、なかなか該当ファイルが見つからないということがある。必死に探し回ってようやく見つけると、検索キーワードの送りがなや表記の揺れが原因でファイル検索で見つからなかったということも多々ある。例えば「引き換え」で検索していたが文には「引換え」と書かれていた場合だ。今回、こうした表記揺れを吸収するために形態素解析を利用した簡単なファイル検索ツールを作ってみよう。 曖昧検索したところ - grepで見つけられなかったファイルも曖昧検索で見つけることができた 形態素解析で簡単表記揺れ吸収検索 「形態素解析」とは単語辞書を利用して、文章を最小単位の単語に区切る技術だ。多くの形態素解析を行うツールでは、単語辞書を利用して単語のヨミガナを取得する機能がついている。この機能を使う事でちょっとした表記揺れを吸収することができる。 欠点としてはテキストと単語辞書を照合していくため動作速度は遅

    ゼロからはじめるPython(82) 形態素解析で表記揺れを吸収してファイル検索しよう
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

    そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。(素晴らしい情報に感謝です!) MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • 1