odzのブックマーク - はてなブックマーク

システム制御情報学会セミナー2007の発表資料 - グニャラくんのグニャグニャ備忘録@はてな
システム制御情報学会セミナー2007にて、「鮮度と精度を重視した全文検索エンジンSenna」という題で発表させていただきました。発表の際にプロジェクターに映した資料について、システム制御情報学会のご厚意により公開の許可を得られましたので、公開させていただきます。 http://qwik.jp/senna/publication.download/senna-iscie-blog01.pdf SennaQLについての話をもうちょっとしたほうがよかったのかなぁ。。
odz 2007/11/13
senna
リンク
SennaによるN-gramインデックスで注意すべき挙動 - グニャラくんのグニャグニャ備忘録@はてな
追記:以下の文書について現在リリースされているSenna 1.0.7では、 N-gramで１文字の日本語を検索する場合は直接部分一致検索を動作させるようにしました。というわけで、以下で説明している挙動は今現在当てはまりません。１文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_probl em この問題ですが、おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、すなわち２文字を１つのトークンとみなし、インデックスへの登録を行っています。ということは、文書の末尾を除いて、すべてのトークンは２文字となり、１文字のトークンで検索をし
odz 2007/03/23
あとで

senna
リンク
Wikipediaの記事をPlainTextにしたい - グニャラくんのグニャグニャ備忘録@はてな
Wikipediaの記事検索はデモに使えるので、 MediaWikiの記事をプレインテキストにしたい場合がよくある。以下のページにパーサ一覧みたいなものがあるんだけど、どれもHTML出力が多くて… http://meta.wikimedia.org/wiki/Alternative_parsers さらに、日本語に対応しているかどうかも重要ですよね。とりあえず、自分メモからパーサをいくつかピックアップしてみた。 Perl http://search.cpan.org/~dprice/Text-MediawikiFormat-0.05/lib/Text/MediawikiFormat.pm http://search.cpan.org/~dprice/Wiki-Toolkit-Formatter-Mediawiki-0.02/lib/Wiki/Toolkit/Formatter/Med
odz 2007/03/15
commented
リンク
1