システム制御情報学会セミナー2007にて、 「鮮度と精度を重視した全文検索エンジンSenna」という題で発表させていただきました。 発表の際にプロジェクターに映した資料について、 システム制御情報学会のご厚意により公開の許可を得られましたので、 公開させていただきます。 http://qwik.jp/senna/publication.download/senna-iscie-blog01.pdf SennaQLについての話をもうちょっとしたほうがよかったのかなぁ。。
追記:以下の文書について 現在リリースされているSenna 1.0.7では、 N-gramで1文字の日本語を検索する場合は 直接部分一致検索を動作させるようにしました。 というわけで、以下で説明している挙動は今現在当てはまりません。 1文字の単語について uchiuchiyamaさんのブログにあった、Sennaのクエリ書式に対する質問 http://d.hatena.ne.jp/uchiuchiyama/20070317/senna_query_problem この問題ですが、 おそらくN-gramでインデックスを作成している場合に起こっていると考えられます。 SennaのN-gramインデックスはbi-gram、 すなわち2文字を1つのトークンとみなし、 インデックスへの登録を行っています。 ということは、文書の末尾を除いて、 すべてのトークンは2文字となり、 1文字のトークンで検索をし
Wikipediaの記事検索はデモに使えるので、 MediaWikiの記事をプレインテキストにしたい場合がよくある。 以下のページにパーサ一覧みたいなものがあるんだけど、 どれもHTML出力が多くて… http://meta.wikimedia.org/wiki/Alternative_parsers さらに、日本語に対応しているかどうかも重要ですよね。 とりあえず、自分メモからパーサをいくつかピックアップしてみた。 Perl http://search.cpan.org/~dprice/Text-MediawikiFormat-0.05/lib/Text/MediawikiFormat.pm http://search.cpan.org/~dprice/Wiki-Toolkit-Formatter-Mediawiki-0.02/lib/Wiki/Toolkit/Formatter/Med
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く