タグ

hyperestraierに関するjoker1007のブックマーク (4)

  • ウノウラボ Unoh Labs: Tips for HyperEstraier

    先月、VX Revolution VX-Rを購入して、その使い心地の良さに素直に感動しているbokkoです。 HyperEstraier HyperEstraierは平林幹雄さんが開発されている全文検索エンジンです。全文検索エンジンとして使えるのはもちろん、全文検索のためのライブラリとして使うこともできます。ウノウではHyperEstraier(以下HE)をフォト蔵の写真検索に利用しています。 今回はHEの活用や運用に関するTipsについて紹介します。 インデックスの作成 HEのインデックスを作成する方法はいくつかありますが、単にデータが空のインデックスを作るのであれば以下で十分です。 $ estcmd create idx 実際には想定されるインデックスのサイズなどに応じてオプションを追加するといったことが必要になるでしょう。ファイルやディレクトリ(内のファイル)をインデックスに追加する

  • Hyper Estraier(全文検索エンジン)で、PDFやWordなどのファイルがうまくクロールされない場合の対処 - 元RX-7乗りの適当な日々

    タイトルの件、うまくいかなかったことがあったので、色々と調べて対処してみた。 ちなみに対象のHyper Estraierのバージョンは1.4.13。 まず、Hyper Estraierでは、クローリング時にフィルタ用のプログラム(PDFHTMLに変換して解釈、など)をはさむことで、検索対象としてPDF(.odf)やワード(.doc)、エクセル(.xls)、パワーポイント(.ppt)などのファイルを扱うことが可能です。 Round 1 "estwaver crawl"コマンドで、ドキュメントが配置してあるところをクロールさせた場合に、通常のHTMLファイルは何の問題もなく処理できたんだけど、PDFやWordのファイルに対しては、fetchはするんだけど、ignoreされちゃう問題が起こった。 INFOログ的には以下のような感じ。 2009-06-26T06:52:18Z INFO [12]

    Hyper Estraier(全文検索エンジン)で、PDFやWordなどのファイルがうまくクロールされない場合の対処 - 元RX-7乗りの適当な日々
  • Ruby on Rails + MySQL で全文検索 - ドワンゴ 研究開発ブログ

    このエントリでは Ruby on RailsMySQL を使って日語の全文検索を行う方法を記述する。Ruby on Rails のバージョンは 2.0.2、MySQL のバージョンは 5.0.67、Tritonn のバージョンは 1.0.12、Hyper Estraier のバージョンは 1.4.10 を使用した。サンプルの文章データとして、あらゆる日人にとって極めて身近な著作権切れ文章である『ドグラ・マグラ』と『黒死館殺人事件』を利用した。処理のために整形したデータはエントリに添付しておく。またデータベースへアクセスするコードではマイグレーションを除きできるだけベンチマークを取るようにし、その結果はエントリの最後に記載する。 ページネーション Rails でページネーションを実現する will_paginate という plugin は ActiveRecord に標準でつ

  • PlaggerとHyperEstraierでWeb履歴を検索 - はこべにっき ♨

    一日の大半をWebブラウジングに費やしているような人は、その知識がWeb上の文章が対応しているといっても過言ではない。いや、これは言い過ぎですね。 上のは言い過ぎにしろ、中途半端な知識があって「あー、それどっかのWebページでみたんだけどなー、どこだっけなー」とイライラするってのはありがち。そこで、自分の観たWebページの内容をインデクシングして、すべて検索できるようにすれば快適に違いない。より抽象的に言うと、自分の頭ん中に入りきらなかったものを溜め込んでおく、シンクのようなものがあれば便利だよなー、って感じ。 というわけで、Plagger + Subscription::BrowserHistory + HyperEstraierを使った、観たWebページ検索ツールを作ってみた。 実は、このツールを使うと、わりと危険なことが起こる可能性がある。このエントリー最後に書いた注意を読んでから試

    PlaggerとHyperEstraierでWeb履歴を検索 - はこべにっき ♨
  • 1