タグ

全文検索に関するatsuizoのブックマーク (4)

  • PostgreSQL 9.xにおける日本語全文検索について調べてみた - longkey1's blog

    調べた経緯 データベースの内容を全文検索したいという要望は定期的にあるので、常に情報は探しているんだけど、PostgreSQLに関しては調べたことなかったので色々調べてみた。 Senna Senna 組み込み型全文検索エンジン - Senna 組み込み型全文検索エンジン これがスタンダードだった時期もあるんだろうけど、結局PostgreSQL9.x系にインストール出来なかった。 textsearch_sennaを使って動かそうとしたんだけど、そもそも公式サイトで配布されている圧縮ファイルをダウンロードしても、ちゃんとインストール出来ない。 CVSでソースコードをダウンロードして・・・という手順だと動くとMLに書かれていたので、チャレンジしてみたけど結局ダウンロード出来なかった。 ダウンロード出来たとしても、Senna体が2010年からリリースされてないみたいだから、はっきりいって今更感が

  • 全文検索機能をつけたいWebサービスで必ず考慮したい1冊「Apache Solr入門」

    100万件以上の規模をデータを扱うWebサービスで、低コストで全文検索エンジンをサイトに組み込みたいと思った時に多く使われているのが、 1.MySQL + Senna 2.Apache Solr 3.Hyper Estraier 他にもあるかもしれませんが、この辺の選択肢なのかと思います。 どれも様々なところでの採用実績があるかと思いますが、今回は、日でも大規模なデータ量を活用する情報サイトでも活用されている(ことを僕が知っている)、Apache Solrのをいただいたので紹介してみたいと思います。 Apache SolorはオープンソースでPureJavaで作られている全文検索エンジンです。 サーブレットコンテナ上で動作し、Webサーバなどのクライアントからは、HTTPでリクエスト、レスポンスを処理します。 上記3種類の検索エンジンの違いとしては、Hyper Estraierは使った

    atsuizo
    atsuizo 2010/03/15
    読んでおきたい。
  • カラオケの全文検索を有志で作る方法 - プログラマーの脳みそ

    タケルンバ卿がカラオケの検索性の弱さを嘆いていた。 システム屋の自分はこういうとき、どんな顔すればいいのかわからないの風なシステムを作ることができるだろうかということを考えるのが職業病、というかもはや不治の病なのだけど、その病状をここに記しておこう。 データベースを作る 曲名、歌手名を登録したデータベースを設計するのは容易い。今風のシステムにするために曲にタグを付けれるように設計することもできることだろう。ボーカロイドタグとか東方タグとかあったら便利なんじゃないか。 歌詞も登録できるようにすることも容易い。たとえ10万件あったとしても、歌詞が400字程度だとすれば、UTF-8で格納*1しても1件1600byte、たったの160MByteですむ。今時のサーバなら余裕で全データをメモリ上にキャッシュできるレベル。*2 ただし、歌詞に特定の言葉を含むものを探そうとして、SQL*3でのLIKE検索

    カラオケの全文検索を有志で作る方法 - プログラマーの脳みそ
    atsuizo
    atsuizo 2009/05/27
    かつて大手企業の人事情報検索用に全文検索エンジンを突っ込んだことあるよ。データさえあれば作る方はそんなに難しくない。カラオケの場合、ネックはまさに記事にあるとおり。
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    atsuizo
    atsuizo 2008/08/04
    Luceneに顔つけたやつ。お手軽そうだ。Solrと何が違うか解らん。情報充実望む。
  • 1