タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

検索とmysqlに関するvndnのブックマーク (3)

  • mysqlで日本語全文検索に挑戦! (Nega Diary)

    もう少しでできそうなのでメモ。 しかし、一昨日から、やたらめったら肩から首にかけて痛みがあって、辛いっす。 実験環境: OS X(10.2.8) MySQL 3.23.55 PHP 4.3.4 日語全文検索を可能とするアプローチとして、 1)対象文章を外部ファイルに保存して、Namazuを使って検索 2)Chasenを使って、分かち書きして、バイナリ化して、MySQLのFull Text を使う の2通りある。 まず、1の方法は、Namazuのインストールでつまずいてしまい、インストールを解説してるサイトの通りやっても、うまく行かなかったのであきらめる。 なので、2のChasenを使う方法で試す。 Chasen は、OSX用のバイナリがあるので、コンパイルの必要はない。 OS X Chasen パッケージ化されてるので、ダブルクリックでインストール完了。 次に、コマン

  • MySQL + Namazu の原始的手法 - Ceekz Logs (Move to y.ceek.jp)

    MySQL + Namazu の原始的手法ということで、一時ファイルを書き出す方法で実装してみた。この方法だと mknmz をいじる必要がなく、とっても楽チンに実装できる。 手順は、下記のような感じ。 1. MySQL の内容を SELECT で取得 2. 一時ディレクトリに PRIMARY KEY を基にしたファイルを作る 3. mknmz で一時ディレクトリの中をインデックス化 CEEK.JP NEWS の場合だと、ファイル名の基となる PRIMARY KEY は、ページの URL となっています。一時ファイルは、普通に HTML を出力するようにしました。出力の形式は、自分でフィルターを作成してそれにあわせるのも良いのではないかと思う。 何十万というファイルを一気に書き出しているので、結構負担がかかっているんじゃないかと思う。これが原因で HDD が逝ったら嫌だなぁ。そうならないこと

  • mysqlで日本語全文検索の効果 (Nega Diary)

    DBにて、いろいろ試行錯誤しながら、日語による全文検索を実装することができた。 はたして当に効果があったのだろうか・・・と調べてみる。 全レコード数:32740 フィールド(フィールドタイプ:TEXT)には、日語による文章を入れてあり、 全体のうち、4つのレコードのに世界最大のカルデラを持った阿蘇5岳の一つ、山頂のギザギザが特徴的な根子岳です。(省略)という文章が入っている。で、全レコードから「ギザギザ」という文字で検索するとする。この4レコードを探すとする。 LIKEでやる場合、 SELECT * FROM `main` WHERE COMMENT LIKE "%ギザギザ%" レコード表示 0 - 3 (4 合計, Query took 3.1908 sec) と、3秒ちょっとかかった。(実はサーバ自体の性能もあまりよくないんだけれど) EXPLAINすると、ro

    vndn
    vndn 2006/10/12
    16進数に変換してからやるとはやい
  • 1