タグ

全文検索に関するono_matopeのブックマーク (10)

  • 全文検索について簡単に調べたメモ - 観測所日誌

    さっくり調べる。 概要を知る 読む http://ja.wikipedia.org/wiki/全文検索 Ngram(N-gram)とは何か & 形態素解析との比較 メモ 形態素解析: 辞書品質により検索落ちも N-Gram: ノイズ: 京都 -> 東京都庁 インデックスサイズ肥大化 評価指標 recall (再現率): 検索漏れの少なさ precision (適合率): 検索ノイズの少なさ recall と precision はトレードオフ 日語縛りなら形態素解析 ? Ngram の利点は言語選ばず適用可能なこと 但し原理的に精度が形態素解析に及ばない 検索抜けを回避したい等の明確な理由により検討余地あり 日語は特殊処理を要する傾向がある 形態素解析の欠点 処理時間 辞書の分割単位と検索漏れ 辞書:マカデミアナッツ クエリ:ナッツ でノーヒット ソリューション Solr ECナビ,

    全文検索について簡単に調べたメモ - 観測所日誌
  • Ruby on Rails + MySQL で全文検索 - ドワンゴ 研究開発ブログ

    このエントリでは Ruby on RailsMySQL を使って日語の全文検索を行う方法を記述する。Ruby on Rails のバージョンは 2.0.2、MySQL のバージョンは 5.0.67、Tritonn のバージョンは 1.0.12、Hyper Estraier のバージョンは 1.4.10 を使用した。サンプルの文章データとして、あらゆる日人にとって極めて身近な著作権切れ文章である『ドグラ・マグラ』と『黒死館殺人事件』を利用した。処理のために整形したデータはエントリに添付しておく。またデータベースへアクセスするコードではマイグレーションを除きできるだけベンチマークを取るようにし、その結果はエントリの最後に記載する。 ページネーション Rails でページネーションを実現する will_paginate という plugin は ActiveRecord に標準でつ

    ono_matope
    ono_matope 2009/02/03
    へーActiveRecord、InnoDB直書きされてるんだ。
  • DBMSデフォルト組み込みの全文検索 - グニャラくんのグニャグニャ備忘録@はてな

    PostgreSQL 8.2からGINというインデックス形式が追加され、 それを用いれば全文検索インデックスが実現できます。 分かち書きを別途行う必要はありますが。 http://itpro.nikkeibp.co.jp/article/COLUMN/20060912/247864/?ST=lin-server&P=3 MySQLのデフォルトの全文検索インデックスも、 分かち書きを別途行えば日語の全文検索が実現できます。 http://pc8.2ch.net/test/read.cgi/php/1157467026/382 382 :nobodyさん :2006/10/05(木) 14:59:05 ID:??? MySQLならMeCabとかで分かち書きして、UTF-8でFULLTEXTに放り込む手もある。 んじゃ、分かち書きさえやってしまえば SennaのxxxxバインディングとかLud

    DBMSデフォルト組み込みの全文検索 - グニャラくんのグニャグニャ備忘録@はてな
  • MySQL FULLTEXT Ngram : LIKE検索より数十倍高速な、お手軽 日本語全文検索 について|blog|たたみラボ

    tatamilab.jp

    ono_matope
    ono_matope 2009/01/12
    MySQL単体で動作する手法。がんばって自前でNGramインデックスを作ってる。
  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    ono_matope
    ono_matope 2009/01/12
    N-Gram全文検索のMySQLプラグイン
  • livedoor Techブログ : Hyper Estraier で検索

    はじめまして。ライブドアの山です。 弊社は最近 CGMコンテンツに注力しています。 データがたまってくると、ユーザーが必要な情報をすばやく得られるように検索機能を実装する必要がでてきます。 各コンテンツそれぞれで検索機能を実装しているのですが、mysql から直接引いたり、Namazu や SUFARY などの検索エンジンもかなり使ったりしています。 今回は某コンテンツの検索エンジンとして使用している HyperEstraier のちょっとした導入方法をご紹介します。 HyperEstraier は平林幹雄さんが開発された検索エンジンで、次のような特徴があります。 * インデックスを使った高速な検索ができます。 * 大量の文書のインデックスを短時間で作成できます。 * N-gram方式による漏れのない検索ができます。 * 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます

  • 全文検索システム Hyper Estraier

    概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種

  • Apache Solrを使ってみた。

    Apache Solrというのは、Javaベースの検索エンジンシステムです。 「ソーラ」と呼ぶそうです。どうしても覚えられません。 Solr - Wikipedia 実はモバツイッターにも、秘かにツイッターのログ検索なる機能が追加してありまして、モバツイのエゴサーチなどをして、不具合がないかを調べていたりします。 検索エンジンはmysql + sennaを使っているのですが、自分のマシンのスペックよりも、データ量が増えてしまった状態らしく、ヒット数が多い「tinyurl」などの文字列で検索すると、めっさ遅いという状態になってしまいました。 おそらくmysqlの設定などはまだまだ余地があるんでしょう、と、いろいろ工夫しようとしたのですが、どうせならsenna以外も使えるようになりたいなぁと思って、こちらのtwitter検索で使われているSolrってのがあるというお話を聞いたので、Java久々

    ono_matope
    ono_matope 2009/01/09
    けっこう大変そう
  • i-revo お客様サポート 重要なお知らせ

    i-revo お客様サポート 重要なお知らせ i-revoマイポータル終了のお知らせ(2017年3月31日) 日頃よりi-revoマイポータルをご愛顧いただき誠にありがとうございます。 このたび、当サイトは2017年3月31日付けにてサービスを終了いたしました。 併せて「プニマル」、「i-revo 占い」についてもサービスを終了いたしました。 2006年3月のサービス開始以来、 お客様および関係各社の皆様にはさまざまに、ご協力をいただきました。 ここに御礼申し上げます。 i-revoマイポータルのサービス終了につきまして、なにとぞご理解いただきたく存じます。 今後とも「i-revo」をよろしくお願い申し上げます。 全て見る

  • HyperEstraierで個人データを検索する[まだ調べ中]

    mixiでも使われているって言う全文検索エンジンHyperEstraier。mixiの膨大な件数を処理するぐらいだから相当スケーラビリティもあるだろなーとおもいつつ、SQLだけで全文検索できちゃうMySQL+Sennaが便利なんで、そっちばっかり使ってました。 MySQL+Senna(Triton)も、PostgreSQL+Senna(Ludia)も、属性付きで検索した場合、Sennaで全文検索してから、その答えをSQLで絞り込みを行っているようで、たとえば、個人のメッセージを保存しているテーブルを検索した場合など、属性の値が多い場合には、かなり効率が悪くなる事が見えてました。 当は、メッセージみたいなものは、個人ごとにインデックスをもって処理するべきなんだろうなと思っていて、SennaでやるかHyperEstraierでやるか迷いつつ、ぐぐっていたところ、HyperEstraierがど

  • 1