[B! 全文検索] tgkのブックマーク

全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

はじめまして。プロダクト&サービス事業部リーダーの久保です。今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。目次 Solrとは機能一覧実績/事例 Solrを使ったシステムの開発方法おすすめする方データ量/性能とハードウェアマルチコア構成様々な検索スケールアウト検索と更新 Solrを始めるための情報リスト全

tgk 2009/08/23

全文検索

リンク

Sedue Flex - あいまい検索が可能な全文検索エンジン

Sedue Flex - あいまい検索が可能な全文検索エンジン概要 Sedue Flexは最先端の文字列検索アルゴリズムを利用し、高速なあいまい検索処理を実現した検索エンジンです。ゲノム解析やノイズの含まれた入力データに対する解析で重要となる、ミスマッチを許したあいまい検索が重要となりますが、従来であればスーパーコンピュータ級の処理能力を必要としていたゲノム解析などを１台～数台の PC上で高速に処理することが可能です。特徴 Sedueに利用されている検索技術そのままでは完全マッチングを効率的に行うことのみが可能となっておりますが、Sedueの検索技術と各種配列アライメント技術を統合することにより、効率的なあいまい検索を実現することができます。これにより文字列の欠落や追加、ミスマッチありの場合でも高速検索が可能となります。Sedue Flexでは、10%～20%の誤りを許した全文検索を、

tgk 2008/12/05

全文検索

リンク

ウノウラボ Unoh Labs: Tips for HyperEstraier

先月、VX Revolution VX-Rを購入して、その使い心地の良さに素直に感動しているbokkoです。 HyperEstraier HyperEstraierは平林幹雄さんが開発されている全文検索エンジンです。全文検索エンジンとして使えるのはもちろん、全文検索のためのライブラリとして使うこともできます。ウノウではHyperEstraier(以下HE)をフォト蔵の写真検索に利用しています。今回はHEの活用や運用に関するTipsについて紹介します。インデックスの作成 HEのインデックスを作成する方法はいくつかありますが、単にデータが空のインデックスを作るのであれば以下で十分です。 $ estcmd create idx 実際には想定されるインデックスのサイズなどに応じてオプションを追加するといったことが必要になるでしょう。ファイルやディレクトリ(内のファイル)をインデックスに追加する

tgk 2008/10/11

全文検索

リンク

Hyper Estraier: a full-text search system for communities

Our team of highly trained cybersecurity professionals provides expertise in compliance, tool assessments, threat hunting, incident response and more. Critical Start is leading the way in Managed Detection and Response (MDR) services. With a unique approach that treats every security alert as equal, Critical Start's proprietary Trusted Behavior Registry allows security analysts to resolve every al

tgk 2008/09/14

全文検索

リンク

横着プログラミング第9回: sary: Suffix Array のライブラリとツール

最終更新日: 2002-12-18 (公開日: 2002-12-18) Unix Magazine 誌に 2002年1月号から 2003年2月号にかけて連載していた記事の元の原稿です。私にフローチャートだけを見せて、テーブルは見せないとしたら、私はずっと煙に巻かれたままになるだろう。逆にテーブルが見せてもらえるなら、フローチャートはたいてい必要なくなる。 -- Frederick P. Brooks Jr. *1 プログラミングにおいてはデータ構造が重要であり、正しいデータ構造を選択すればアルゴリズムは自明なものとなる、という主張がある。Rob Pike*2 の "Notes on Programming in C" *3 によると、現実的なプログラムに必要なデータ構造は次の 4つであるという。配列 (array) 連結リスト (linked list) ハッシュテーブル

tgk 2008/02/10

リンク

接尾辞配列 - Wikipedia

元の文字列があれば、接尾辞の開始位置を指定することですべての接尾辞を余すことなく得ることができる。この接尾辞を辞書順に並べたときの開始位置の配列が接尾辞配列となる。 "abracadabra"に対する接尾辞配列は、表のように、(11, 8, 1, 4, 6, 9, 2, 5, 7, 10, 3) となる。接尾辞 "a" の開始位置は11で、接尾辞 "abra" の開始位置は8だからである。 "abracadabra"に対して、12番目の接尾辞として空文字を考えることができる。しかし、これは常に先頭に配置されることになるので特に情報を持たないので、省略しても問題ない。構築法[編集] 接尾辞配列を構築する最も容易な方法は、効率的な比較ソートを利用することである。この場合、回の接尾辞の比較が必要になるが、接尾辞の比較はの時間が必要となる。従って全体的な計算時間はとなる。より精巧なアルゴリズ

tgk 2008/02/10

suffix array

全文検索

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

全文検索に関するtgkのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス