相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。 デモ モチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日本語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。 インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら(テンプレートはこちら)です。 でも、今回はUIの話ではないのです。ものすごく地味に、全文検索
全文検索エンジン性能評価 (2006/08/19) 概要 弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」(Sedue 24やGenome Sedueで利用されているエンジンSedue コア)とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。 更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正 使用環境 ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8
i-revo お客様サポート 重要なお知らせ i-revoマイポータル終了のお知らせ(2017年3月31日) 日頃よりi-revoマイポータルをご愛顧いただき誠にありがとうございます。 このたび、当サイトは2017年3月31日付けにてサービスを終了いたしました。 併せて「プニマル」、「i-revo 占い」についてもサービスを終了いたしました。 2006年3月のサービス開始以来、 お客様および関係各社の皆様にはさまざまに、ご協力をいただきました。 ここに御礼申し上げます。 i-revoマイポータルのサービス終了につきまして、なにとぞご理解いただきたく存じます。 今後とも「i-revo」をよろしくお願い申し上げます。 全て見る
DSのスターフォックスというゲームにはまりまくりのmikioです。最近社内外で「俺ストレージサーバ」を作るのが流行っているようなので私も参戦してみました。今回はDBMのネットワーク層をほぼスクラッチで作った話をします。 Tokyo Tyrant Tokyo Tyrant(以下TT)はTokyo Cabinet(以下TC)をラップしてネットワーク越しに操作できるようにするツールです。キャビネット(内閣)を傀儡にするタイラント(僭主)ということで名付けました。ダウンロードはこちら。 TCは高性能なDBMで、マルチスレッドモデルで高い並列性を実現していますが、逆にマルチプロセスモデルだとファイルロックがかかるので並列性が低くなってしまいます。つまり、書き込みモードでデータベースにアクセスしているプロセスがいると、その間は他のプロセスがデータベースに接続しようとするとブロックされることになります。
独創的発想で活躍している若手エンジニアを探し出して紹介するこのシリーズ!今回登場するのは、日本初のSNSサービスで今や、1110万人を超えるユーザーを有する『mixi』で、膨大なコンテンツの検索システムを自社開発した研究開発グループの若手マネージャーだ。 1978年生まれ。立命館大学政策科学部を卒業後、01年に大手OA機器メーカーに入社。システムエンジニアに。独立行政法人情報処理推進機構(IPA)の2004年度第2回未踏ソフトウェア創造事業で、全文検索システム「Hyper Estraier」を開発、スーパークリエータに認定される。2006年6月、ミクシィ入社。研究開発に従事。 株式会社ミクシィ 2004年2月から日本初のSNS(ソーシャル・ネットワーキングサービス)として『mixi』を展開。「居心地の良いサイト」「身近な人や趣味・興味が同じ人との交流」をコンセプトに開発、人気を集め、今や1
2007年10月03日 08:58 プロ検索エンジンを作ろう 開発状況 予定より遅くなりましたが、プロ検索エンジンをつくろうOnlineが 最低限遊べるようになりました。 一応プレアルファ版公開ということにしたいと思います。 あなたのオリジナル検索エンジンを作成し、公開することができます。 まだ不具合や未実装機能もあると思いますが、楽しんで頂けたら嬉しいです。 アルファ版公開に向けてAPIの開発や不具合修正等を続けます。 http://tukurou.fizla.com/ タグ : HyperEstraier 検索エンジン つくろう ゲーム コメント(3)│トラックバック(0)│検索エンジン開発履歴 2007年08月17日 18:49 プロ検索エンジンをつくろうOnline 開発しています 現在私はプロ検索エンジンをつくろうOnlineというゲームを開発しています。 http://tuku
2022/4/18リリースのFileBlogタイムスタンプソリューションページはこちらです。 FileBlogはファイルサーバ全文検索・文書共有システムです。 端末を選ばず、ファイルサーバを閲覧できます。全文検索で、目的の文書がすぐ見つかります。 ファイル内容をイメージ表示で確認できます。 おかげさまで満15周年 ―ファイルサーバの悩みと向き合って FileBlogは2007年、世界で初めて「フォルダツリー」を備えたファイルサーバ専用のエンタープライズ検索システムとして生まれ、多くのお客様のご要望とお叱りを積み重ねて育ちました。 エンタープライズ向けに進化 ―高い性能と運用性 小規模から数千ユーザ・数千万文書の大規模まで、450社の導入実績に学びました … Active Directory連携 / Windows統合認証 / SAML認証 /Solr Cloud対応 / リアルタイムファイ
ミクシィは7月2日、ソーシャルネットワーキングサービス(SNS)「mixi」内の検索機能をgooから自社開発の検索エンジンに切り替えた。 今回の検索エンジン移行により、mixi内における日記やコミュニティの検索機能はすべて自社開発の検索エンジンによって提供される。 この検索エンジンは「文字 N-gram」をいう手法を用いたもので、従来の検索エンジンに比べて検索漏れが少ないという。mixiの日記には、辞書に掲載されていない文字が見られたり、文字がきちんと並んでいなかったりする。こういった場合に効率よく検索できる技術として文字 N-gramによる検索エンジンを導入したという。 同時に、ウェブ検索のエンジンも「Yahoo! Search Technology」(YST)に移行した。この検索エンジンはヤフーでも採用されている。 オーバーチュアは今回のYST導入を機に、mixi のコミュニティ検索、
_ [tDiary] tdiary-hyperestraier 一昨日の続きで、ひとまずtdiary-hyperestraierを公開しました。 Hyper Estraierのドキュメントに書いてあるように、CGIから直接データベースを更新するのは、プロセスがKILLされた時にデータベースが壊れる危険性があるし、更新時にはロックがかかって検索できなくなりますので、前から試してみたかったP2P機構を使うようにしました。 最初、私の日記だけのノードサーバを作ってうまくいったので、第二の全日記(64個)を一気に登録しようとすると、途中からエラーになりました。 たぶん、ファイルディスクリプタが枯渇してしまって、ノードマスタがおかしなことになったようです。 そこでもう一度ドキュメントを読んでみると、疑似ノードマスタなるものがあったので、(第二では)それを使うようにしました。 このあたりの切り替えは、
一日の大半をWebブラウジングに費やしているような人は、その知識がWeb上の文章が対応しているといっても過言ではない。いや、これは言い過ぎですね。 上のは言い過ぎにしろ、中途半端な知識があって「あー、それどっかのWebページでみたんだけどなー、どこだっけなー」とイライラするってのはありがち。そこで、自分の観たWebページの内容をインデクシングして、すべて検索できるようにすれば快適に違いない。より抽象的に言うと、自分の頭ん中に入りきらなかったものを溜め込んでおく、シンクのようなものがあれば便利だよなー、って感じ。 というわけで、Plagger + Subscription::BrowserHistory + HyperEstraierを使った、観たWebページ検索ツールを作ってみた。 実は、このツールを使うと、わりと危険なことが起こる可能性がある。このエントリー最後に書いた注意を読んでから試
HyperHyper EstraierEstraierのの 設計と実装設計と実装 株式会社ミクシィ 平林 幹雄 mikio@users.sourceforge.net 2006年11月6日 「オープンソースの全文検索、DBMSシステム」 講演資料 アジェンダアジェンダ • Hyper Estraierの概要 • N.M-gramインデックス • スケールアウト戦略 HyperHyper EstraierEstraierの概要の概要 HyperHyper EstraierEstraierとはとは • 読み方 – ハイパーエストレイ(ア|ヤ)(ー)? – estraier: [古仏] 迷う、はぐれる = stray • 全文検索システム – 大量の文書を対象に「フリーワード検索」ができる – 予め転置インデックスを用意することで高速に処理 • 文書規模Nに対する時間計算量 – 全体のインデク
hyperestraier-1.4.0 を使って,400万弱の文書のインデックスを作成しました. estcmd inform の結果は以下のとおりです. number of documents: 3937360 number of words: 1875628 number of keywords: 0 file size: 5161281605 inode number: 8459202 インデックスへの文書の登録(estcmd gather)は,おおよそ丸1日で終わりました.元データは自作のプログラムで生成した文書ドラフト形式(.est)です. 単語の頻度データベースの作成(estcmd words)は数時間で終わりました.生成された頻度データベースのサイズは86MBになりました. この頻度データベースを用いて,各文書にキーワードデータベースを構築する作業(estcmd extkeys
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く