タグ

searchに関するtasukuchanのブックマーク (10)

  • The Xapian Project

    Welcome to the Xapian project website. Xapian is an Open Source Search Engine Library, released under the GPL v2+. It's written in C++, with bindings to allow use from Perl, Python 2, Python 3, PHP, Java, Tcl, C#, Ruby, Lua, Erlang, Node.js and R (so far!) Xapian is a highly adaptable toolkit which allows developers to easily add advanced indexing and search facilities to their own applications. I

  • シークヮーサー - Wikipedia

    シークヮーサー(和名:ヒラミレモン(平実檸檬)、学名:Citrus × depressa、台湾語:酸桔仔 sng-kiat-á ) は、ミカン科の常緑低木、柑橘類。日語の沖縄方言で「シー」は「酢」[1]、「クヮースン」は「わせる」の意味で[2]、「シークヮーサー」という名称は「酸わし」「酢わし」という意味になる[3]。果実は小粒で、酸味が強い未熟果の果汁は調味料やジュースとして利用される。 特徴[編集] シークヮーサーの葉と未熟果 (沖縄県竹富町 西表島) シークヮーサー園 (沖縄県名護市 安和岳登山道) 日の琉球諸島および台湾に自生している。高さは5メートルほどで、4月に、直径3センチメートルほどの白い花を咲かせる。収穫は7月頃から。通常は、果皮が緑色の時期に青切りで収穫する。果実は皮が薄く25 - 60グラムほどで、温州ミカンを小型にしたような姿をしている。未熟果は酸味が強い

    シークヮーサー - Wikipedia
    tasukuchan
    tasukuchan 2010/11/16
    よく忘れるので
  • textsearch-ja: Project Home Page

    形態素解析を使用した、組み込み型の日語全文検索です。 この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 日語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、 英語文書の検索と同様の方法で、日語文書を検索することができます。 検索は形態素解析を利用した単語単位で行われます。 形態素解析には MeCab を使用しています。 利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。 また、既に tsea

    tasukuchan
    tasukuchan 2008/02/20
    ts_debug便利だねー。GINについては http://d.hatena.ne.jp/tasukuchan/20061016/1161016134
  • ニコニコのタグ検索の「精度」の話 - Myrmecoleon in Paradoxical Library. はてな新館

    ニコニコ動画というか情報学系の話題なのでニコ部でなくこっちで。すでに時期を逸して今更感ただよう例の件について。 精度と再現率 情報検索の学術用語として「精度」と「再現率」というものがある。 「精度」の定義はだいたい以下。 精度 precision 情報検索システムにおいて,ある情報要求あるいは検索質問に応じて検索を行ったとき,検索された情報に含まれる適合情報の割合.どれだけノイズが少ない検索ができたかを示しており(中略)適合性に基づく評価尺度である.(後略) (図書館情報学用語辞典, p.121-122) ひらたくいえば,ある漠然とした何かを探したい要求(これを情報要求という)をもって特定の検索を行った場合に,検索結果中に要求に合致するデータ(これを適合情報という)がどれだけの割合出てきたか,を示すもの。ちなみに適合率ともいう。 式で書くと以下のようになる。 精度 = 検索結果中の適合情報

    ニコニコのタグ検索の「精度」の話 - Myrmecoleon in Paradoxical Library. はてな新館
    tasukuchan
    tasukuchan 2007/10/25
    precisionを適合率と書くか精度と書くかは悩みどころ。元動画に顕著なある“ネタ”を共有している動画の割合という評価方法だとこういう結果になるのも納得だとは思う。
  • ジャンクフードマニア: 「あなたの街のミスドショップ」で“渋谷”を検索してみると

    ジャンクフードの常は“緩やかな自殺”に他ならない。その重みに耐えうる者のみに“マニア”の資格がある。 「あなたの街のミスドショップ」で“渋谷”を検索してみると ミスタードーナツから「リッチドーナツ」シリーズとやらが発売されたそうなので、べてみたいと思って渋谷に店舗がないか調べてみることに。公園通りのショップは閉店してからずいぶん経つし、アンドナンドには置いてないだろうし。 ウェブサイトに「あなたの街のミスドショップ」というページがあって、しかも「こだわり条件でさがす」の「フリーワードでさがす」には「例:渋谷 など」という入力サンプルまであるので、あまり行かない東口方面にでもあるのかなと期待して、入力フォームに「渋谷」をタイプして検索ボタンをポチッ。 検索結果がこれ↓。二件ありました。 …。えーと、これ二件とも「渋谷」で期待した場所と違うんですけど(笑) 「代々木上原店」は確かに渋谷区な

    tasukuchan
    tasukuchan 2007/09/25
    あるある。
  • mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに

    ミクシィは7月2日、ソーシャルネットワーキングサービス(SNS)「mixi」内の検索機能をgooから自社開発の検索エンジンに切り替えた。 今回の検索エンジン移行により、mixi内における日記やコミュニティの検索機能はすべて自社開発の検索エンジンによって提供される。 この検索エンジンは「文字 N-gram」をいう手法を用いたもので、従来の検索エンジンに比べて検索漏れが少ないという。mixiの日記には、辞書に掲載されていない文字が見られたり、文字がきちんと並んでいなかったりする。こういった場合に効率よく検索できる技術として文字 N-gramによる検索エンジンを導入したという。 同時に、ウェブ検索のエンジンも「Yahoo! Search Technology」(YST)に移行した。この検索エンジンはヤフーでも採用されている。 オーバーチュアは今回のYST導入を機に、mixi のコミュニティ検索、

    mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに
    tasukuchan
    tasukuchan 2007/07/02
    mikioタンはぁはぁ
  • UTF-8文字列を圧縮されたUTF-8文字列に変換するライブラリ u-lzss - llameradaの日記

    UTF-8文字列の圧縮ライブラリを作っている。いまさら圧縮ライブラリをなぜ作るのかというと、JavaScriptによる全文検索エンジンで、インデックスの圧縮を行いたいからである。検索結果に概要文を出すには、インデックスが元テキスト全てを含む必要がある。従って、インデックスサイズの肥大化を避けるには、圧縮が必要不可欠である。ところが、次の条件を満たすライブラリを見つけられなかった。 圧縮後のデータがUTF-8文字列 JavaScriptで復元可能 前者の条件が必要なのは、JavaScriptでバイナリが扱えない為、圧縮後のデータがUTF-8文字列である必要がある為である。後者の条件は当たり前であるが、意外に該当するライブラリは少なかった。JavaScriptによるzipの解凍ライブラリは公開されているが、ライセンスが不明であった。 しょうがないので、LZSS符号をベースに、自分でライブラリを

    UTF-8文字列を圧縮されたUTF-8文字列に変換するライブラリ u-lzss - llameradaの日記
    tasukuchan
    tasukuchan 2007/02/19
    圧縮後の転置インデックスのフォーマットに興味ありあり
  • Introduction to Information Retrieval

    This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

  • 情報大航海プロジェクト

    現在、Web上では画像・映像を含めた多種多様な情報が急速に増大し、他方では、Webに限らないあらゆる分野(例:医療分野、流通分野)でこれまで活用されてこなかった大量の情報が蓄積されたままとなっており、これら多種多様かつ大量の情報を有効に活用する手段へのニーズが高まっております。 プロジェクトは、このような手段のカギとなる、情報の種類に依らず大量の情報の中からユーザーが求める情報を的確に検索・解析する共通技術(「知的情報アクセス技術」)の開発を目的としております。 プロジェクトによって、あらゆる情報の活用への途が開かれ、新たな製品やサービスが創出されれば、我が国産業の競争力が向上するほか、市場規模の拡大、ユーザーの利便性向上、社会的コストの低減など、様々な波及効果が期待できると考えております。 >>・情報大航海専用サイト(外部)

  • グーグル八分対策センター : Centers of against for Google censorship

    グーグル八分(google八分)とは、村八分になぞらえた言葉で、Googleの検索結果から特定のページが、恣意的に削除されていることをいいます。お知らせ:未踏ソフトウェア創造事業の支援を受けて開発された「グーグル八分発見システム」を配布しています。 ご協力のお願い - Google八分の見つけ方 - 対策センターについて - 人材募集 - データベース ©2006 Google八分対策センター はてなブックマークに追加 | Livedoor clip | del.icio.usに追加

  • 1