[B! search] tasukuchanのブックマーク

The Xapian Project

Welcome to the Xapian project website. Xapian is an Open Source Search Engine Library, released under the GPL v2+. It's written in C++, with bindings to allow use from Perl, Python 2, Python 3, PHP, Java, Tcl, C#, Ruby, Lua, Erlang, Node.js and R (so far!) Xapian is a highly adapta ble toolkit which allows developers to easily add advanced indexing and search facilities to their own applications. I

tasukuchan 2011/11/08

search

リンク

シークヮーサー - Wikipedia

シークヮーサー（和名：ヒラミレモン（平実檸檬）、学名：Citrus × depressa、台湾語：酸桔仔 sng-kiat-á ）は、ミカン科の常緑低木、柑橘類。日本語の沖縄方言で「シー」は「酢」[1]、「クヮースン」は「食わせる」の意味で[2]、「シークヮーサー」という名称は「酸食わし」「酢食わし」という意味になる[3]。果実は小粒で、酸味が強い未熟果の果汁は調味料やジュースとして利用される。特徴[編集] シークヮーサーの葉と未熟果（沖縄県竹富町西表島）シークヮーサー園（沖縄県名護市安和岳登山道）日本の琉球諸島および台湾に自生している。高さは5メートルほどで、4月に、直径3センチメートルほどの白い花を咲かせる。収穫は7月頃から。通常は、果皮が緑色の時期に青切りで収穫する。果実は皮が薄く25 - 60グラムほどで、温州ミカンを小型にしたような姿をしている。未熟果は酸味が強い

tasukuchan 2010/11/16

よく忘れるので

search

リンク

textsearch-ja: Project Home Page

形態素解析を使用した、組み込み型の日本語全文検索です。この textsearch-ja プロジェクトは PostgreSQL コミュニティによる pgFoundry の中のプロジェクトです。ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。バグレポートメーリングリストへの参加概要日本語テキストの全文検索を行います。 PostgreSQL 8.3 で追加された組み込みテキスト検索を拡張するため、英語文書の検索と同様の方法で、日本語文書を検索することができます。検索は形態素解析を利用した単語単位で行われます。形態素解析には MeCab を使用しています。利点として、GIN または GiST インデックスをベースにしているため、全文検索用のインデックスがリカバリ可能であることが挙げられます。また、既に tsea

tasukuchan 2008/02/20

ts_debug便利だねー。GINについては http://d.hatena.ne.jp/tasukuchan/20061016/1161016134

search

リンク

ニコニコのタグ検索の「精度」の話 - Myrmecoleon in Paradoxical Library. はてな新館

ニコニコ動画というか情報学系の話題なのでニコ部でなくこっちで。すでに時期を逸して今更感ただよう例の件について。精度と再現率情報検索の学術用語として「精度」と「再現率」というものがある。「精度」の定義はだいたい以下。精度　precision 情報検索システムにおいて，ある情報要求あるいは検索質問に応じて検索を行ったとき，検索された情報に含まれる適合情報の割合．どれだけノイズが少ない検索ができたかを示しており（中略）適合性に基づく評価尺度である．（後略）（図書館情報学用語辞典, p.121-122）ひらたくいえば，ある漠然とした何かを探したい要求（これを情報要求という）をもって特定の検索を行った場合に，検索結果中に要求に合致するデータ（これを適合情報という）がどれだけの割合出てきたか，を示すもの。ちなみに適合率ともいう。式で書くと以下のようになる。精度　＝　検索結果中の適合情報

tasukuchan 2007/10/25

precisionを適合率と書くか精度と書くかは悩みどころ。元動画に顕著なある“ネタ”を共有している動画の割合という評価方法だとこういう結果になるのも納得だとは思う。

search

リンク

ジャンクフードマニア: 「あなたの街のミスドショップ」で“渋谷”を検索してみると

ジャンクフードの常食は“緩やかな自殺”に他ならない。その重みに耐えうる者のみに“マニア”の資格がある。「あなたの街のミスドショップ」で“渋谷”を検索してみるとミスタードーナツから「リッチドーナツ」シリーズとやらが発売されたそうなので、食べてみたいと思って渋谷に店舗がないか調べてみることに。公園通りのショップは閉店してからずいぶん経つし、アンドナンドには置いてないだろうし。ウェブサイトに「あなたの街のミスドショップ」というページがあって、しかも「こだわり条件でさがす」の「フリーワードでさがす」には「例：渋谷など」という入力サンプルまであるので、あまり行かない東口方面にでもあるのかなと期待して、入力フォームに「渋谷」をタイプして検索ボタンをポチッ。検索結果がこれ↓。二件ありました。 …。えーと、これ二件とも「渋谷」で期待した場所と違うんですけど（笑）「代々木上原店」は確かに渋谷区な

tasukuchan 2007/09/25

あるある。

search

リンク

mixiが自社開発の検索エンジンに移行、ウェブ検索はYSTに

ミクシィは7月2日、ソーシャルネットワーキングサービス（SNS）「mixi」内の検索機能をgooから自社開発の検索エンジンに切り替えた。今回の検索エンジン移行により、mixi内における日記やコミュニティの検索機能はすべて自社開発の検索エンジンによって提供される。この検索エンジンは「文字 N-gram」をいう手法を用いたもので、従来の検索エンジンに比べて検索漏れが少ないという。mixiの日記には、辞書に掲載されていない文字が見られたり、文字がきちんと並んでいなかったりする。こういった場合に効率よく検索できる技術として文字 N-gramによる検索エンジンを導入したという。同時に、ウェブ検索のエンジンも「Yahoo! Search Techno logy」（YST）に移行した。この検索エンジンはヤフーでも採用されている。オーバーチュアは今回のYST導入を機に、mixi のコミュニティ検索、

tasukuchan 2007/07/02

mikioタンはぁはぁ

search

リンク

UTF-8文字列を圧縮されたUTF-8文字列に変換するライブラリ u-lzss - llameradaの日記

UTF-8文字列の圧縮ライブラリを作っている。いまさら圧縮ライブラリをなぜ作るのかというと、JavaScriptによる全文検索エンジンで、インデックスの圧縮を行いたいからである。検索結果に概要文を出すには、インデックスが元テキスト全てを含む必要がある。従って、インデックスサイズの肥大化を避けるには、圧縮が必要不可欠である。ところが、次の条件を満たすライブラリを見つけられなかった。圧縮後のデータがUTF-8文字列 JavaScriptで復元可能前者の条件が必要なのは、JavaScriptでバイナリが扱えない為、圧縮後のデータがUTF-8文字列である必要がある為である。後者の条件は当たり前であるが、意外に該当するライブラリは少なかった。JavaScriptによるzipの解凍ライブラリは公開されているが、ライセンスが不明であった。しょうがないので、LZSS符号をベースに、自分でライブラリを

tasukuchan 2007/02/19

圧縮後の転置インデックスのフォーマットに興味ありあり

リンク

Introduction to Information Retrieval

This is the companion website for the following book. Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008. You can order this book at CUP, at your local bookstore or on the internet. The best search term to use is the ISBN: 0521865719. The book aims to provide a modern approach to information retrieval from a co

tasukuchan 2007/01/25

リンク

情報大航海プロジェクト

現在、Ｗｅｂ上では画像・映像を含めた多種多様な情報が急速に増大し、他方では、Ｗｅｂに限らないあらゆる分野（例：医療分野、流通分野）でこれまで活用されてこなかった大量の情報が蓄積されたままとなっており、これら多種多様かつ大量の情報を有効に活用する手段へのニーズが高まっております。本プロジェクトは、このような手段のカギとなる、情報の種類に依らず大量の情報の中からユーザーが求める情報を的確に検索・解析する共通技術（「知的情報アクセス技術」）の開発を目的としております。本プロジェクトによって、あらゆる情報の活用への途が開かれ、新たな製品やサービスが創出されれば、我が国産業の競争力が向上するほか、市場規模の拡大、ユーザーの利便性向上、社会的コストの低減など、様々な波及効果が期待できると考えております。 >>・情報大航海専用サイト（外部）

tasukuchan 2006/12/27

search

リンク

グーグル八分対策センター : Centers of against for Google censorship

グーグル八分（google八分）とは、村八分になぞらえた言葉で、Googleの検索結果から特定のページが、恣意的に削除されていることをいいます。お知らせ：未踏ソフトウェア創造事業の支援を受けて開発された「グーグル八分発見システム」を配布しています。ご協力のお願い - Google八分の見つけ方 - 対策センターについて - 人材募集 - データベース ©2006 Google八分対策センターはてなブックマークに追加 | Livedoor clip | del.icio.usに追加

tasukuchan 2006/12/11

search

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

searchに関するtasukuchanのブックマーク (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス