タグ

検索に関するvndnのブックマーク (15)

  • 適当なページの任意の文字をハイライトさせるJavaScript::BookMarklet - 暴想

    前に作った、暴想: JavaScriptHTMLタグが含まれた文字列をハイライトする。を使えば、実現できるなぁと思いつつも、いまいち実用性が感じられなかったのでそのままにしておいたんですが、404 Blog Not Found:javascript - 任意のHTMLをインクルメンタル検索可能に!を読んで、自分も作ってみようと思ったので、作ってみた。 最初、インクリメンタル検索で作ったら、重たすぎる気がしたので、両方用意した。 非インクリメンタル検索バージョン body_search インクリメンタル検索バージョン body_search_inc SafariとFirefoxとIEで動くことを確認した。 ↓1日1ポチッとをお願いします!励みになります!

    適当なページの任意の文字をハイライトさせるJavaScript::BookMarklet - 暴想
  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • 高林哲の検索技術論

    最終更新日: 2004-10-08 (公開日: 2004-10-08) 日経バイト 2004年 1月号に掲載された記事の元の原稿です。実際の 誌面の記事は編集が加わり、もっと読みやすいものとなっています。 この記事は日経バイトの「技術の真髄」という連載向けに書きまし た。連載の内容は 「ソフトウェアの匠」 という書籍にまとめられ、記事も収録されています。 はじめに 数年前まではよく耳にしたが最近ではあまり聞かなくなった話題と いうものがある。情報の氾濫が深刻化して必要な情報を見つけ出せ なくなる云々、というのもそのひとつだ。実際に深刻化が収まって きたのか、単にニュースとして取り上げられなくなっただけなのか 不明だが、近年、インターネット上の検索技術は情報の急激な増加 に追いつくべく格段に向上している。 現在ネット検索の代名詞になっているGoogle社は、ミッションと して「世界中の情報

  • 単語の重みによるレポートの類似度計算

    ここで単語の重みを考慮した一致度を計算することで,重要な単語を含んでいるレポートの類似度をより明確に評価することができる. 2.2  重みの設定 研究では単語の重みを二つの角度から設定する.一つは研究室内で重要とされる単語を重要度という角度から重みを設定し,さらに検索エンジンにおいて検索された用語を注目度という角度から各単語の重みを評価する.この重要度と注目度によって評価された重みの平均によって最終的な単語の重みを決定する. 2.2.1  重要度の評価 研究室において,研究ごとに重要に捉えている単語を選定し重みを設定する.その方法は研究室の方針や方向性に基づいて主観的に行う. 2.2.2  注目度の評価 アクセスされた検索用語をTF-IDF法により重みの評価を行う.TF-IDF法は文書において,単語の重みを計算する手法である.TF(Term Frequency)とは,文書d おける単語

  • シソーラス(類語)検索

  • mysqlで日本語全文検索に挑戦! (Nega Diary)

    もう少しでできそうなのでメモ。 しかし、一昨日から、やたらめったら肩から首にかけて痛みがあって、辛いっす。 実験環境: OS X(10.2.8) MySQL 3.23.55 PHP 4.3.4 日語全文検索を可能とするアプローチとして、 1)対象文章を外部ファイルに保存して、Namazuを使って検索 2)Chasenを使って、分かち書きして、バイナリ化して、MySQLのFull Text を使う の2通りある。 まず、1の方法は、Namazuのインストールでつまずいてしまい、インストールを解説してるサイトの通りやっても、うまく行かなかったのであきらめる。 なので、2のChasenを使う方法で試す。 Chasen は、OSX用のバイナリがあるので、コンパイルの必要はない。 OS X Chasen パッケージ化されてるので、ダブルクリックでインストール完了。 次に、コマン

  • Register - Situs judi online dan slot online terlengkap Rtp di Indonesia

    REGISTER SITUS SLOT RESMI TERPERCAYA Register sekarang pada situs slot kami, kami merupakan situs slot judi online terpercaya dan resmi kiteya. Pada era saat ini banyak sekali situs situs slot online yang menawarkan promosi sangat menarik. Namun perlu berhati hati karena tidak semua merupakan situs judi slot resmi terpercaya. Kami merupakan agen slot resmi judi online . Segera register sekarang un

    Register - Situs judi online dan slot online terlengkap Rtp di Indonesia
  • MySQL + Namazu の原始的手法 - Ceekz Logs (Move to y.ceek.jp)

    MySQL + Namazu の原始的手法ということで、一時ファイルを書き出す方法で実装してみた。この方法だと mknmz をいじる必要がなく、とっても楽チンに実装できる。 手順は、下記のような感じ。 1. MySQL の内容を SELECT で取得 2. 一時ディレクトリに PRIMARY KEY を基にしたファイルを作る 3. mknmz で一時ディレクトリの中をインデックス化 CEEK.JP NEWS の場合だと、ファイル名の基となる PRIMARY KEY は、ページの URL となっています。一時ファイルは、普通に HTML を出力するようにしました。出力の形式は、自分でフィルターを作成してそれにあわせるのも良いのではないかと思う。 何十万というファイルを一気に書き出しているので、結構負担がかかっているんじゃないかと思う。これが原因で HDD が逝ったら嫌だなぁ。そうならないこと

  • mysqlで日本語全文検索の効果 (Nega Diary)

    DBにて、いろいろ試行錯誤しながら、日語による全文検索を実装することができた。 はたして当に効果があったのだろうか・・・と調べてみる。 全レコード数:32740 フィールド(フィールドタイプ:TEXT)には、日語による文章を入れてあり、 全体のうち、4つのレコードのに世界最大のカルデラを持った阿蘇5岳の一つ、山頂のギザギザが特徴的な根子岳です。(省略)という文章が入っている。で、全レコードから「ギザギザ」という文字で検索するとする。この4レコードを探すとする。 LIKEでやる場合、 SELECT * FROM `main` WHERE COMMENT LIKE "%ギザギザ%" レコード表示 0 - 3 (4 合計, Query took 3.1908 sec) と、3秒ちょっとかかった。(実はサーバ自体の性能もあまりよくないんだけれど) EXPLAINすると、ro

    vndn
    vndn 2006/10/12
    16進数に変換してからやるとはやい
  • searchmash

    世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。

    searchmash
  • 高木浩光@自宅の日記 - 三井住友銀行、「雨やどり」「お風呂あがり」で検索のテレビ広告で便乗フィッシングの危機(被害防止用エントリ)

    ■ 三井住友銀行、「雨やどり」「お風呂あがり」で検索のテレビ広告で便乗フィッシングの危機(被害防止用エントリ) 三井住友銀行のテレビCMで、「雨やどり」「お風呂あがり」で検索させるシーンが放映されているらしいが、現時点で、検索結果の上位に登場するサイトは「雨やどり」「お風呂あがり」のどちらも三井住友銀行の物サイトではない。「雨宿り」「あまやどり」「お風呂上り」「おふろあがり」も同様だ。 Googleで「雨やどり」で検索した1番目は、現在のところ、露骨な性描写を含む二次元児童性愛倒錯ゲーム*1のサイトになっている。2番目以下もマイナーなページばかりだ。ちょっとしたドメインのページに三井住友銀行を装った偽サイトを作成されると、それが上位に出てきかねない。そのような偽サイトによる詐欺の危険性を低減するため、この日記が先に読まれることを期待し、次のとおり書いておく。 初めて訪れたサイトが、どこか

    vndn
    vndn 2006/10/04
    エロゲの情報を得るために「雨やどり」で検索したことは内緒。
  • http://plaza.rakuten.co.jp/catfrog/diary/200610030003/

  • BLOGRANGER - goo ラボ

    gooとNTT研究所のコラボレーションによる次世代の検索システムの実験の場それがgooラボです。NTT研究所で開発された新技術を活用し、先進的なインターネットサービスの可能性を提示します。BLOGRANGER TGとは BLOGRANGER TGは、世の中のブログから作られた仮想大陸の上をマウスを使って移動することにより、仮想大陸上の場所に応じてジャンルが絞られたブログ記事を次々と閲覧することのできる新しいブログ検索サービスです。仮想大陸の画像をマウスでスクロールすれば、もう気分は探検家!ぜひあちこちを探検してあなたの興味に合ったブログ記事を見つけてくださいね。 BLOGRANGERに関する最新情報は、BLOGRANGER TGスタッフブログをご参照ください。 使い方 初期状態では、以下のような画面が表示されます。 画面上部には、キーワードによる検索を行うための入力ボックスと「探検」ボタ

  • maplog

    This domain may be for sale!

    vndn
    vndn 2006/10/02
    地域関連型ブログ検索サービス
  • 専門家は個人の責任で情報発信するな - void GraphicWizardsLair( void ); //

  • 1