11月15日(月)〜11月18日(木)までの間、梅田望夫さんの代わりに高林哲さんがゲストブロガーとして登板します。 高林さんのプロフィール:産業技術総合研究所研究員。2004年 IPA未踏ソフトウェア創造事業開発者。1997年に全文検索システムNamazuを開発。以来、多数のフリーソフトウェアを開発している。趣味はバッドノウハウ。 ・高林哲のWebサイト ・いやなブログ 昨日は未踏ソフトウェア創造事業の概要を紹介した。今日は、未踏ソフトのプロジェクトとして現在私が取り組んでいるソースコード検索エンジンについて述べたい。 ソースコード検索エンジンとは ソースコード検索エンジンとは、その名の通り、ソースコードの検索エンジンである。なぜそんなものが必要かといえば、プログラムを書いていると、他の人が書いたソースコードを参考にしたいときがよくあるからだ。 プログラミングという作業は調べものの
プログラミングという作業は調べものの連続である。「ここをこうするにはどのライブラリを使えばいいのか、このライブラリのAPIはどうなっているのか」など、そういったことを調べながらコツコツとコードを書いていく。マニュアルを調べ、コードを書く。しかし、いくらマニュアルを読んでも、参考になるコードがないと理解に苦しむときがある。 (中略) このようなときは、他人のソースコードを参考にするのが手っ取り早い。 ということで、検索サイトを集めてみた。 http://www.google.com/codesearch Googleのコード検索エンジン。 対応言語が多く、驚異的なリポジトリの広さが魅力だが、 いわゆる全文検索のみでオプションが弱い。 Open Hub 対応言語が多い。 オプションもGoogle Code Searchよりも優秀。 DocJar: Search Open Source Java
2006年10月28日22:30 カテゴリTips クローラにしかとシカトしてもらう50の方法 というわけで備忘録代わりに。 Apache: The Definitive Guide [邦訳:Apacheハンドブック] [を] Yahoo! Slurp に rel="nofollow" を無視されたYahoo! Slurp に一斉にアクセスされてサーバのロードアベレージが激ヤバ。 とりあえず、CGIスクリプトのファイル名を変更して回避。robots.txt 最も基本的なのがこれ。たつをくんがこれを知らないはずはないのだけど一応基本からということで。 robotstxt.org Robots Exclusion Standard - Wikipedia, the free encyclopedia http://www.dan.co.jp/robots.txt ちなみに最後のワイルドカードを
管理人の独り言 『いろいろ』 週末なので週次レビューをやってすっきり。今週もやるぞ、と。それからブログマーケティング勉強会議のレポートなどアップしてみました。ブログに書いていただいたみなさんのレポートも秀逸。企業がブログマーケティングをしていく上でのチャレンジも浮き出てきたかな、と。参考になりますね。これからも仕掛けていこうっと。 ・ブログマーケティング勉強会議 sponsored by BRAUNのご報告 http://www.ideaxidea.com/archives/2006/09/post_140.html 今日の運動記録 今日までお休みにしよっと。体調85%まで回復。食欲ないなー。昨日も一食。今日は水しか飲んでません・・・。
作りました。 http://cpan.ma.la/ Firefox用パネル。ブックマークしてプロパティ→サイドバーに読み込む。 http://cpan.ma.la/panel.html 全モジュールのリストを改行で区切ったテキストファイルを受信してクライアントサイドで検索させています。クライアントサイドで検索させているのでサーバー負荷は全くかかりません。 仕組み省メモリ、高速に動作するように工夫してあります。 - 配列に変換せずに一つの巨大な文字列から検索 → 切り出し。 - クロージャで次の検索結果を取得する関数を保持しておいて、描画が必要になった時点で検索を実行。 -- その代わりにトータルのヒット件数がわかりません。 今の所の機能- 上下で選択、エンターでperldoc表示、マウスクリックでもperldoc表示。 - 正規表現がおかしくなければ、そのまま使えます。 -- 例えば \d
ソースコード検索の ack がよさげな件 #catalyst でちょっと話題になっていた ack をいれてみた。CPAN シェルから install App::Ack とするだけ。 基本的には grep -r | grep -v .svn | grep -v \~ に飽きてしまった人むけのソースコード検索ツールです。gonzui などとは違いインデックスはつくらないでそのままディレクトリをトラバースして検索するので、あまり大規模だと時間がかかるかもしれませんが、中規模なプロジェクトなら問題なくいけるのでは。 デフォルトで CVS, RCS, .svn, blib といったバージョン管理ディレクトリを無視、-i, -v といった grep 由来のコマンドラインや、 --perl で perl ソースコードだけ検索、となかなか気が利いています。デフォルトのカラーリングもイケテル。 grep -
Kevin Kellyが刺激的かつ長文の論考をNew York Times Magazineに寄せた。 「Scan This Book!」 http://www.nytimes.com/2006/05/14/magazine/14publishing.html このコンテンツはいまは無料で読めるが、しばらくすると有料になってしまうので、興味のある人は早く読んだほうがいい。 アマゾンやグーグルらが推進している「古今東西すべての本をスキャンしてしまうプロジェクト」の進展がもたらす今後を展望したものである。 冒頭でBrewster Kahleのこんな言葉が引用されている。 Brewster Kahle, an archivist overseeing another scanning project, says that the universal library is now within r
http://rails2u.com/esearch/ http://rails2u.com/esearch/estseek.fcgi?phrase=Reloaded&perpage=10 (サンプル) 自分が作ったウェブアプリの中じゃ、一番利用していると言っても過言ではない http://api.rails2u.com/ 。Rails のクラスやメソッドのインクリメンタル検索は便利ですが、やはり全文検索もしたくなることがあります。 というわけで高速検索が可能で利用方法もお手軽な Hyper Estraier を設置してみました。驚くほど簡単に Rails API のインデックスは作成が終わり、設置も FastCGI 版を lighttpd で動かしてみましたがすんなりと。 というわけで html などの全文検索をやってみたい人は Hyper Estraier を使ってみるといいかもしれま
japan.internet.com 併載コラム 検索エンジンで検索をしたなら、 – 左側に検索結果(キーワードに関連の高い順にロボット検索の結果) – 右側に検索連動広告(検索キーワードを購入した会社の宣伝) という並びのページが表示される。レイアウトは、Yahoo や Google、その他の検索エンジンでも似たり寄ったりだ。 以前は検索結果と広告の配置も各社バラエティに富んでいたが、Google AdWords の大成功と、Yahoo! がディレクトリ検索からロボット検索へ転換したこともあり、検索結果と広告の配置はどこも Google の配置と似たり寄ったりなものになっている。 検索結果で上位に上げる SEO を専門業者に頼むのも、クリックで課金される検索連動広告を買うのも、どちらも実施するのにコストがかかるとすれば、どちらにどれだけ費用をかけるべきなのだろうか? SEO 業者は自然な
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く