なんか技術的におかしなことを言っている人がいたら追記していくかも知れません。 クロール頻度が妥当かどうかの話 ウェブサーバーはマルチスレッド、マルチプロセスなどで複数のリクエストを同時に処理できるようになっているのが一般的であるため「前回のリクエストが完了してから、次のリクエストを投げる」実装になっている限りは「サーバーの性能を100%使いきって他の利用者が利用できない状態」になることは、通常起きません。 例外的なケースもあります。 ウェブサーバーがリクエスト完了後に何らかの処理を行うような実装になっていて、リクエストのペースによっては処理が溜まっていって追いつかなくなる。 ロードバランサ、リバースプロキシを使ったフロントエンド/バックエンドの構成になっているサーバーで、フロントエンドがタイムアウトと判断して早々にエラーを返したが実際はバックエンドで処理が続いている。 例えば1秒で処理が終
こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。 さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。 関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
ニューイングランドの検索エンジンマーケティング組織SEMNEは先週、Googleのウェブクローラ担当製品マネージャであるDan Crow氏のゲスト講演というすばらしい機会を得た。Danの講演は数年前に一度だけ参加したことがあるけど、そのときはあまりに秘密主義なのがショックだった。ありがたいことにGoogleは、そしてどうやらDan自身も、それからずいぶん変わったみたいだ。Danはすばらしい情報をSEMNEのグループに披露していて、Jill Whalen氏のブログ記事(Googleに迫る)のおかげで、僕らもそれを共有できる。 またDanは、多くの人が知らないようなヒントを教えてくれた。「nosnippet」タグを使うと、Googleの検索結果で自分のページのスニペットを非表示にできる。それに、「noarchive」タグを使えば、Googleに自分のページのキャッシュを表示させないようにできる
アメブロのRSSフィードが全文配信をしていないゆえ、毎日わざわざリンクをクリックして読み込みの遅いアメブロが開くのをイライラしながら待っているという人は、登録しているRSSファイルをrss20.xmlに変更すれば幸せになれる。 アメブロのRSSフィードはデフォルトで2種類用意されている。本文が部分配信されているrss.htmlというファイル(RSS1.0フォーマット)と、本文が全文配信されているrss20.xmlというファイル(RSS2.0フォーマット)。 rss.htmlはRSS1.0形式で提供されている。本文はdescription要素にタグを取り除いた形で格納されているため画像が入っておらず、文字数の制限もあるために部分配信となっている。content:encodedは使われていない。 rss20.xmlはRSS2.0形式で提供されている。本文は同じくdescrpition要素に格納
初めてのgungho twitterで遊びたい twitterを使っていて,入出力を別のアプリケーションに繋げたいって考えるようになりました.Net::Twitterを使えばアクセスできるし,POEを使えばircでもGTalkでも入出力可能です.でもNet::Twitterは中でLWP::UserAgentを使ってます.ブロックしてしまう可能性があるから,POEの中ではあんまり使いたくありません.で,POEから使えるLWP::UserAgent相当を探してみました.でもざっとみたところTwitterにアクセスするために必要なベーシック認証をサポートしているモジュールはありませんでした.訂正(Apr 16 2007)ここ間違ってます.宮川さんのブックマークで指摘されて気がつきました.例えば,POE::Component::Client::Twitter - POE chat componen
技術書あげます えろい画像だけモザイク [読書]けなす技術 CatchPhraser(きゃっちふれいざー): スニペットとしてキャッチコピーを表示するblog検索エンジン AdWords appears everywhere! Cマガジン休刊 「オープンソースの全文検索エンジンの速度性能比較」のご紹介 日経コンピュータ誌の特集「IT関連学会の憂鬱」を読んだ googleの新卒採用説明会に申し込んでみたよ [memo]OpenCVの顔認識機能を使う 自分自身をブックマーク Newzingo: tagをベースにGoogle Newsを閲覧するインタフェース Google Tip: "(ダブルクォーテーション)は閉じなくてもOK リンク見出し是非裁判の件 脅かされる本人認証
2006年10月28日22:30 カテゴリTips クローラにしかとシカトしてもらう50の方法 というわけで備忘録代わりに。 Apache: The Definitive Guide [邦訳:Apacheハンドブック] [を] Yahoo! Slurp に rel="nofollow" を無視されたYahoo! Slurp に一斉にアクセスされてサーバのロードアベレージが激ヤバ。 とりあえず、CGIスクリプトのファイル名を変更して回避。robots.txt 最も基本的なのがこれ。たつをくんがこれを知らないはずはないのだけど一応基本からということで。 robotstxt.org Robots Exclusion Standard - Wikipedia, the free encyclopedia http://www.dan.co.jp/robots.txt ちなみに最後のワイルドカードを
はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28
Live Dwango Reader (旧livedoor Reader)まとめサイト Live Dwango Reader(旧livedoor Reader)についてのWikiです。 トップページページ一覧メンバー編集 フィードのリダイレクト処理について 最終更新: staff_reader 2006年09月28日(木) 17:02:23履歴 Tweet livedoor Readerでは巡回対象のフィードを取得する際にHTTPリダイレクトの処理を行っています。 .htaccess等を使ったリダイレクトの設定が可能な場合は、livedoor Readerの購読者を移転先のブログに引き継ぐことができます。 リダイレクトの種類 代表的なものとして「301リダイレクト(恒久的な移転)」と「302リダイレクト(一時的な移転)」をサポートしています。 301 Moved Permanentlyによ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く