タグ

ブックマーク / mala.hatenadiary.org (2)

  • 図書館クロール補足 - 最速転職研究会

    なんか技術的におかしなことを言っている人がいたら追記していくかも知れません。 クロール頻度が妥当かどうかの話 ウェブサーバーはマルチスレッド、マルチプロセスなどで複数のリクエストを同時に処理できるようになっているのが一般的であるため「前回のリクエストが完了してから、次のリクエストを投げる」実装になっている限りは「サーバーの性能を100%使いきって他の利用者が利用できない状態」になることは、通常起きません。 例外的なケースもあります。 ウェブサーバーがリクエスト完了後に何らかの処理を行うような実装になっていて、リクエストのペースによっては処理が溜まっていって追いつかなくなる。 ロードバランサ、リバースプロキシを使ったフロントエンド/バックエンドの構成になっているサーバーで、フロントエンドがタイムアウトと判断して早々にエラーを返したが実際はバックエンドで処理が続いている。 例えば1秒で処理が終

    図書館クロール補足 - 最速転職研究会
    minodisk
    minodisk 2010/07/14
    岡崎市立中央図書館Webサイトをクロールで逮捕の件2
  • 法と技術とクローラと私 - 最速転職研究会

    こんにちは、趣味や業務で大手ポータルサイトのサービスで稼働しているいくつかのクローラの開発とメンテナンスを行っているmalaです。 さて先日、岡崎市立中央図書館Webサイトをクロールしていた人が逮捕、勾留、実名報道されるという事件がありました。 関連URL: http://librahack.jp/ 電話してみた的な話 http://www.nantoka.com/~kei/diary/?20100622S1 http://blog.rocaz.net/2010/06/945.html http://blog.rocaz.net/2010/07/951.html この件につきまして法的なことはともかくとして技術者視点での私見を書きたいと思います。法的なことは差し置いて書きますが、それは法的なことを軽んじているわけではなく、法律の制定やら運用やらは、その法律によって影響が出る全ての人々の常識

    法と技術とクローラと私 - 最速転職研究会
    minodisk
    minodisk 2010/07/14
    岡崎市立中央図書館Webサイトクロールで逮捕の件
  • 1