タグ

crawlerに関するshimookaのブックマーク (5)

  • feedly. feed your mind.

    Feedly Fetcher Feedly Fetcher is how Feedly grabs RSS or Atom feeds when users choose to add them to their Feedly or any of the other applications built on top of the Feedly cloud. Fetcher collects and periodically refreshes these user-initiated feeds. Find answers below to some of the most commonly asked questions about how this user-controlled feed retriever works. How do I request that Feedly n

    feedly. feed your mind.
    shimooka
    shimooka 2013/07/01
    FeedlyクローラーのUser-Agent
  • クローラを作る技術と設計 (毎週のハンズオン勉強会資料)

    仕事の手離れを良くする手段としての、静的検査のあるテンプレートエンジン (YATT::Lite talk at 2014 テンプレートエンジンNight)Hiroaki KOBAYASHI

    クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
  • クローラーってキモイ?

    F / RA.SCAL @dj_failed__ librahack事件のわかりやすいまとめ:googleとかのクローラー(検索データベースを作るためにサイトにアクセスするbot)と同じようなプログラムを組んで実際に運用したら逮捕された 2010-08-23 00:19:42 鎌田敏之 @tkamada_ プログラマのに #librahack のことを話したが、「図書館側との事前協議もなく自分の都合だけで勝手にプログラムでアクセスするのは礼儀も知らない気持ち悪い人間だから、逮捕されて当然」と言われた。なお、プログラムの瑕疵については理解していて呆れるとは言っていた。 2010-08-23 14:37:46

    クローラーってキモイ?
    shimooka
    shimooka 2010/08/25
    『自分の感覚と合わない他人の習性をキモイと感じても良いんだけど、「だから逮捕されてもいい」だとか「キモイから滅んでもいい」と短絡しないのが重要』
  • スパイダリング(Spidering)の基礎

    スパイダリング(Spidering)の基礎 宮崎 真, 廣安 知之, 三木 光範 ISDL Report  No. 20050813008 2005年 9月 19日 Abstract スパイダ(spider)とは,インターネットから様々な情報を自動的に取得するプログラム のことである.スパイダを用いることによって,例えば複数のサイトにまたがって存在する情報を 組み合わせて,データ蓄積やファイル保存,独自の検索システムを構築,など様々なサービス が可能となる. 報告では,このスパイダリングについての概要および注意点を述べる. 1  はじめに 現在,Webサイトの肥沃化が進んでおり,実に30億以上ものページがWeb上に存在している. 多くの情報がオンライン化され,Webは従来に比べずっと閲覧しやすく,検索しやすく, 便利になったのである.しかしながら,この巨大なWebに対し,Webユ

  • mixi Engineers’ Blog » 新RSS Crawlerの裏側

    このブログでは初めましての長野雅広(kazeburo)です。mixi開発部・運用グループでアプリケーションの運用を担当しています。 12月12日よりmixiのRSSのCrawlerが改善され、外部ブログの反映が今までと比べ格段にはやくなっているのに気付かれた方も多いかと思います。この改善されたRSS Crawlerの裏側について書きたいと思います 以前のCrawlerについて 以前のCrawlerは cronからbrokerと呼ばれるプログラムを起動 brokerはmember DBから全件、idをincrementしながら取得し、外部ブログが設定されていればcrawlerを起動(fork) crawlerはRSSを取得しDBに格納して終了 このような設計になっていました。 この設計の問題として、member DBを全件走査するという無駄な動作と、一件一件crawlerを起動するためオーバ

    mixi Engineers’ Blog » 新RSS Crawlerの裏側
  • 1