タグ

crawlerに関するAOI-CATのブックマーク (3)

  • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

    無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
  • 小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話 - Lean Baseball

    私個人の話なのですが. 最近は仕事AWSGCPのサーバレスアーキテクチャにふれる機会が増えた*1と同時に, 自分が気になる世の中のニュース(グルメとかいろいろ)だけをいい感じに集めてまとめて読みたい その中でも特に⚾, 速報とかいい感じに通知させたい という怠け者欲ライフハック欲が高まってきたので, GCP(とちょっとしたPythonスクリプト)でSlack Botを作りました. 趣味開発で雑にはじめた結果, 三日程度でできちゃった*2のでその知見をメモ代わりに残します. おしながき おしながき TL;DR 対象読者 作ったもの GCPをフル活用して実質三日でBotをローンチした Bot体の開発 GCPの何を使うかで試行錯誤 プランA「GCEを使う」 プランB「Cloud Run + Cloud Scheduler」 採用した構成「Cloud Functions + Cloud Sc

    小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話 - Lean Baseball
  • ssig33.com - クローラー運用について

    fl.ssig33.com を公開した LDR ユーザーの中で ssig33.com を読むような人達は蛮族だった 15 万フィードほどいきなりクロールすることになった という問題が発生しました。以下やった対処。 クローラの UA に連絡先を入れる これ多分一番重要 並列クロールするようにする 同じドメインは並列にクロールしない このドメインとこのドメインは並列にクロールしないみたいなブラックリストも作る ドメイン違うけど裏側は一緒っぽいみたいのをアレするため 手作業でリスト作るのもだるいので IP アドレス一緒だったドメインを全部ぶっこんだ 更新頻度が低いフィードのクロール頻度を下げた 更新頻度の 1/2 もしくは 2 週間に 1 度のうち、頻度の高い方をクロール頻度とした これで全然更新されてないやつは 2 週間に 1 度のクロールとした さらに、クロールした結果フィードが更新された場

  • 1