タグ

Perlとクローラに関するpmakinoのブックマーク (4)

  • ピヨピヨ ZeroMemory( ) » Blog Archive » クローラフレームワークXangoをsolarisで動かす

    POEを利用していて高速だというXango(1.08)を試してみました。環境はいつもの solaris x86 でこんなかんじ。 % uname -a SunOS dokodemo 5.10 Generic_118844-26 i86pc i386 i86pc Solaris まずXangoをインストールする前にPOEをインストールします。 依存パッケージのインストール途中 POE::Component::Client::HTTP の POE-0.3601/tests/30_loops/00_base/wheel_run.pm あたりでテストがこけてなんともならないので cpan> force install POE::Component::Client::HTTP で入れました。 Xango自体は確か問題なくインストールできた気がします。 Xangoについては YappoLogs:

  • YappoLogs: POEとAtamiを活用したWebRobot

    POEとAtamiを活用したWebRobot 簡単なWebRobotを書くときって、基的に一度走らせたらkillするか全URLを舐めるまで待つしか出来ないし、実行状態を知りたいときにはログファイルに実行状況を書き出してログを読み続けるしかないわけですが 簡単なインターフェイスで、ロボットの挙動を監視したり実行制御させたい時にはめんどくさいコーディングが待ってます。 ほんとに簡単なインターフェィスにして色々やりたいと思ったら、スレッドで管理サーバーとかクロウラーを分離して云々と考えるだけでもややこしいのですが、それを簡単に解決出来そうな組み合わせを思いついたので、とりあえずメモ PerlでPOEというモジュールがあるらしくて、簡単に擬似OSの処理を行ってくれるらしいです。 まだ触ってないのでよく分かってないけど、POEを使って各Robotプロセスの管理が簡単に出来そうなのです。 そして、A

  • YappoLogs: Xangoというクロウラーフレームワークを使ってみる

    Xangoというクロウラーフレームワークを使ってみる Xango XangoPerlで書かれた汎用クローラーフレームワークです。 イベント型フレームワークPOEを使用することにより高速なクローリングが可能です。 実装にもよりますが、単一プロセス内でインデックシングや文字コードの変換等の処理を 同時に行うアプリケーションでも1秒に5~8 URL、1時間で 18000 ~ 22000 URLの処理が行えます。 ドキュメントはperldocのみっぽいので、日語の情報を残す意味で使い方のメモをば。 相当端折って書いてます。 Xangoを使ったクロウラーを書くには、制御用のにPOEセッションを作る必要があります。 Xangoを制御するためのモジュールを適当な名前で作っておくのがスマートかと思います。 とりあえずセッション作成を行う処理を書きます sub spawn { my $class = s

  • http://dev.razil.jp/project/xango/

  • 1