タグ

ブックマーク / kevinjohnson2.blog.fc2.com (1)

  • PHPのクローラについての調査 PHPCrawlの解析その7 - KJの業務改善日誌

    札幌のIT企業に勤務するSE/プログラマです。業務改善、JavaVBA、セミナー、転職副業投資に関する記事が中心です。Jターン経験者です。Uターン、Iターン、Jターンに興味がある方は気楽にコメントお願いします。また、他業種からIT企業に転職しているので興味があればコメントお願いします。 PHPCrawlでのクロールがとりあえず出来るようになりました。 ただ、クロールで循環した場合はどうなるのか?等の検証が出来ていませんので、 デバッグ以外で怖くて使えませんけど^^; とりあえず、PHPCrawl一度まとめておきますと・・・。 PHPCrawlは、そのままで使うと ・PHP5に対応していない為、ワーニングが出まくる。・robot.txtを見ない。・ページを読み込む間隔が設定されていないので、クローラー対象のWebサーバに負荷をかける危険性がある。・日語は文字化けする。 といった事で、

  • 1