エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
スクレイピングにおいてIPのBanを防ぐ方法 - データナード
記事へのコメント3件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
スクレイピングにおいてIPのBanを防ぐ方法 - データナード
自然言語処理では、しばしばコーパスを作るためにWeb上のリソースを利用します。そのためにスクレイピン... 自然言語処理では、しばしばコーパスを作るためにWeb上のリソースを利用します。そのためにスクレイピングをするのですが、大量のリクエストを特定のサイトに送るとBanされる可能性があります。今回はそれを防ぐ一つの方法を書きます。(悪用厳禁) TL;DR 概要 コード例 metadata.py requestsを使った接続 サーバリストの見つけ方 参考 TL;DR VPNを使おう。 概要 nordvpnのようなVPNを使えば、数十の国の数千のサーバを利用することができます。もし、これらの膨大なサーバリストを使ってスクレイピングに利用することができれば、以下の2つのメリットがあります: ランダムにIPを変え続ければブロックされる可能性が下がり、仮にブロックされても別のサーバーのIPを使えばいい。 複数のサーバのIPを利用してスクレイピングするので、並列化すれば、time.sleepの間隔を長めにし