高校の偏差値をリスト化し、高校名から特徴量を作りたかったときのメモです。 今回は、「みんなの高校情報」さんのサイトをスクレイピングして、高校名と偏差値の情報をCSVファイルで取り出す例を取り挙げます。 Pythonの実行環境はどこでも良いのですが、最もお手軽なのはGoogle Colabですね。社内のネットワーク制限がある場合は、anacondaがお手軽です。 ただし、プロジェクトとして分析を行うときは、dockerで分析環境をポータブルかつ再現可能な状態にしておくのがいいでしょう。 ※環境周りの記事もどこかで書けたらと思っています。 スクレイピングを行う上での注意点例えばTOP COURT INTERNATIONAL LAW FIRMさんによれば、スクレイピングをする際には、以下の3つの法律的問題をクリアする必要があります。 著作権法上の問題 利用規約との抵触 サーバーへの過度なアクセス