概要 卒研のためにWEBサイトから必要な情報だけ抽出したデータセットを作成したときに用いた、PHPでHTMLを簡単にパースできるというPHP Simple HTML DOM Parserの使い方の備忘記録。 参考ページ PHPでHTMLをパースする 抽出対称 amazonのベストセラーのランキングページ2009年の本のベストセラーから ISBN-10 本のタイトル 著者 を取得する。 ※ 2010/12/29 時点でのhtmlには対応している。 本のタイトル・著者 抽出スクリプト <?php // ランキングページの1ページ目のURL(1位~20位) $page_url = "http://www.amazon.co.jp/gp/bestsellers/2009/books/ref=pd_ts_pg_1?ie=UTF8&pg=1"; // ランキングページのHTMLを取得 $page_da