この記事はクローラー/Webスクレイピング Advent Calendar 2016 16日目の記事です。 JavaScriptが使われているWebページからスクレイピングする場合、PhantomJSなどのヘッドレスブラウザーを使うのが一般的です。 ただ、ちょっとしたJavaScriptを解釈できれば十分な場合、オーバーキルなこともあります。 この記事では、PhantomJSとかを使わずに簡単なJavaScriptを処理する方法を解説します。 どんな場合に役立つの? NHKニュースのWebサイトを題材として取り上げます。 http://www3.nhk.or.jp/news/html/20161215/k10010807361000.html NHK NEWS WEBのRSSではニュースのタイトルとURL、概要しか提供されていません。画像のURLやニュースの本文を取得したい場合は、スクレイ