[B! scrapy] ShoCohのブックマーク

ShoCoh id:ShoCoh

scrapyに関するShoCohのブックマーク (3)

Scrapy メモ - Qiita
Webページのスクレイピングと分析・可視化で使用したPython製WebクローラScrapyについて覚えたことについて記載する。本記事はメモ程度の内容であり、情報の正確性については保証しない。必ず公式ドキュメントを参照すること。サンプルコードサンプルコード1 import scrapy class QiitaCalendarSpider(scrapy.Spider): name = "qiita_calendar" allowed_domains = ["qiita.com"] start_urls = ["http://qiita.com/advent-calendar/2016/calendars"] custom_settings = { "DOWNLOAD_DELAY": 1, } def parse(self, response): for href in response
ShoCoh 2017/01/16
scrapy

Python
リンク
Webページのスクレイピングと分析・可視化 - Qiita
先日、2016年アドベントカレンダーのはてブ数の分析というブログ記事を投稿した。このデータの可視化には様々な技術が使われている。本記事では、どのような技術を活用して作成したのかについて説明する。ソースコードはこちら。概要このVizは、QiitaとAdventarに投稿された、全アドベントカレンダー及びそこに登録された記事のはてなブックマーク数を元に、どのカレンダーや記事が人気なのか、あるいはQiitaとAdventarのどちらが人気なのかを視覚化することを目的として作成された。データソースは、Qiita及びAdventarに登録された、アドベントカレンダー2016の全カレンダーページである。カレンダーには記事のメタデータが含まれている。記事そのもののページやユーザページのクロールはしていない。システムの概要データの収集→ETL→BIという流れで処理を行った。データ収集 Webク
ShoCoh 2017/01/16
scrapy

python
リンク
PythonでJavaScriptを使ったWebサイトをスクレイピングする - Qiita
概要 JavaScriptでDOMを作ってるサイトをPythonを使ってスクレイピングしたので、手順をメモ。大雑把には、ScrapyとSeleniumを組み合わせてやった。 Scrapy Scrapyは、クローラーを実装するためのフレームワーク。クローラーをSpiderのサブクラス、スクレイピングした情報をIt emのサブクラス、スクレイピングした情報に対する処理をPipelineのサブクラス、という風にフレームワークが決めたインターフェースを満たすクラスとしてクローラーを実装する。 scrapyというコマンドが提供されてて、このコマンドを使って、作ったクローラーの一覧を見たり、クローラーを起動したりできる。 Selenium Seleniumは、ブラウザをプログラムから制御するためのツール（でいいのかな？）。Pythonも含めたいろんな言語で使える。よくWebサイト/アプリの自動テス
ShoCoh 2015/10/30
python

scrapy

selenium
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx