タグ

pythonに関するrarao1048のブックマーク (2)

  • Webページのスクレイピングと分析・可視化 - Qiita

    先日、2016年アドベントカレンダーのはてブ数の分析というブログ記事を投稿した。このデータの可視化には様々な技術が使われている。記事では、どのような技術を活用して作成したのかについて説明する。 ソースコードはこちら。 概要 このVizは、QiitaとAdventarに投稿された、全アドベントカレンダー及びそこに登録された記事のはてなブックマーク数を元に、どのカレンダーや記事が人気なのか、あるいはQiitaとAdventarのどちらが人気なのかを視覚化することを目的として作成された。データソースは、Qiita及びAdventarに登録された、アドベントカレンダー2016の全カレンダーページである。カレンダーには記事のメタデータが含まれている。記事そのもののページやユーザページのクロールはしていない。 システムの概要 データの収集→ETL→BIという流れで処理を行った。 データ収集 Webク

    Webページのスクレイピングと分析・可視化 - Qiita
  • Python使ってYahoo画像検索の画像を自動で収集してみた - TomoProgの技術書

    皆さん こんにちは、こんばんは TomoProgです。 記念すべき10記事目!! 頑張っていきましょう!! 今回はPythonを使ってYahoo画像検索の画像を自動で画像を収集してみようと思います。 指定したWebサイトのhtmlを取得する まずはWebサイトのhtmlを取得してみたいと思います。 Pythonにはurllibという指定したURLに簡単にアクセスできるモジュールが備わっています。 import urllib.request request = urllib.request.urlopen(url) html = request.read() urllib.request.urlopenを使うと引数に指定したURLを開きます。 あとは開いたURLの情報をreadで読み取るだけです。 実際にgoogle検索のトップページのhtmlを取得してみます。 #-*- coding:ut

    Python使ってYahoo画像検索の画像を自動で収集してみた - TomoProgの技術書
  • 1