並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 96件

新着順 人気順

BeautifulSoupの検索結果1 - 40 件 / 96件

  • ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記

    この記事は、以下のハローワークインターネットサービスから求人情報を自動で取得する試みを記録したものです: www.hellowork.mhlw.go.jp まずは、ソースコードと実行結果をお見せし、後ほどこの記事を書いた経緯などを話します。 ソースコード:HelloWork_Scraping_ST.py from selenium import webdriver from selenium.webdriver.support.ui import Select import time from bs4 import BeautifulSoup import re # ハローワークインターネットサービスのURL url = "https://www.hellowork.mhlw.go.jp/" # 以下からご自分で使用しているChromeのバージョンに合ったChromeDriverをダウンロ

      ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記
    • BeautifulSoupでスクレイピングのまとめ – taichino.com

      何度かBeautifulSoupについては書いているのですが、未だに使い方が覚えられずにイライラします。仕方が無いのでまとめて置く事にしました。BeautifulSoupはHTMLから情報を取得するだけ無く、HTMLの編集もできますが、ここではスクレイピング用途のみに絞っています。 使用するのは以下のHTMLです。 このHTMLを使って色々と情報を取得したのが以下です。覚えるべきはfindAllだけです。注意する必要があるのは、textを指定した場合にタグオブジェクトが取れずに、テキストオブジェクトが取れるので、一旦parentで親のタグ取りましょうという事と、正規表現で条件指定する場合は、re.compileで正規表現オブジェクトを渡すという事位ですか。 #!/usr/bin/python # -*- coding: utf-8 -*- import re import urllib f

      • Python+Selenium+Phantom.js+Beautifulsoupでスクレイピングする - ひよこになりたい

        ※【2018/04/17追記】 Phantom.jsはメンテナンスが終了したようです。今後はGoogle Chromeを使用してJavascriptの処理を行っていくことになります。以下の記事で解説していますので合わせてご覧ください。 zipsan.hatenablog.jp 【追記終わり】 最近スクレイピングのスクリプト書いて遊んでいるのでそれについてのメモがてらに。 Pythonでスクレイピングする方法は多々あるみたいなんですが,個人的に一番使いやすかった(慣れ?)のがこの組み合わせでした。 以前Pythonのurllib.request+Beautifulsoupでレスポンスhtmlの解析をして次々とたどっていくようなスクリプトを書いていたんですが、これだとJavascriptで追加されたエレメントは受け取れなかったり、リダイレクト処理がめっちゃ大変だったり色々と面倒でしたが今回Se

          Python+Selenium+Phantom.js+Beautifulsoupでスクレイピングする - ひよこになりたい
        • 【Python】賃貸情報を調べたかったので、BeautifulSoupでスクレイピングしてみた - Qiita

          とくに仮想環境にこだわらないのであれば、そのまま「pip install beautifulsoup4」として頂いても問題ないと思います。 コードの説明 完成したコード全体は以下のようになりました。 順番に説明したいと思います。 from bs4 import BeautifulSoup import urllib3 import re import time import pandas as pd from pandas import Series, DataFrame ## ステップ1 http = urllib3.PoolManager() url = "https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&pc=30&smk=&po1=25&po2=99&shkr1=03&shkr2=03&shkr3=03&sh

            【Python】賃貸情報を調べたかったので、BeautifulSoupでスクレイピングしてみた - Qiita
          • BeautifulSoupを使ってスクレイピングをしてみる |

            そもそもスクレイピングとは? わかりやすく説明すると特定のWebサイトをプログラミングによって必要な情報を取得したりする行為のことです。 スクレイピングが行えるようになるとムフフなサイトからムフフな画像の取得をプログラムを実行するだけで行えるようになります。 スクレイピングを始める Pythonのことをあまり知らない人にPythonの基本文法のまとめという記事を書いたので これを読むと他の言語を触ったことがある方は雰囲気がわかると思います。 今回はスクレイピングをするためにBeautifulSoupというライブラリを使ってみます。 BeautifulSoupを知らない方に説明するとBeautifulSoupはPythonで動作するHTMLとXMLのパーサーです。 これを使用することでjQueryみたいにHTML/XMLの要素の取得を簡単に行えるようになります。pipを使ってインストールを行

            • Beautiful Soupドキュメント — BeautifulSoup Document 3.0 ドキュメント

              Beautiful Soupドキュメント¶ Beautiful Soupはpythonで動作するHTMLとXMLのパーサーです。Beautiful Soupはパースしたツリーの操作、検索、変更を簡単に、かつ、今までと同じ方法でできます。これにより、プログラマーの仕事時間を節約します。また、Rubyful SoupというRuby版もあります。 このドキュメントはBeautiful Soupのバージョン3.0における主要な機能をサンプル付きで説明します。このドキュメントを読めばこのライブラリがどんなに良いか、どうやって動いているか、どうやって使うか、やりたいことをどうやって実現するか、予想と異なる動作をした場合になにをすればいいのかが分かります。 クイックスタート¶ Beautiful Soupをここから手に入れます。ChangeLogにはバージョン3.0とそれ以前のバージョンとの違いが書かれ

              • Panopticon :: Python :: BeautifulSoupを触ってみる

                ちょっとHTMLをパースする必要があったので、BeautifulSoupを使ってみました。参考にさせていただいたサイトはこちら。 あかさかランチにっき: BeautifulSoupによるスクレイピングの練習 あかさかランチにっき: 続・BeautifulSoupのスクレイピングの練習 Perl使いのPythonちゃん: BeautifulSoupでHTML解析 Perl使いのPythonちゃん: PythonでGoogleの表示順位を取得 特定タグの抽出 >>> from BeautifulSoup import BeautifulSoup >>> import urllib2 >>> url = 'http://www.crummy.com/software/BeautifulSoup/documentation.html' >>> html = urllib2.urlopen(u

                • Google App EngineでもXPathが使える!XPathEvaluator Extension for BeautifulSoup(BSXPath)をリリース - 風柳メモ

                  飽きる前にそれなりに形になったのでリリースしておきます Python 2.5*とBeautifulSoup 3.0.7* or 3.1.0*の環境でとりあえず動くXPathEvaluatorです。 アーカイブファイル(ZIP):BSXPath.py: XPathEvaluator Extension for BeautifulSoup 上記ファイル(BSXPath.py)を使ったサンプルはこちら 【2009/04/05追記】 BSXPath.pyを使ったサービスを公開しました。 任意のサイトのフィードパターンを作成・共用できるサービス 使い方 from BSXPath import BSXPathEvaluator,XPathResult #*** 準備 document = BSXPathEvaluator(<html>) # html: HTMLテキスト # ※BSXPathEvalu

                  • BeautifulSoup+Pythonで、マルウェア動的解析サイトからWebスクレイピング - Qiita

                    はじめに JoeSandboxというマルウェアを解析してレポートを出力してくれるサイトがあります。 https://www.joesandbox.com JoeSandboxには色々バージョンがありますが、Cloud Basicというバージョンであれば無料でマルウェア解析ができます。 さらにCloud Basicで解析されたレポートは公開されますので、他の人の分析結果レポートを見ることもできます。 今回はマルウェアの分析結果レポートをBeautifulSoup+PythonでWebスクレイピングし、プロセス情報を取得してみたいと思います。 ちなみにCloud Basic以外のバージョンですとWeb APIが利用できますが、Cloud Basicでは利用できないようです。 JoeSandboxについて 分析画面です。この画面でマルウェアを指定し、色々なオプションなどを設定したのちに分析を行い

                      BeautifulSoup+Pythonで、マルウェア動的解析サイトからWebスクレイピング - Qiita
                    • 【Python】bottle, Beautifulsoup, geopyを使って野球の地図を作ってみました - Lean Baseball

                      最近、Certified ScrumMaster(認定スクラムマスター)を無事GETした私ですこんばんは!*1 今日はこちらの勉強会(もくもく会)でいい感じのモノが出来たので、ちょいと紹介したいと思います。 mokupy.connpass.com スターティングメンバー スタメン表っぽくポジションを入れましたが、特に意味はありません*2 (2B)このエントリーの対象読者 (LF)背景 (RF)Beautifulsoupでスクレイピング (3B)geopyでらくらくGeocoding (1B)bottle + Google Map APIでサクッと地図アプリを作る (CF)完成! (C)今後の展望 (SS)【Appendix】Pythonエンジニア養成読本について (P)【Appendix】Pythonもくもく会 (2B)このエントリーの対象読者 以下の人にオススメします。 Pythonでス

                        【Python】bottle, Beautifulsoup, geopyを使って野球の地図を作ってみました - Lean Baseball
                      • Phactory: Python: BeautifulSoupで、HTML/XMLをらくらくパージング

                        BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。 ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。 これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。 ダウンロード BeautifulSoupは、Pythonの標準ライブラリではありませんので、 使用するためには以下サイトからDL&インストールする必要があります。 http://www.crummy.com/software/BeautifulSoup/ インストール方法 BeautifulSoup.pyを上記サイトからDLしてきて、 pythonのライブラリ置場である「site-packages/」に配置するだけでOKです。 その上で、 #!/usr/bin/python from BeautifulSoup

                        • Beautiful Soupドキュメント — BeautifulSoup Document 3.0 ドキュメント

                          Beautiful Soupドキュメント¶ Beautiful Soupはpythonで動作するHTMLとXMLのパーサーです。Beautiful Soupはパースしたツリーの操作、検索、変更を簡単に、かつ、今までと同じ方法でできます。これにより、プログラマーの仕事時間を節約します。また、Rubyful SoupというRuby版もあります。 このドキュメントはBeautiful Soupのバージョン3.0における主要な機能をサンプル付きで説明します。このドキュメントを読めばこのライブラリがどんなに良いか、どうやって動いているか、どうやって使うか、やりたいことをどうやって実現するか、予想と異なる動作をした場合になにをすればいいのかが分かります。 クイックスタート¶ Beautiful Soupをここから手に入れます。ChangeLogにはバージョン3.0とそれ以前のバージョンとの違いが書かれ

                          • 図解!Python BeautifulSoupの使い方を徹底解説!(select、find、find_all、インストール、スクレイピングなど) - ビジPy

                            03. BeautifulSoup 図解!Python BeautifulSoupの使い方を徹底解説!(select、find、find_all、インストール、スクレイピングなど) Beautiful Soup(ビューティフル・スープ)とは、HTMLやXMLファイルからデータを取得し、解析するPythonのWEBスクレイピング用のライブラリです。インターネット上に公開されているWEBサイトでは広くHTMLやXMLが使われており、これらの情報の取得や解析に、大変便利なライブラリです。 Pythonでは、Beautiful Soupを利用して、簡単にWEBサイトからデータを自動的に取得することができます。 Beautiful Soupは、 情報収集の為にニュースサイトやブログから、自動的にデータを取得し保存したい。製品の価格情報を取得して、トレンドを把握し価格設定に利用したい。WEBサイトから

                              図解!Python BeautifulSoupの使い方を徹底解説!(select、find、find_all、インストール、スクレイピングなど) - ビジPy
                            • Amazon.co.jp: Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう: クジラ飛行机: 本

                                Amazon.co.jp: Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみよう: クジラ飛行机: 本
                              • Python と BeautifulSoup でスクレイピング入門 - present

                                何個か Web アプリを作ったけど、そういえば、まだスクレイピングをやったことがありませんでした。ふり返っても、サービス内で処理が完結するものや、外部 API を呼び出すものばかり。今考えている Web サービスを実装するには、どうやらスクレイピングが必要っぽいので、Python で練習してみました。 初めてのスクレイピングということなので、有名どころの BeautifulSoup を使ってみます。クックパッドのレシピ情報を抽出するサンプルを書いてみました。 # -*- coding:utf-8 -*- import urllib import BeautifulSoup # HTML を取得 html = urllib.urlopen("http://cookpad.com/recipe/1069312").read() # 解析用の BeautifulSoup オブジェクトを作成 so

                                  Python と BeautifulSoup でスクレイピング入門 - present
                                • 【Python3】ログイン機能付サイトでスクレイピング【requests】【BeautifulSoup】 - Qiita

                                  Pythonによるスクレイピング&機械学習 Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみようより 学習ログ。 第二章。 前回 この本の第一章では、 APIの基本的な呼び方 Beautifulsoupを用いた、基本的なWebページでのスクレイピングの仕方 について記述してありました。 ので、Beautifulsoupの基本的な使用法に関しては、当記事では書きません。 この章で得られるもの 2章では、高度なスクレイピングを学びます。 主にJavaScriptを使用したサイト(動的に情報を取得してるようなサイト)や、 ログインが必要なサイトからデータを取得するのに必要なテクニックを学んでいきます。 今回は後者のみです。 環境 Python 3.6.0 コード こちら(Git)にて 高度なスクレイピ

                                    【Python3】ログイン機能付サイトでスクレイピング【requests】【BeautifulSoup】 - Qiita
                                  • BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記

                                    はじめに HTML の解析に便利な BeautifulSoup(Python ライブラリ)を使って HTML 文書のテキスト部分の切り出しを試みましたというお話です.「間違えているところがある」とか「もっと良い方法がある」という場合,コメントをいただけると幸いです. ※ HTML 文書の焦点抽出(ニュースやブログからの記事抽出など)については考慮していません. 追記(2010-06-21):このお話には続き(続・BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記)があり,追加の問題とその対処について説明しています. BeautifulSoup とは BeautifulSoup は,以下のサイトでダウンロードできる Python 用のライブラリです.インストールをしなくても,アーカイブの中にある BeautifulSoup.py をコピーす

                                      BeautifulSoup で HTML 文書からタグを取り除く(Python) - やた@はてな日記
                                    • 【Python】BeautifulSoupを使ってテーブルをスクレイピング - Qiita

                                      頻繁な更新のあるテーブルやコピペがしにくいテーブルなどからの データ収集をちょっとでも効率化できないかと思い今回は、 pythonでスクレイピングしてCSVに書き出すコードを書いてみました。 設定した環境 MacBook Air (13-inch, Mid 2011) プロセッサ: 1.8 GHz Intel Core i7 メモリ: 4 GB 1333 MHz DDR3 バージョン: 10.11.5 Python: 3.6.2 準備 BeautifulSoupをインストールします。 BeautifulSoupはHTMLやXMLからデータを取得することのできるライブラリーです。 今回はpipを使ってインストールしました。 $ pip3 install beautifulsoup4 Collecting beautifulsoup4 Downloading beautifulsoup4-4.

                                        【Python】BeautifulSoupを使ってテーブルをスクレイピング - Qiita
                                      • 【Python3】ログイン機能付サイトでスクレイピング【requests】【BeautifulSoup】 - Qiita

                                        Pythonによるスクレイピング&機械学習 Pythonによるスクレイピング&機械学習 開発テクニック BeautifulSoup,scikit-learn,TensorFlowを使ってみようより 学習ログ。 第二章。 前回 この本の第一章では、 APIの基本的な呼び方 Beautifulsoupを用いた、基本的なWebページでのスクレイピングの仕方 について記述してありました。 ので、Beautifulsoupの基本的な使用法に関しては、当記事では書きません。 この章で得られるもの 2章では、高度なスクレイピングを学びます。 主にJavaScriptを使用したサイト(動的に情報を取得してるようなサイト)や、 ログインが必要なサイトからデータを取得するのに必要なテクニックを学んでいきます。 今回は後者のみです。 環境 Python 3.6.0 コード こちら(Git)にて 高度なスクレイピ

                                          【Python3】ログイン機能付サイトでスクレイピング【requests】【BeautifulSoup】 - Qiita
                                        • [Python] ウェブサイトから必要なデータだけ取得する「スクレイピング」を BeautifulSoup でやる方法 | CodeNote

                                          Python でウェブページから必要なデータだけ取得する方法をご紹介します。 この ”ウェブサイトから必要なデータだけ取得する” ことを「スクレイピング」と呼びます。 「スクレイピング」 = ウェブサイトのデータを必要な部分だけ抽出して利用すること を頭に入れておけば、あとは「Python スクレイピング」で検索すればたくさん参考になる記事が出てきます。 早速、下記のサイトを参考にしてやってみました。 Google app engineでBeautifulsoupを使う – Web就活日記 BeautifulSoup という Python のライブラリを使えば簡単にできるみたいですね。すごい。 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib2 from BeautifulSoup import BeautifulSou

                                            [Python] ウェブサイトから必要なデータだけ取得する「スクレイピング」を BeautifulSoup でやる方法 | CodeNote
                                          • BeautifulSoupによるスクレイピングの練習 - Bouldering & Com.

                                            練習 その1 aタグのhref属性の列挙 import urllib import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('url')) for _a in soup.findAll('a'): _a.get('href') 練習 その2 aタグであり href属性にhtmlという文字列が含まれており 子要素としてimgタグを持っており 子要素のimgタグのsrc属性がjpgという文字列を含んでいる import urllib import BeautifulSoup soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('url')) soup.findAll(lambda tag : tag.name == 'a' and 'html' in tag.

                                              BeautifulSoupによるスクレイピングの練習 - Bouldering & Com.
                                            • Python: Scrapy と BeautifulSoup4 を使った快適 Web スクレイピング

                                              前回 BeautifulSoup4 を単独で使ってスクレイピングする方法について記事を書いた。 Web スクレイピングは主にクローリングとスクレイピングの二つのパートに分かれていて、BeautifulSoup4 は後者に特化したパッケージだった。 今回は、Scrapy というフレームワークを使って、前者のクローリングも含めてやってみよう。 まずは今回使用する Scrapy と BeautifulSoup4 をインストールする。 ちなみに Scrapy は現時点で Python 3 対応が完了していないので、ここからの作業は全て Python 2.x 系の環境が必要になる。 また、今回の内容には不要だけど、いちいち出る警告を消したいので service_identity も一緒にインストールしておく。 $ pip install scrapy beautifulsoup4 service_i

                                                Python: Scrapy と BeautifulSoup4 を使った快適 Web スクレイピング
                                              • Python: Scrapy と BeautifulSoup4 を使った快適 Web スクレイピング

                                                前回 BeautifulSoup4 を単独で使ってスクレイピングする方法について記事を書いた。 Web スクレイピングは主にクローリングとスクレイピングの二つのパートに分かれていて、BeautifulSoup4 は後者に特化したパッケージだった。 今回は、Scrapy というフレームワークを使って、前者のクローリングも含めてやってみよう。 まずは今回使用する Scrapy と BeautifulSoup4 をインストールする。 ちなみに Scrapy は現時点で Python 3 対応が完了していないので、ここからの作業は全て Python 2.x 系の環境が必要になる。 また、今回の内容には不要だけど、いちいち出る警告を消したいので service_identity も一緒にインストールしておく。 $ pip install scrapy beautifulsoup4 service_i

                                                  Python: Scrapy と BeautifulSoup4 を使った快適 Web スクレイピング
                                                • 【Python】BeautifulSoupの使い方・基本メソッド一覧|スクレイピング | Let's Hack Tech

                                                  Pythonを使ったWebスクレイピングの比較的メジャーなライブラリBeautifulSoupのメソッドを一挙紹介します。 このページを読めばBeautifulSoupのほとんどの動作、メソッドを確認することができます。 以下の目次は展開でき、逆引きリファレンスの形式になっていますので、調べたい操作がある方は、気になる箇所へすぐにジャンプできます。 BeautifulSoupとは 一言で言うと、HTMLをパースするPythonのライブラリです。 スクレイピングという処理は、HTMLの取得と解析の二段構成です。 僕はHTMLの取得にはrequestsというモジュールを使うことが多いです。 一応標準のライブラリでもあるにはあるんですが、Pythonのhttpアクセスのディファクトスタンダードはrequestsかなと個人的には思っています。

                                                    【Python】BeautifulSoupの使い方・基本メソッド一覧|スクレイピング | Let's Hack Tech
                                                  • BeautifulSoup4のチートシート(セレクターなど)

                                                    BeautiflSoup4でスクレイピングして要素を抽出するときに、よく使うセレクタをチートシート的にまとめておく。 BeautifuSoup4の使い方 スクレイピングする時にBeautifulSoup4を使うことは多いと思い。よく使うAPIやセレクターの記述方法をまとめます。 ちなみに、よく忘れてしまって「どうするんだっけ?」となるんですが、BeautifulSoup4ではxpathを使ったセレクタは存在しない。urlをわたしてHTTPリクエストを投げてくれるような機能はない。 インストール beautifulsoup4 もしくは別名の bs4でpipからインストールする。 ※ pip install BeautifulSoupとすると古いBeautifulSoup3になるので注意。 $ pip install beautifulsoup4 or $ pip install bs4 Be

                                                      BeautifulSoup4のチートシート(セレクターなど)
                                                    • Evernoteの全ノートのテキストをBeautifulSoupとSQLAlchemyを使ってSQLiteに保存する - Qiita

                                                      evernoteの全文を抽出する必要がありその時に使った方法を公開します。 EvernoteAPIを使えばできそうですが、それほどのことでないので面倒ですよね。 そこで、全ノートをhtml形式で出力してBeautifulSoupでスクレイピングする方法を紹介していきます。 Evernoteの全ノートをhtml形式で出力する まず、Command + Aで全ノートを選択します。そこからノートをエクスポートします。 出力する形式はhtmlを選択してください。 今回はこれをmynoteとしてデスクトップに保存します。 mynoteのindex.htmlには出力したファイル全てのノートの目次になっていて、各htmlファイルへのリンクがあるのでそれを利用します。 手順としては index.htmlから出力するノートのurlを抽出する。 url先からテキストを抽出する。 それをSQLiteに保存する。

                                                        Evernoteの全ノートのテキストをBeautifulSoupとSQLAlchemyを使ってSQLiteに保存する - Qiita
                                                      • Python3で、urllibとBeautifulSoupを使ってWebページを読み込む - minus9d's diary

                                                        Python3で、urllibとBeautifulSoupを使ってWebページを読み込む方法についてまとめます。 urllibを使ったページの取得 まず、Python3の標準ライブラリであるurllibを使ってページを取得します。Python2から書き方が変わっているので注意が必要です。 import urllib.request url = 'http://www.rekibun.or.jp/grutto/museum2015.html' response = urllib.request.urlopen(url) data = response.read() ここで、response.read()はbytesオブジェクトを返します。以下はその抜粋です。日本語がバイト列として表現されてしまっています。 b'<!DOCTYPE html> (中略) <title>\x8c\xf6\x89v

                                                          Python3で、urllibとBeautifulSoupを使ってWebページを読み込む - minus9d's diary
                                                        • BeautifulSoupを使ってYahoo! Searchをスクレイピング - bonlife

                                                          ウェブサイトのスクレイピングってだいたいすんごくツマンナイんだけど、時々どうしてもやらなきゃいけなくなるんだよね。そんな時には、 BeautifulSoup を使って楽々、スピーディーにスクレイピング!…っていつもとキャラ違います状態のbonlifeです。 Inspired by Scraping Yahoo! Search with Web::Scraper (でも、Yahoo! Search だったらスクレイピングせずにAPI使えば良くね?とか思ったのはきっと私だけでしょう。) Python の BeautifulSoup を使って、手短に書いてみました。Python不慣れな人でもなんとなく分かると思います。 import urllib2 from BeautifulSoup import BeautifulSoup def soup2unistr(soup): return ''.j

                                                            BeautifulSoupを使ってYahoo! Searchをスクレイピング - bonlife
                                                          • 続・BeautifulSoupのスクレイピングの練習 - Bouldering & Com.

                                                            import BeautifulSoup import urllib 真偽, 空欄, Noneしか返さない [i.get('href') and i.get('href').endswith('jpg') for i in soup.findAll('a')] Noneも返っちゃう [i.get('href') if i.get('href') and i.get('href').endswith('jpg') else None for i in soup.findAll('a')] tagオブジェクトのリストを返す 1 soup.findAll(lambda x: x.name == 'a' and x.get('href') and x.get('href').endswith('jpg')) tagオブジェクトのリストを返す 2 filter(lambda x: x.get('hr

                                                              続・BeautifulSoupのスクレイピングの練習 - Bouldering & Com.
                                                            • Python BeautifulSoup でスクレイピングする

                                                              Python で html をスクレイピングするためのライブラリは lxml や PyQuery、Scrapy 、BeautifulSoup などいくつかありますが、私は BeautifulSoup を使っています。 バージョンが 3 系と 4 系がありますのでインストール時に注意が必要です。 beautifulsoup4 が 4 系で、 BeautifulSoup が 3 系となります。それさえ間違わないようにすればあとは pip でサクッとインストールするだけですので簡単ですね。 ドキュメントの日本語訳を公開してくださっている方がありますのでこちらを読めばだいたい大丈夫そうです。 kondou.com - Beautiful Soup 4.2.0 Doc. 日本語訳 (2013-11-19最終更新) 今回ちょっとしたスクリプトを書いていて使った部分を書いてみます。 たとえば以下の様な

                                                              • BeautifulSoupを使ってGoogleの表示順位を調べる - ひきメモ

                                                                BeautifulSoupはHTML解析用のライブラリです。htmllib.HTMLParserやHTMLPaprser.HTMLParserと違い、正しくないHTMLも扱えるようです。これを使ってGoogleの表示順位を調べるスクリプトを書いてみました。 #!python # vim:fileencoding=utf-8 import re import sys import time import urllib2 import urlparse from BeautifulSoup import BeautifulSoup g_url = "http://www.google.co.jp/search?hl=ja&num=100&q=" next_text = u"次へ" interval = 3 client_encoding = "cp932" server_encoding =

                                                                  BeautifulSoupを使ってGoogleの表示順位を調べる - ひきメモ
                                                                • Google app engineでBeautifulsoupを使う - Y's note

                                                                  概要 GAEでHTMLをパースして加工したいのでBeautifulsoupというモジュールをインストールして使う。 デフォルトGAE環境では利用できないのでBeautifulsoupファイルをアップして使う。 環境 System環境 : iMac.local 10.4.0 Darwin Kernel Version 10.4.0: Fri Apr 23 18:28:53 PDT 2010; root:xnu-1504.7.4~1/RELEASE_I386 i386 python : Python 2.5.5 ダウンロード 圧縮ファイルダウンロードおよび解凍 fetch 'http://www.crummy.com/software/BeautifulSoup/download/3.x/BeautifulSoup-3.0.8.tar.gz' tar -xzf BeautifulSoup-3.

                                                                    Google app engineでBeautifulsoupを使う - Y's note
                                                                  • PythonとPhantomJs CloudでスクレイピングしたデータをBeautifulSoupで解析

                                                                    GASと同じように色々な関数があるので、Pythonでも同じような書き方で実行出来ることがわかりました。 GASの場合、この後の処理はJSON形式のパース、matchメソッドと正規表現を使用して目的の値を取得する、という流れでした。 Pythonの場合も同じように、とやってもいいのですが、Pythonにはサードパーティ製のライブラリが豊富にあるので、少し楽できる方法をご紹介します。 今回は、Beautiful Soupというモジュールを利用して、目的のデータを取得していきます。 前回の確認 Beautiful Soupを使う前に前回のおさらいです。 PythonとPhantomJs Cloudでスクレイピングするコードは下記のようになりました。 import json import urllib.parse import requests payload = {'url':'https:/

                                                                      PythonとPhantomJs CloudでスクレイピングしたデータをBeautifulSoupで解析
                                                                    • BeautifulSoupを使ってみたけど挫折した件 – taichino.com

                                                                      もっぱらHTMLからの情報取得はWeb::Scraperな訳ですが、GAE上でもスクレイピングできたら嬉しいのでBeautifulSoupを使ってみたのですが挫折したメモ書きです。 まずは手始めに以下のscraperでYahoo Japanのトップページから タイトルとtopicsのURLを取得するperlスクリプトを移植してみる事にしました。 #!/usr/bin/perl use strict; use warnings; use LWP::Simple; use Web::Scraper; use YAML; my $content = get("http://yahoo.co.jp"); my $scraper = scraper { process '//title', 'title' => 'TEXT'; process '//a[@href =~ /.+topics.+/]'

                                                                      • Python で Mechanize と BeautifulSoup を使用して SNS をスクレイピングする。

                                                                        俺が普段使っているSNSの一つに ファンタジーアースSNS というのがあって、これは同名のゲーム(要約すると50人1チームで戦争するゲームです)と連動して戦争の成績が見れたり各国毎の統計が見れたりとなかなか便利な仕組みになってます。 ただ、各戦争毎に表示される個人成績や召還数といった値は各戦争結果ページでしか得られず、ゲーム内で参照できる戦績表示では今まで行った全ての戦争に対して行われる為、直近10件の戦争が見たいなどという場合には手で計算するとかしないといけなくて大変不便です。 というわけで SNS をスクレイピングして各値を拾って表示するスクリプトを組みました。全戦争読み込んだり平均値出したりとかは全然作りこんでないのでその辺は勝手に改良すると良いです。もっともこのSNSは大変重いのでスクリプトを実行する場合はアクセスの間隔あけるとかしてサーバに負荷が掛からない様に御願いします。 必要

                                                                          Python で Mechanize と BeautifulSoup を使用して SNS をスクレイピングする。
                                                                        • SeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法を現役エンジニアが解説【初心者向け】

                                                                          初心者向けにSeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法について現役エンジニアが解説しています。SeleniumとはWebブラウザの操作を自動化させるためのライブラリで、Beautifulsoup4とはスクレイピングライブラリです。データを収集することができます。 テックアカデミーマガジンは受講者数No.1のプログラミングスクール「テックアカデミー」が運営。初心者向けにプロが解説した記事を公開中。現役エンジニアの方はこちらをご覧ください。 ※ アンケートモニター提供元:GMOリサーチ株式会社 調査期間:2021年8月12日~8月16日  調査対象:2020年8月以降にプログラミングスクールを受講した18~80歳の男女1,000名  調査手法:インターネット調査

                                                                            SeleniumとBeautifulsoupを利用してPythonでスクレイピングする方法を現役エンジニアが解説【初心者向け】
                                                                          • BeautifulSoupでのつまりどころをちょっとだけまとめてみた - Heavy deby Dialy !

                                                                            BeautifulSoupでスクレイピングしていると、よくわからないパースエラーでコケる事があるかと思います。 今日も"junk characters in start tag"みたいなエラーに悩まされました。 Google先生に尋ねてみるも、同じような事象でなやんでる外人さんたちはみつけられても、「これだ」という解決方法はみつからず。 仕方ないので、自力でちょっと調べてみた成果を以下に記載してみる。同じようなことで悩んでる人が、もっと良い解決方法を見つけるためのたたき台にでもなれば本望である。 〜〜〜〜〜 HTMLParser.pyで定義されているエラーが出ているようなので、該当モジュールのソースを読んでみたところ、どうやら「">"または"/>"でタグがおわってないと駄目よ」みたいなエラーらしい。 HTMLソースの中から、エラーを引き起こしてる部分を探してみると、どうやら以下のようなパタ

                                                                              BeautifulSoupでのつまりどころをちょっとだけまとめてみた - Heavy deby Dialy !
                                                                            • Re:ゼロからFlaskで始めるHeroku生活 〜Selenium & PhantomJS & Beautifulsoup〜

                                                                              Re:ゼロからFlaskで始めるHeroku生活 〜Selenium & PhantomJS & Beautifulsoup〜PythonSeleniumFlaskPhantomJSBeautifulSoup はじめに 初めてPythonのFlaskとHerokuを使って、スクレイピングした情報をjsonで返すAPIを作ったので、その際におこなった方法をまとめたいと思います。 herokuでHelloWorldまでに使用するものやPythonの環境構築などは前編にあたる Re:ゼロからFlaskで始めるHeroku生活 〜環境構築とこんにちは世界〜 にて、 今回作るプログラムをHerokuにデプロイするまでは後編にあたる Re:ゼロからFlaskで始めるHeroku生活 〜PhantomJSをHerokuへ〜 にて書いているので合わせてご覧ください 今回やること 勉強になれば車輪の再発明で

                                                                                Re:ゼロからFlaskで始めるHeroku生活 〜Selenium & PhantomJS & Beautifulsoup〜
                                                                              • BeautifulSoupとhtml5libでのパース - 流れ着いたら。。。

                                                                                BeautifulSoupは、タグ内に'<'があると挙動がおかしくなる。 たとえばアクセス解析用とかにみるスクリプトタグかな。(GoogleAnalyticsはそこらへんちゃんとしてるね。) たとえば次のような場合: <script type="text/javascript"> <!-- document.write('<scr' + 'ipt type="text/javascr' + 'ipt" src="http://gavit.nikkei.co.jp/js.ng/cat=frttll?time=' + new Date().getTime() + '"></scr' + 'ipt>'); --> </script> こんなのがあると、 HTMLParser.HTMLParseError: bad end tag: u"", at line 186, column 141 なんて

                                                                                • [Python] httplibとBeautifulSoupを用いてWebクローリングを行い、データを収集する - YoheiM .NET

                                                                                  [Python] httplibとBeautifulSoupを用いてWebクローリングを行い、データを収集する 事前準備 PythonでWebクローリングを行うには、主に以下2ステップを行います。 指定したURLのHTMLを取得する 取得したHTMLから必要な情報を読み込む そして2つ目のHTMLからの情報抽出ですが、Pythonにはいくつか方法がありますが、人気の高いBeautifulSoupを使いたいと思います。BeautifulSoupは以下のコマンドで事前にインストールしておきます。 $ pip install --upgrade beautifulsoup4 無事にインストールができたら準備完了です。 指定したURLからHTMLを取得する 指定したURLからのHTML取得には、urllib.requstを利用します。具体的には以下のようにしてHTMLを取得します。 import

                                                                                    [Python] httplibとBeautifulSoupを用いてWebクローリングを行い、データを収集する - YoheiM .NET