並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 96 件 / 96件

新着順 人気順

BeautifulSoupの検索結果81 - 96 件 / 96件

  • BeautifulSoup vs. lxml benchmark | Alain M. Lafon

    "As soon as you have made a thought, laugh at it." [Lao Tzu] Previously, I’ve been using BeautifulSoup whenever I had to parse HTML (for example in my dictionary pDict). But this time I’m working on a larger scale project which involves quite a lot of HTML parsing – and BeautifulSoup disappointed me performance wise. In fact, the project wouldn’t be possible using it. Well, it would be – if I subs

      BeautifulSoup vs. lxml benchmark | Alain M. Lafon
    • BeautifulSoupを使って画像ブログから画像をダウンロードする

      あのブログにもこのブログにも対応とか無理なので「画像が並んでて、その画像をクリックすると画像ファイルに飛ぶタイプのブログの1ページ」に限定します。ブログの具体例はありません。 例外とかステータスコードが200じゃない時とか全く考慮してないです。 実行環境 Windows10 64bit python 3.5.1 (多分64bit) tl;dr。長い記事読んでられないと思うのはおかしなことではないです。 pip install requests pip install beautifulsoup4 hoge.pyみたいなファイルを作ってコードをコピペしてpython hoge.py コード # -*- coding: utf-8 -*- import re import time import os import sys import datetime import requests fro

        BeautifulSoupを使って画像ブログから画像をダウンロードする
      • beautifulsoup4入門 htmlをパース、スクレイピングする | Python学習講座

        私が実際に使ってみて、解析しやすかったのはhtml5libですが、上述の通り非常に遅いので注意が必要です。特に、domの構造が汚かったり不整合のあるhtmlだと(めったにあることではないですが、)CPUが100%に張り付いて、最悪応答が帰ってこない場合があります。 lxmlとhtml5libは外部ライブラリですので、使用する場合は以下の通りpipでインストールする必要があります。 pip install lxml pip install html5lib Tagオブジェクト お手軽なパースを通してbeautifilsoupの基本となるTagオブジェクトの操作について学習しましょう。最初の例で書いているとおり、bsオブジェクト.タグ名 でタグとその内容の情報を保持したTagオブジェクトを取得することが可能です。また、Tagオブジェクトはタグ名を連ねて子要素を取得することも可能です。以下の属性

        • BeautifulSoup.pyを使ってみた - ITの隊長のブログ

          scrapyを使っていたけど なーかなかなかなか、これが難しいのなんの。 そして、フレームワークなのに ドキュメントが全部英語!!!(;ω;) ※英語読めない、隊長が悪いけど どうしても処理の中で、scrapyが取得したURLリンクを使って 別ページを同時処理にてクロールしたかったんだけど うまくいかなくて、もう途中で別途クロールすればいいんじゃね?と思いました。 そこでであったのがこの「BeatifulSoup」 サードパーティらしいけど、結構使いやすそうなので使ってみた。 サイトからとってきます $ curl 'http://www.crummy.com/software/BeautifulSoup/bs3/download//3.x/BeautifulSoup-3.2.1.tar.gz' >BeautifulSoup.tar.gz $ tar zxvf BeautifulSoup.t

            BeautifulSoup.pyを使ってみた - ITの隊長のブログ
          • BeautifulsoupでXMLからテキスト取得 - エイエイレトリック

            前回記事 国立国会図書館サーチの検索API(SRU)を使うの続き。 PythonのBeautifulsoupを使って、国立国会図書館APIから取得したXMLからタイトル情報を取得する。 バージョン情報 Python 3.7.3 beautifulsoup4 4.8.0 lxml 4.4.1 requests 2.22.0 Pythonでapiの値を受け取る Pythonでapiの結果の受け取る方法は色々あるが、今回は簡単に使える requestsを利用する。 引数param でパラメータを渡してget()する。 前回に引き続き、ということで コードウェイナー・スミス の著作を検索してみる。 パラメータの意味などは前回のブログをみてください。 import requests base = 'http://iss.ndl.go.jp/api/sru' payload = { 'operatio

              BeautifulsoupでXMLからテキスト取得 - エイエイレトリック
            • Phactory : Python: BeautifulSoupで、HTML/XMLをらくらくパージング

              BeautifulSoupとは、HTML/SGML/XMLをパージングするPythonライブラリです。 ネーミングにセンスを感じさせるこのライブラリは、実用として考えても大変有用なライブラリです。 これを使い始めると、ありとあらゆるHTML/XMLをいじり倒したくなります。 ダウンロード BeautifulSoupは、Pythonの標準ライブラリではありませんので、 使用するためには以下サイトからDL&インストールする必要があります。 http://www.crummy.com/software/BeautifulSoup/ インストール方法 BeautifulSoup.pyを上記サイトからDLしてきて、 pythonのライブラリ置場である「site-packages/」に配置するだけでOKです。 その上で、 などとすることで、使用可能になります。 使い方 使い方については、 B

              • 【Python3】BeautifulSoupとRequestsを使ったスクレイピング - 僕の世界観を変えてみる

                Pythonいじっていてあれこれどう書くんだっけ?ってことがよくありますよね。 僕もそんなわけなんでググるんですけど欲しい情報がなかなか出てこなかったり、 というかそこに時間を割きたくないので自分のブログをノート代わりに残そうと思います。 Pythonフォルダにたくさん入れておくのも嫌なので。 今回はBeautifulSoupとRequestsについてです。 BeautifulSoupの使い方 1.まずはインポート 2.ソースを打ち込む 3.スープを作る 4.スープから要素を取り出す。 User-Agentを偽装する 実践 まとめ BeautifulSoupの使い方 htmlから情報を引き出すモジュールです。 urlからじゃなくてhtmlからってところが肝です。 1.まずはインポート from bs4 import Beautifulsoup 現在はBeautifulSopu4.2とかが出

                  【Python3】BeautifulSoupとRequestsを使ったスクレイピング - 僕の世界観を変えてみる
                • Python で Mechanize と BeautifulSoup を使用して SNS をスクレイピングする。 - jkl.lomo.jp

                  俺が普段使っているSNSの一つに ファンタジーアースSNS というのがあって、これは同名のゲーム(要約すると50人1チームで戦争するゲームです)と連動して戦争の成績が見れたり各国毎の統計が見れたりとなかなか便利な仕組みになってます。 ただ、各戦争毎に表示される個人成績や召還数といった値は各戦争結果ページでしか得られず、ゲーム内で参照できる戦績表示では今まで行った全ての戦争に対して行われる為、直近10件の戦争が見たいなどという場合には手で計算するとかしないといけなくて大変不便です。 というわけで SNS をスクレイピングして各値を拾って表示するスクリプトを組みました。全戦争読み込んだり平均値出したりとかは全然作りこんでないのでその辺は勝手に改良すると良いです。もっともこのSNSは大変重いのでスクリプトを実行する場合はアクセスの間隔あけるとかしてサーバに負荷が掛からない様に御願いします。 必要

                  • 【コード解説】PythonでSUUMOの賃貸物件情報をスクレイピングする【requests, BeautifulSoup, pandas等】

                    サイトで対象地域を選択まずSUUMOのサイトに行くと、物件を探したいエリアを選ぶことができます。 物件の条件も加えることができますが、ここでは全物件を取得したいので設定していません。 都道府県を選択すると、さらに細かい地域を選択できます。 ここではエリア選択を選んでいますが、路線ごとや駅ごとの選択も可能です。 今回は、東京23区が対象なので、全区を選択して検索をクリックします。 物件データを確認検索をクリックすると該当する物件がずら〜っと出てきます。 調べた時では全部で635,695件ありました。 総ページ数を確認一番下までスクロールすると全部で1,697ページあることがわかります。 1ページごとに50件の物件が表示されるので、ここからページ数を計算することもできると思われるかもですが、ここで落とし穴がありますw 単純に、635,695を50で割っても1,697にはなりません。 これはSU

                      【コード解説】PythonでSUUMOの賃貸物件情報をスクレイピングする【requests, BeautifulSoup, pandas等】
                    • Pythonを学ぶ:BeautifulSoupでGoogle急上昇ワードを取得する:Shibuya Blog

                      BeautifulSoupというHTML/XMLをパースするPythonライブラリを使って、Google急上昇ワードを取得してみました。以下のサイトを参考にしています。 Python: BeautifulSoupで、HTML/XMLをらくらくパージング BeautifulSoupのダウンロードはこちら。また、本家のドキュメント(Beautiful Soup Documentation)が分かりやすくていー感じです。 BeautifulSoupはHTMLもパースできますが、今回はGoogle急上昇ワードのXMLから、”急上昇ワード”を抜き出してみます。以下のURLでXMLをゲットできます。急上昇ワード20件がitem要素として列挙されている構造です。 http://www.google.co.jp/m/services/trends/get で、以下のようなコードになります。 # -*-

                      • beautifulsoup – taichino.com

                        しばらくベンチマークコードを書いてなくてすっかり忘れていたので、メモ書きです。今回は例題として、yahooのこのページをBeautifulSoupとlxmlでのスクレイピング比較をしてみる事にしました。比較対象の関数は以下の通りです。どちらのコードも入力・出力ともに同じなので、どちらが実行時間やメモリ使用量が少ないのかを知りたくなりますね。 # BeautifulSoup def scrape_with_bs(html): from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) rows = soup.find('table', attrs={'class':'channel9'}).findAll('tr') channels = rows[0].findAll('td', attrs={'class':'st

                        • Python+Selenium+Phantom.js+Beautifulsoupでスクレイピング - メモ

                          zipsan.hatenablog.jp seleniumをインストール pip3 install selenium phantomjsをダウンロード http://phantomjs.org/ WindowsのPATHを通しておく www.qq.pref.ehime.jp Selenium IDEをFirefoxにインストールしてアクセス方法を記録 python2にエクスポート エクスポートしたファイルの中から def test_(self): から不要なものを削除しコピー、ここからここまでに貼付け from selenium import webdriver from bs4 import BeautifulSoup import re driver = webdriver.PhantomJS() #ここから driver.get("http://www.qq.pref.ehime.j

                            Python+Selenium+Phantom.js+Beautifulsoupでスクレイピング - メモ
                          • python beautifulsoup new_tag: assign class as an attribute

                            I'm new to both python and beautifulsoup, so maybe there is a simple answer I can't find. When I call .new_tag('name') I also can assign attributes like .new_tag('a', href='#', id='link1') But I can't assign class this way, because it is reserved word. Also I can't add name this way, because it's used as keyword for the tag name attribute. I know I can add them later, using tag['class'] for exampl

                              python beautifulsoup new_tag: assign class as an attribute
                            • Develogger: BeautifulSoupを使って要素を追加する

                              BeautifulSoupを使ってHTMLに要素を追加する機会があったのでサンプルを掲載します。BeautifulSoupでは要素をTagクラスとして扱うので、要素を追加する場合はTagクラスのインスタンスを生成して、親となる要素(Tagクラス)の「insert」メソッドで追加することができます。 また、要素にテキストを追加したい場合は「NavigableStringクラス」を使用すれば追加できるようです。 下記が簡単なサンプルです。 #!/usr/bin/env python # -*- coding: utf-8 -*- import sys import codecs from BeautifulSoup import BeautifulSoup from BeautifulSoup import NavigableString from BeautifulSoup import T

                              • 10時間使って年間10000時間の作業を20時間に削減した人 残業しまくって200時間普通に働いた人はどっちが優秀?ウェブ操作をいかに自動化するか?Selenium vs BeautifulSoup どっちがいいの?自動化のコツ - かずきち。の日記

                                ウェブスクレイピングの自動化を調整する www.youtube.com www.youtube.com なるべく決まった操作を自動化したいので、普段はBeautifulSoupを使っていますが… 高度なウェブページの場合プログラムで巡回すると… 時々ウェブページが「あ、この操作はコンピュータがしてる!ブロックしなきゃ」 ということでブロックされて反省文扱いになります。 コンピュータはこの操作が人間が行っているのか?機械が行っているか判断するわけです。 なのでプログラムとばれないようなコーディングは重要 自動化しやすいタスクを考えたときに決まったローテーションは自動化しやすいのがポイントです。 学生的には夏休みの自由研究の「朝顔の観察」とかは自動化の対象になります。 そして多くの人にとって自動化は高い機械などを購入しないと実装できないと考えています。 それはそうですよね。 引用:http:/

                                  10時間使って年間10000時間の作業を20時間に削減した人 残業しまくって200時間普通に働いた人はどっちが優秀?ウェブ操作をいかに自動化するか?Selenium vs BeautifulSoup どっちがいいの?自動化のコツ - かずきち。の日記
                                • BeautifulSoupを使ったXMLの解析

                                  <data> <book id="001"> <title language="English">Alice in Wonderland</title> <author autonym="Charles Lutwidge Dodgson">Lewis Carroll</author> <genre>小説</genre> </book> <book id="002"> <title language="Japanese">羅生門</title> <author autonym="芥川龍之介">芥川龍之介</author> <genre>小説</genre> </book> <book id="003"> <title language="Japanese">柿の種</title> <author autonym="寺田寅彦">寺田寅彦</author> <genre>随筆</genre> <

                                    BeautifulSoupを使ったXMLの解析