[B! scraping] gayouのブックマーク

JavaでJsoupとGridDBを使ってWebスクレイピングする | GridDB Developers

gayou 2023/02/12

リンク

Perl で HTML をパースするモジュール: Days on the Moon

この記事は HTML アドベントカレンダーの 19 日目の分、兼 Perl アドベントカレンダーの 19 日目の分です。 Perl で HTML をパースするモジュールはいくつもあります。 HTML::Parser そのままの名前ですね。HTML コードをパースしていき、開始タグ、終了タグ、テキストなどを認識するとそれをイベントとして知らせてくれる、プッシュ型のパーサーです。 HTML の要素の内容モデルや、ある要素のタグが省略可能かといった知識は持っていません。あくまでもタグやテキストなどの出現を知らせるだけで、文書木を構築するわけではないからです。逐次的なパースに対応しています。HTML 文書全体を表すコードを一気に入力として与えなくてもよく、HTTP 通信中に受け取った分からパースしていくといったことが可能です。 Web 製作者の意図を汲み取ろうと努めており、「壊れた」HTML コ

gayou 2022/01/10

リンク

python selenium chromedriver beautifulsoup - Qiita

import time from selenium import webdriver import chromedriver_binary driver = webdriver.Chrome() driver.get('https://xxx') time.sleep(2) # 2秒のウェイト driver.close() driver.quit() from bs4 import BeautifulSoup import time from selenium import webdriver import chromedriver_binary from selenium.webdriver.chrome.options import Options option = Options() option.add_argument('--headless') driver = webdriv

gayou 2020/03/26

リンク

newscatcher - ニュースサイトに特化したPython製のスクレイピングライブラリ MOONGIFT

ニュースサイトは広告が多く、Webブラウザで目的の記事を探すのも面倒です。そのため、RSSフィードを登録している人もいますが、頻繁に訪れるサイトでもなければ、それも面倒です。そこで使ってみたいのがnewscatcherです。ニュースサイト専用のスクレイピングライブラリです。 newscatcherの使い方 NY Timesのサイトを試す例です。サイトを指定するだけで記事タイトル一覧が取れます。 >>> from newscatcher import Newscatcher >>> news_source = Newscatcher('nytimes.com') >>> news_source.print_headlines() 1. | Coronavirus Fears Drive Stocks Down for 6th Day and Into Correction 2. | U.S

gayou 2020/03/17

リンク

[Python] BeautifulSoup4の使い方とインストール方法 | Libproc

PythonでWebのスクレイピング時にオススメのライブラリ「Beautiful Soup 4」です Webスクレイピングを活用することで、 Webサイトから大量に情報を取得Webの情報取得を自動化できるので普段繰り替えている作業が簡略化され業務効率が上がります。またデータサイエンスや機械学習に必要な大量データを取得する時にも便利ですので、この記事で使い方をマスターしてください。 BeautifulSoup4とは？何でSoupなの？「BeautifulSoup4」とはHTMLやXMLを取得・解析・編集するためのライブラリになります。「BeautifulSoup4」は前身として「BeautifulSoup3」がありましたが、Python 3系で利用されるは「BeautifulSoup4」です。「BeautifulSoup3」はPython 3系では利用できないので注意してください。

gayou 2019/11/06

リンク

goop - Google検索結果をスクレイピング

Googleの検索結果を取得して分析に使いたいと考える人は大勢います。しかし機械的に収集しようとすると、GoogleからCAPTCHA入力が求められます。そのため自動化しづらく、手作業で収集している人も多いでしょう。しかし裏道がありそうです。Facebookを経由するとそのトラップに引っかからないようです。その実証として作られたのがgoopです。 goopの使い方 goopで検索を行います。その際、Facebookのクッキーを適用するのがコツです。 from goop import goop page_1 = goop.search('open source', '<facebook cookie>') print(page_1) ちゃんと検索結果が返ってきます。 {0: { 'url': 'https://opensource.org/osd-annotated', 'text': '

gayou 2019/10/22

リンク

Webスクレイピングする際のルールとPythonによる規約の読み込み - Stimulator

- はじめに - この記事は Webスクレイピング Advent Calendar 2017 - Adventar の1日目の記事です。近年では、Pythonが様々な場面で使われるようになりました。 Webからデータを取ってくる際のスクリプトとして利用し、そのままデータを機械学習における学習データとするといった案件も多く見るようになっています。ありがたい事に本年度書きました以下の記事は、はてなブログに投稿されたPython関連の記事の中で歴代はてブ数1位だそうです。 Webスクレイピングも日に日に情報が増え、様々なパッケージやフレームワークによって手軽になっています。本記事は、スクレイピングやクローラを記述する際に抜けがちな、「規約」について記載するものです。スクレイピングの間隔はどうすればいい？規約は？違法でないの？という人のために法律等もまとめています。追記2019/01/0

gayou 2019/10/10

scraping

リンク

goでスクレイピングするのにgoquery + bluemonday が最強な件 - Qiita

package main import ( "github.com/PuerkitoBio/goquery" "fmt" ) func main() { doc, err := goquery.NewDocument("https://github.com/PuerkitoBio/goquery") if err != nil { fmt.Print("url scarapping failed") } doc.Find("a").Each(func(_ int, s *goquery.Selection) { url, _ := s.Attr("href") fmt.Println(url) }) }

gayou 2019/09/17

go
scraping

リンク

【スクレイピングと法律】スクレイピングって法律的に何がOKで何がOUTなのかを弁護士が解説。【２０２２年１２月加筆】 | IT法務・AI・暗号資産ブロックチェーンNFT・web3の法律に詳しい弁護士｜中野秀俊

【スクレイピングと法律】スクレイピングって法律的に何がOKで何がOUTなのかを弁護士が解説。【２０２２年１２月加筆】スクレイピングによってデータベースを作りたい！はいいのか？スクレイピングとは、ウェブサイトから、ウェブページのＨＴＭＬデータを取得して、取得したデータの中から、特定のトピックに関わるデータを抽出、整形しなおすことをいいます。スクレイピングは、ウェブ上にあるデータを取得する際に、クローラを用いて、自動的に取得することによって、短時間で膨大な情報を収集することができることに特徴があります。このような技術を用いて、政府公開情報や他企業の情報、ニュース記事などの中から、自社に必要な情報を抜き出して、分析し、自社のデータベースを作成することが行われています。一般的に、スクレイピングによって、データベースを作成する手段をまとめると以下のようになります。クローリングによってウェ

gayou 2018/12/26

robots.txtの権威。

scraping

リンク

Webstemmer（クローラーツール）

日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ

gayou 2018/10/22

こういうツールがあったのか。

リンク

記事のスクレイピングを機械学習で自動化 - Qiita

Help us understand the probl em. What is going on with this article?

gayou 2018/10/22

たしかに、記事部分のパスはデザインによって異なるので、自動抽出できるようになるといいな。でもこれのメンテの手間は如何ほどに。

scraping

リンク

Pythonで始めるウェブスクレイピング実践入門 - Speaker Deck

PyCon JP 2018 の発表資料です

gayou 2018/10/05

リンク

Python・PHP・Perl・Bash・Rubyで簡単にWebスクレイピングする方法を解説する - paiza times

Photo by Ted Eytan 秋山です。最近PythonでWebスクレイピングしたりする記事をよく目にする気がするので、私も書いてみようと思います。ちなみにPythonはNumpyやPandasなどの分析に便利なライブラリやツールがあったりするので使いやすい部分はあると思いますが、「Webスクレイピングに向いてる言語はPython！」というわけではありません。スクレイピングは別にPython以外の言語でもできますし、むしろ単純なデータの抽出程度なら無理にPythonを使うよりも、自分がふだんからよく使っている言語でやったほうがよいかと思います。今回は、Python・PHP・Perl・Bash・Rubyを使って、Webスクレイピングを試してみたので、各言語でのやり方を説明していきます。 ■Python・PHP・Perl・Bash・RubyでWebスクレイピングする今回、作業

gayou 2018/08/07

scraping

リンク

【裏技】みんな知らないログイン必須ページの爆速スクレイピング【モテるシェル芸】 - ps aux | grep serinuntius

おはようございます。裏技ってつけると急にワザップ感が出て、懐かしいですよね〜。こないだ飲み会で同期とそんな話をしておりました。本題ログインが必要なWebサイトで画像を引っこ抜いて欲しいという依頼があり、スクリプトを書くかな〜と迷ったんですが、よく考えたらシェル芸だけで出来るな〜と思ったので共有したいと思います。今回はデザイナーにGitHubのIssueに貼ってある画像200枚以上をzipで欲しいって言われたので、それを題材にします。環境 Chrome curl grep egrep やり方 1. Chromeでおもむろにデベロッパーツールを開く Macなら Shift + Cmd + c等で開けます。 2. networkを選択するそのページのリクエストを見つけるたぶん、一番上のはず。 3. 右クリックして、Copy as cURLを選択今回の肝はこれで、ブラウザで送った

gayou 2018/07/23

そうだな。女の子にはモテないと思う。

scraping

リンク

[Androidアプリ]大谷通知アプリを作ってみた - Qiita

大谷翔平選手が打席に立つときにプッシュ通知を送るAndroidアプリを作った時のメモです。こちらのアプリです(Google Play) iOS未対応ですが、iOSユーザー用にTwitterアカウントを用意しました(@ sho_time___) Androidアプリのプッシュ通知送信時に上記アカウントで自動ツイートするように致しました。なぜ作ったかプログラミングを始めてみたのでなにかアプリを作ってみたいなと思っていたタイミングでこのスレを見て自分も欲しいし難易度もちょうどよさそうかなと思い作成してみようと思いました。概要 pythonで15秒ごとにMLBの試合データを取得し、大谷選手が打席に立つか判別しFCMでプッシュ通知を送信しています。 pythonファイルはAmazonEC2においてcronを5分間隔で設定して実行するように設定しております。(forで15秒を20ループ=5分