タグ

スクレイピングに関するse-miのブックマーク (3)

  • てきとうにクリックしたらてきとうにWeb::Scraperのコードを作ってくれるWebScraper IDE - bits and bytes

    まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取り出したい部分をクリックしたらてきとうにXPathを生成してWeb::Scraperのコードにして出してくれるFirefoxのextensionを作りました。Firefox3専用です。ごめんなさい。 ダウンロード WebScraper IDE (for Firefox3) 使い方 今回もいつもお世話になっているスターバックスさんの店舗検索結果(住所・店名・条件から探す)を例に使い方をご紹介します。 WebScraper IDEをインストールするとツールメニュ

  • Web::Scraperのjavascriptバージョンwebscraper.js - bits and bytes

    perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。 ブックマークレット データを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使います。 ブックマークレット webscraper コードwebscraper.js つかいかた Web::ScraperのSYNOPSISで例としてあげられているebayでapple ipod nanoを検索した結果からデータを取り出すときは 検索結果ページで上のブックマークレットを呼び出してFirebugコンソールで取り出す部分を記述します。 こんなかんじ。 SYNOPSISのperlのコードで変数$ebay_auctionに一度代入されている部分をそのままインラインで書き直すと my $e

  • ソーシャル分散スクレイピング - ロックスターになりたい

    前にperlでツリー状のデータを元にWeb::Scraperのインスタンスをつくるコードを書いたことがあった。 XPathでスクレイプするのはようするにXSLTを通してるだけのことで、DSLとしてWeb::ScraperなのかXSLTなのかの違い。DSLはAutoPagerizeと同様にwikiでメンテできる。AutoPagerizeよりも取り出すデータが正しいかどうかをキカイで理解可能な場合が多いので(ページの内容、キカイに理解させるのは困難だし、ニンゲンにとっても難しい)、一度データを入れれば機会でメンテするのも容易だ。たぶん。少なくともエラー検出は容易だ。 Google Social Graph API と fooo.name:TKMR.blog.showの、分散クローラ、は、ブラウザ上で、Greasemonkeyが1%から0.1%くらいの割合で、かってにどっかをクロールして、パース

    ソーシャル分散スクレイピング - ロックスターになりたい
  • 1