[B! スクレイピング] rytichのブックマーク

rytich id:rytich

スクレイピングに関するrytichのブックマーク (24)

Using the command line
Add some fun and whimsy to your mobile device or computer with our collection of cartoon wallpapers! Choose from classic characters to new favorites, and make your screen pop with personality.
rytich 2013/07/02
JavaScript

スクレイピング

CasperJS
リンク
ScraperWiki
ScraperWiki has two new names! One for the product and one for the company: QuickCode is the new name for the original ScraperWiki product. We renamed it, as it isn’t a wiki or just for scraping any more. It’s a Python and R data analysis environment, ideal for economists, statisticians and data managers who are new to coding.
rytich 2011/06/06
webサービス

スクレイピング
リンク
Google Slides: Sign-in
Not your computer? Use a private browsing window to sign in. Learn more
rytich 2009/07/31
ニコニコ動画

スクレイピング

資料
リンク
クリック証券アクセスプラグインをαリリース - うなの日記
スクレイピング版ClickClient ver 0.1.3をリリースしました。 →Github - unageanu / clickclient_scrap このバージョンから、jiji用のクリック証券アクセスプラグインをリリース物に追加しています。jijiに加えてclickclient_scrapを環境にインストールして設定することで、クリック証券にアクセスして取引を行うことが可能となります。注意事項 α版ですレート情報の収集や発注、決済など基本的な機能が動くことは確認済みですが、連続稼働は3日くらいでテスト不足という見解です。ご利用は自己責任でこのプラグインを有効化したjijiでは、クリック証券にアクセスし実際のお金で取引を行ないます。ご利用は自己責任でお願いします。プログラムの不備・不具合等によるあらゆる損害について、作成者は責任を負いません。あしからず。仕様変更により動
rytich 2009/06/15
jiji

スクレイピング
リンク
perl-mongers.org
This domain may be for sale!
rytich 2008/05/29
動画 flv

perl

スクレイピング
リンク
Afrous - Ajax-powered mash up engine for the rest of us : Top
Make 12 monthly payments Pay 0% interest Start using the domain today. See details
rytich 2008/05/19
http://www.itmedia.co.jp/bizid/articles/0805/16/news003.html

マッシュアップ

ajax

スクレイピング
リンク
http://www.rcdtokyo.com/etc/htmlscraping/
rytich 2008/03/13
PHP

スクレイピング
リンク
PHP5、未整形HTMLをSimpleXMLへ変換 - goungoun技術系雑記帳
PHP5でのスクレイピングについて調査してみた。正規表現でやってもいいのだけど。 PHP5でやるのだからSimpleXMLでやってみたい。となると、いかに未整形HTMLを整形済にしてSimpleXMLとするかが課題となる。これについて調べてみた。 ↓これが答え。なるものを見つけました。 HTMLParser(PEARのXML_HTMLSax3使用)orTidyで整形してるそうです。 HTMLをXML化してDOMやXPathで操作するWebスクレイピング用PHPクラス : Under Construction, Baby: # SimpleXML＋HTMLParser or Tidy＋HTTP_Request＋Cache_Lite http://www.rcdtokyo.com/ucb/contents/i000851.php これで調査終了。というのも寂しいので。もう少しお手軽にで
rytich 2008/02/12
PHP

スクレイピング
リンク
https://www.openvista.jp/archives/note/251/?251/
rytich 2008/02/12
SimpleXML

PHP

スクレイピング
リンク
Web::Scraper を XML::LibXML で爆速にする hack! - woremacxの日記
id:miyagawa さんの Web::Scraper で、HTML::TreeBuilder::XPath の代わりに XML::LibXML を使うととても幸せになれそうなので実験してます。XML::LibXML に手を出す前に IRC で「tinyxpath とか htmlcxx とか使って xpath 周りを高速にしたい」とかボヤいてことがありました。そのときに、id:vkgtaro さんや id:tomyhero さんに激しく libxml や XML::LibXML をオススメされました。libxml をオススメしてもらえてなかったら、確実に路頭に迷ってました。以下が、変更したファイルと差分です。http://pub.woremacx.com/Web-Scraper/Scraper.pmhttp://pub.woremacx.com/Web-Scraper/Web-Scrap
rytich 2008/02/04
perl

スクレイピング
リンク
Checkdomain Parking - standby.checkdomain.de
Die Domain standby.checkdomain.de wurde von einem Checkdomain-Kunden registriert und befindet sich derzeit im Aufbau. Sie sind auf der Suche nach einer eigenen Domain? Unter www.checkdomain.de finden Sie einen schnellen und unkomplizierten Domain Check. Geben Sie einfach Ihren Wunschnamen ein und prüfen Sie, ob diese Internet adresse noch frei ist. Bei einem erfolgreichen Domain Check bietet Ihnen
rytich 2008/01/23
Googl Analytics向けMechanize

CakePHP

スクレイピング
リンク
PHP＋SimpleXMLElementでTwitterのスクレイピング - 肉とビールとパンケーキ by @sotarok
via. PHPでTwitterのBotを作ってみる - yuyarinの日記取得したHTMLから目的の情報だけを取り出す。取り出したい情報はステータス番号 ($status_number) ユーザ名 ($username) メッセージ ($word) ＠先 ($at) の４つ。うまいやり方が分からなかったので、strpos()とsubstr()で目的の情報が含まれる部分を愚直に取り出した後、preg_match()で正規表現マッチングして情報を抜き出す。これをwhileループで回す PHPでTwitterのBotを作ってみる - yuyarinの日記そういえば，スクレイピングってちゃんとしたことないなーと思ったのと，DOM::loadHTML - 「PHPで街を育てる」の続きの続きの続き - Do You PHP はてなを思い出して，PHP5なら素のPHPでXPathとか使えるの
rytich 2008/01/22
PHP

twitter

スクレイピング
リンク
Webstemmer（クローラーツール）
日本語サイトでは、具体的な性能は測定していませんが、以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞日刊スポーツ信濃毎日新聞 livedoor ニュース使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。取得したページのレイアウトを学習する。別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから本文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。ひとたびサイトのレイアウトを学習してしまえば、あとはレイアウトが大きく変更さ
rytich 2007/09/03
本文抽出クローラ via:http://www.moongift.jp/2007/09/webstemmer/

スクレイピング

Python
リンク
subtech - otsune's SnakeOil - Google AdSense向けコメントタグを利用してblog本文抽出できるんじゃね？
はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28
rytich 2007/08/22
Google

スクレイピング
リンク
PEAR::Services_FeedMeter作ってみた - Do You PHP はてブロ
指定したfeedの現ランキングを取得するためのPEARパッケージを作ってみました。つか、初めてまともにパッケージ作った。。。(^^; Services_FeedMeter-0.1.0.tgz（alpha版：PHP5専用です）実装内容ですが、フィードメーター -ブログの人気度と更新頻度を測定する無料サービスからは特にAPIが提供されていないので、フィードメーター -ブログの人気度と更新頻度を測定する無料サービスの詳細ページ（たとえば、このはてダの場合、http://feedmeter.net/detail.php?r=http%3A%2F%2Fd.hatena.ne.jp%2Fshimooka%2Frss）をスクレイピングして、順位の部分を正規表現で抜き出してるだけです。また、ランキングの取得しか機能がありません。この詳細ページはHTML4.01ですが、ホントはTidyとかでXHTMLに変
rytich 2007/07/06
PHP

スクレイピング
リンク
feecle 勝手 API for JSONP
パラメータ説明: end point URL: http://www.usamimi.info/~ryouchi/feecle/feecle_top.php パラメータ:callback: コールバック関数名を指定使い方: callback関数:viewfeecle() の場合、 http://www.usamimi.info/~ryouchi/feecle/feecle_top.php?callback=viewfeecle などと指定する。 feecle ユーザ記入コメント取得 API 実行例:
rytich 2007/06/20
feecle

API

スクレイピング

twitter
リンク
planet-ape|blog » Blog Archive » Prhagger用の全文取得プラグインを書いた
Prhaggerとは、あの有名なプラガブルフィードアグリゲータ、PlaggerのPHP版のことです。なぜかあまりネット上に情報があがってなくてインストールにも苦労したのですが、そのPrhaggerのプラグインを書きました。全文配信していないRSSを全文取得してくれるプラグインです。こんなものは誰が既に作ってるだろうと思ってネットを漁ったのですが、探し方が悪いのか全然ひっかからないので自分でつくりました。 Prhaggerってば全然人気ないのかなあ・・・そりゃみんなplagger使うよな・・・ピザも頼めるし、あっちは。ダウンロード：filterentryfulltextphp.zip 使い方： /library/plugins/に解凍したファイルFilterEntryFullText.phpを入れます。そうするとPrhaggerのセットアップ画面の「filter」の欄に「
rytich 2007/04/24
prhagger

スクレイピング
リンク
第6回　上手なアルゴリズムの見つけ方
図1に示すHTML形式のテキスト・データ（以下，HTMLデータ）があります。このHTMLデータをブラウザに表示させたときに「表示される文字列」と「その文字列に対して有効なタグ名」を対応付けるアルゴリズムを考えてください。結果は配列に格納して，画面に表示させるものとします（図2）。見わたせば，世の中はアルゴリズムだらけです。私のようなプログラマは，日常生活でも「締め切り順に仕事をソートしてごらん」「仕事のスタックがたまっているからてんてこまい」など，いま置かれている状態をアルゴリズムやデータ構造になぞらえて会話することがよくあります。前回紹介した再帰処理と言えば，落語の演目の一つ，「頭山」です。自分の頭に生えた桜の木を引っこ抜いて，その跡にできた池に自分自身が身を投げる，という不思議な話ですが，これこそ再帰処理をよく言い表していると思います。このように世の中には，ハッシュだってスタックだ
rytich 2007/04/03
HTMLソース解析

開発

スクレイピング
リンク
Web 3.0：ウェブサイトがウェブサービスになるとき:コラム - CNET Japan
現在のウェブには、人間のためには何テラバイトもの情報があるが、コンピュータはこれを利用できない。HTMLのページの内側には、難しい形でフォーマットされていて機械には処理するのが難しい形で情報が詰まっている。いわゆるWeb 3.0は、本物のセマンティックウェブの前ぶれとなる可能性が高い。ここでは「Web 3.0」という言葉を、主要なウェブサイトがWebサービスへと変わっていき、世界に対して情報を効果的に示すようになるという意味で使っている。この変化は、次の2つのうちのどちらかの形で起こるだろう。一部のウェブサイトは、Amazonやdel.icio.us、Flickrなどの例に従い、REST API経由で情報を提供していくようになるだろう。他のサイトは、情報は独自の形式を維持するが、DapperやTeqlo、Yahoo! Pipesのようなサービスを使って作られたマッシュアップを通じて外へ出
rytich 2007/04/03
3.0⇒セマンティック 2.5⇒スクレイピング 2.0⇒API と受け取った

web

スクレイピング
リンク
ほとんどの「論理マークアップ」はクローラにとってはクソの役にも立たない : ひろ式めもちょう
Japan.internet.com Webビジネス - SEO のキホン―なぜ論理構造が必要なのか http://japan.internet.com/busnews/20070402/6.html てなことをあやしげSEO系マーケターが書いてるわけだが。こういう神話が一人歩きしている状態がイヤだ。いくぶん極論ではあるが、これが「間違っている」ということをネット辺境のきわみであるこのページに、せめてメモっておこう。ほとんどの場合、クローラにとってHTMLごときの論理マークアップなんてクソの役にも立たない！ …だって作ってる本人が最初にタグを削除してるって言ってんだから、役に立つわけないじゃん。フィードリーダや特殊なスパイダーでもない限り、細かい論理マークアップを見たりなんかしないよ。フィードリーダは埋め込まれているフィード情報をチェックするからしかたない。特殊なスパイダーというのは
rytich 2007/04/03
クローラアルゴリズムせめてGoogleには構造読んでて欲しいなぁ

html

スクレイピング
リンク
1 2 次のページ