[B! scraping] hkjのブックマーク

hkj id:hkj

scrapingに関するhkjのブックマーク (4)

Node.jsでWebサイトの更新チェックを自動化する - ほんじゃらねっと
特定のWebサイトを定期的にチェックして特定のキーワードが含まれていたら通知してくれる仕組みを1つ覚えておくと色々重宝する。例えば会社に社員用Webサイトがあるなら、（そしてそのサイトがRSSもメール通知も提供してないなら）そこに「重要」とか「人事」とかのキーワードを含む記事が投稿された時に通知を受け取れるようにしておけば、いちいちサイトをチェックしにいかなくても逃さず確認できる。また、Webスクレイピングする方法を覚えておけば、通知を受け取る以外にも、画面キャプチャの撮影や画像やテキストの収集を自動化したり、作成したWebシステムの画面テストを行う、等の応用もしやすくなる。今回は Node.js + Grunt + cheerio-httpcli を使用して手軽にWebサイトのデータをチェックする方法を紹介する。今週の「世界の果てまでイッテＱ！」で「QTu
hkj 2017/10/22
node.js

scraping
リンク
Rubyとか使ってクローリングやスクレイピングするノウハウを公開してみる！ - 病みつきエンジニアブログ
今まで何度もスクレイピングとかクローリングをしてきたので、マエショリストの端くれとしてコツを公開すべきかなあ、と思い、公開します。今日の題材は、CNET Newsです。私はウェブ文書にタグ付けをするという研究をしているのですが、そのための教師データとしてクローリングをします。 photo by Sean MacEntee 要件定義 CNET Newsから全ニュースを保存し、その本文をデータベースに保存します。これは、次のようなフローに書き下すことができます。全URLを取得し、データベースに保存データベースにある全URLをダウンロードする保存した全ページを解析して、本文をデータベースに保存するという流れです。これらは独立していますから、それぞれどの言語で解析しても構いません。しかし後述しますが、「あとから追いやすくする」「適材適所」といったあたりを気をつけて、言語選択をするべきだと
hkj 2014/01/01
ruby

スクレイピング

scraping
リンク
地獄のRuby札幌の「女に惚れさす逆引きレシピ集」
これは Ruby逆引きレシピAdvent Calendar の参加エントリです。12月17日を担当します。前日の担当は @y_ogagaga さんで iCalendar形式のデータを読み書きしたいでした。職場とか学校で、Rubyに詳しい頼りになる先輩がいるっていうのは、こんな感じなんじゃなかろーかと想像する。「こういうことしたいんですけど？」と聞いてみると「ああ、これでできるよ」と一瞬で返ってくるような。レシピ先輩（仮称）はいろいろなライブラリを知ってる。だから第1章の1.1に書いてあるのはRubyのコードの書き方じゃあなくて、有無をいわさずrubygemsをインストールして使う、ということだ。レシピ先輩はIRCをばりばり使う。だから第6章ネットワーク処理のはじめは、ウェブじゃなくってIRC BOTのつくりかただ。レシピ先輩はいろいろなコミュニティに参加している。だから最後の第24章
hkj 2010/12/26
ruby

nokogiri

scraping
リンク
Rubyで2ちゃんねるのスレを読む - hitode909の日記
Rubyで2ちゃんねるのスレを読みたかったので，調べてみると，2ちゃんねるBOTの作り方を詳細に解説してくれている人がいた． 2ちゃんねるBOTの作り方準備編 - GIOの日記 2ちゃんねるBOTの作り方設計編 - GIOの日記 2ちゃんねるBOTの作り方実装編1 - GIOの日記 2ちゃんねるBOTの作り方実装編2 - GIOの日記記事内のソースコードのリンクは切れていたけど，GitHubで公開されてた． gioext/bot2ch · GitHub スレの内容をパースする処理とかがなかったので，forkして欲しい機能を勝手に実装した． hitode909/bot2ch · GitHub 試しにこれを使って，ラーメン板の，タイトルにこってりを含むスレの最新のレスを表示してみる． require 'bot2ch' menu = Bot2ch::Menu.new board = m
hkj 2009/10/08
2ch

bot

ruby

scraping
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx