katsuma_iのブックマーク - はてなブックマーク

使いやすさを重視したHTMLスクレイピングライブラリを作った - 純粋関数型雑記帳
TL:DR レポジトリ https://github.com/tanakh/easy-scraper ドキュメント背景このところ訳あってRustでHTMLからデータを抽出するコードを書いていたのですが、既存のスクレイピングライブラリが（個人的には）どれもいまいち使いやすくないなあと思っていました。 HTMLから望みのデータを取り出すのはいろいろやり方があるかと思いますが、ツリーを自力でトラバースするのはさすがにあまりにも面倒です。近頃人気のライブラリを見てみますと、CSSセレクターで目的のノードを選択して、その周辺のノードをたどるコードを書いて、欲しい情報を取り出すという感じのものが多いようです。 RustにもHTMLのDOMツリーをCSSセレクターで検索して見つかったノードをイテレーターで返してくれたりする、 scraperというライブラリがあります。例えば、<li>要素
katsuma_i 2020/02/13
リンク
1

はてなブックマーク