使いやすさを重視したHTMLスクレイピングライブラリを作った - 純粋関数型雑記帳

テクノロジーカテゴリーの変更を依頼記事元:

tanakh.hatenablog.com

350 usersがブックマークコメント

コメント

42

記事へのコメント42件

注目コメント
新着コメント

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

使いやすさを重視したHTMLスクレイピングライブラリを作った - 純粋関数型雑記帳

TL:DR レポジトリ https://github.com/tanakh/easy-scraper ドキュメント背景このところ訳あってRust... TL:DR レポジトリ https://github.com/tanakh/easy-scraper ドキュメント背景このところ訳あってRustでHTMLからデータを抽出するコードを書いていたのですが、既存のスクレイピングライブラリが（個人的には）どれもいまいち使いやすくないなあと思っていました。 HTMLから望みのデータを取り出すのはいろいろやり方があるかと思いますが、ツリーを自力でトラバースするのはさすがにあまりにも面倒です。近頃人気のライブラリを見てみますと、CSSセレクターで目的のノードを選択して、その周辺のノードをたどるコードを書いて、欲しい情報を取り出すという感じのものが多いようです。 RustにもHTMLのDOMツリーをCSSセレクターで検索して見つかったノードをイテレーターで返してくれたりする、 scraperというライブラリがあります。例えば、<li>要素

ブックマークしたユーザー

techtech05212023/05/14
pirorongo212021/07/12
hate_nao2021/03/13
baboocon198204192021/01/12
thotentry_hatebu1972020/12/11
emanon0012020/07/27
moccos_info2020/07/11
heatman2020/04/03
Windymelt2020/03/25
bluevinyl2020/03/09
toshiharu_z2020/03/01
kenichiice2020/03/01
ishideo2020/02/28
chck12452020/02/24
sh199107112020/02/24
boxphere2020/02/24
tmatsuu2020/02/24
sudo_vi2020/02/23

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx