タグ

スクレイピングに関するmohnoのブックマーク (7)

  • 絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net

    巷で話題になっているこの話題、画像をスクレイピングやダウンロードされたくないということで騒がれています。その話に関しては色々な意見があると思ってますがここでは置いておくとして・・・ 技術的にやるとしたら実際どれくらい対策できるの?ということが気になったので、自分の知識で出来る限り対策したものを作ってみることにしました。 最初に 賢い方はわかると思いますが、タイトルは釣りです。 絶対に画像をダウンロード&スクレイピングさせないページは存在しません。ソフトウェアにおいて絶対と言う言葉はまず存在しないのです。ブラウザで表示している以上、仕組みさえわかれば技術的には可能です。 そのため、 「元画像のダウンロードとスクレイピングを非常に困難にしたWebページを気で作ってみた」 が実際のタイトルかなとなります。 とはいえ、この仕組みであれば大多数の人は機械的にスクレイピングすることを諦めるレベルの作

    絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net
    mohno
    mohno 2023/05/28
    たまーに画像データを見つけられないことがあるのは、こういう対策をしているのか。「JavaScript Obfuscatorと言うツールが存在します」←あるんだ。
  • 【個人開発】爆速な賃貸物件の検索サービスを作った - Qiita

    個人開発賃貸物件の検索サービス Comfy を作りました1。グラフや地図でサクサク絞り込める UI が特徴のサービスです。とにかく気持ち良い使い勝手を実現するために色々工夫しています。 既にリリースからは 4 ヶ月以上経っているのですが、改めてサービスの概要や、システム構成及び使用した技術・サービスをご紹介しようと思います。2。 サービスの概要 Comfy は日全国の賃貸物件を検索できる Web サービス です。画面 UI は上の GIF 画像のような感じです。 こだわったポイントを色々書くよりも実際にさわって頂いた方が新感覚の UI や気持ちよさを体感頂けるかと思いますので、 実際のサービス をぜひお試し頂ければ幸いです! システム構成 図の通り、システムは大きく 3 つに分けられます。 フロントエンド バックエンド データ基盤 使用技術は図の通りではあるのですが、フロントエンド

    【個人開発】爆速な賃貸物件の検索サービスを作った - Qiita
    mohno
    mohno 2022/04/07
    見出しでデータが少ないか、APIならその速度を越えられないだろうと思っていたが、スクレイピングしてるのか。/コストかかってそうだけど、広告とかに走ったらヤバそう。/どこか正式に声がかかったら面白いけどね。
  • neue cc - .NET 6とAngleSharpによるC#でのスクレイピング技法

    C# Advent Calendar 2021の参加記事となっています。去年は2個エントリーしたあげく、1個すっぽかした(!)という有様だったので、今年は反省してちゃんと書きます。 スクレイピングに関しては10年前にC#でスクレイピング:HTMLパース(Linq to Html)のためのSGMLReader利用法という記事でSGMLReaderを使ったやり方を紹介していたのですが、10年前ですよ、10年前!さすがにもう古臭くて、現在ではもっとずっと効率的に簡単にできるようになってます。 今回メインで使うのはAngleSharpというライブラリです。AngleSharp自体は2015年ぐらいからもう既に定番ライブラリとして、日でも紹介記事が幾つかあります。が、いまいち踏み込んで書かれているものがない気がするので、今回はもう少しがっつりと紹介していきたいと思っています。それと直近Visual

    mohno
    mohno 2021/12/05
    「今回メインで使うのはAngleSharpというライブラリ」「2015年ぐらいからもう既に定番ライブラリ」←へぇぇ。/20年前にあったら便利だっただろうなあ(←オイ)
  • ベテランエンジニアがクラウドワークスで5,000円の案件を受けてみた|ebiebi_pg

    最近は営業力なくてもクラウドワークスのような便利なサイトで案件が受けれるようだ。 いざチャレンジ! 1.まずは実績作りクラウドワークスデビューを果たしたいのだが、自分は実績が1件もないので料金は度外視して「何でもいいから1件実績を作る」という作戦に出てみた。 申し込みが少ない案件を探していると下記のような案件が見つかった 「自社のオリジナル販売サイトの商品ページを解析し、某大手ショッピングモールサイト3社に自動でアップロードするロボットプログラムの作成依頼」 (10,000円) ほう… 相場を分かっていないのか けっこうな難易度のシステムを1万円ぽっきりで依頼するとはなかなかの猛者だ。 だれも申し込みしていない案件かと思いきや、他にも数名の申し込みがあった。 大丈夫か??こいつら? 2.案件獲得交渉さっそく申し込んでみるのだが、1件実績を作るという目的を達成するためになるべく案件の獲得率を

    ベテランエンジニアがクラウドワークスで5,000円の案件を受けてみた|ebiebi_pg
    mohno
    mohno 2021/01/08
    5千円とは言わないが学生時代は今では絶対請けない金額で単発の仕事をしてたことはあるな。やる人はいるんだろう。まあ質もそれなりでやりっぱなしだけど。/それで「5000円で請けた実績」って何の役に立ってるの?
  • 【Power Automateの新しいRPA機能】Power Automate Desktopの操作方法(ExcelとWebブラウザ操作の自動化) - Qiita

    【Power Automateの新しいRPA機能】Power Automate Desktopの操作方法(ExcelとWebブラウザ操作の自動化)RPAPowerAutomateDesktop サンプルファイルについて 2021/7/24 追記 Github に、ページで扱う Excel ファイルやサンプルのフローをアップロードしました。 よろしければご使用ください。 以下のイベント用にで作成したファイルになります。 はじめに Microsoft Igniteの発表でPower Automateの「per user with attended RPA plan」で「Power Automate Desktop」が使用できるようになりました。2020年9月24日でPreview版です。 この記事でPower Automate DesktopのWebレコーダーによる自動化やExcel操作を通

    【Power Automateの新しいRPA機能】Power Automate Desktopの操作方法(ExcelとWebブラウザ操作の自動化) - Qiita
    mohno
    mohno 2020/09/26
    プレビュー版だけあって意外に大きな既知の不具合があるんだ。便利そうではあるけど、こういうの、サクッとスクレイピングしてるわけで「当該サービスの提供目的を超えた利用」と言われかねない気もしないではない。
  • 機械学習で競馬の回収率100%超えを達成した話 - Qiita

    はじめに みなさん競馬はお好きでしょうか? 私は今年から始めた初心者なのですが、様々な情報をかき集めて予想して当てるのは当に楽しいですね! 最初は予想するだけで楽しかったのですが、『負けたくない』という欲が溢れ出てきてしましました。 そこで、なんか勝てる美味しい方法はないかな〜とネットサーフィンしていたところ、機械学習を用いた競馬予想というのが面白そうだったので、勉強がてら挑戦してみることにしました。 目標 競馬の還元率は70~80%程度らしいので、適当に買っていれば回収率もこのへんに収束しそうです。 なのでとりあえず、出走前に得られるデータを使って、回収率100パーセント以上を目指したいと思います! 設定を決める 一概に競馬予測するといっても、単純に順位を予測するのか、はたまたオッズを考えて賭け方を最適化するのかなど色々とあると思います。また、買う馬券もいろいろな種類があります。 今回

    機械学習で競馬の回収率100%超えを達成した話 - Qiita
    mohno
    mohno 2020/09/04
    「競馬AIはサービスとして運営しているサイトもあったり、ドワンゴが主宰の電脳賞があったり」←そうなんだ。ちゃんと読んでないが、みんなが当てるようになると配当が下がって勝てないところに落ち着くんだろう。
  • 年末年始の新幹線をPythonで予約する - ふしみのブログ

    年末年始の新幹線はすぐに予約で一杯になってしまう。最近はエクスプレス予約のWebサイトを使えばスマホやPCから即時予約できるようになったが、年末年始の「都合が変わって1週間前など新幹線を予約したい」みたいな状況では難しい。ぼくはエクスプレス予約の割引額が増えるJ-WESTカードを持っているのだけど、特にキャンセル待ちなどに優遇があるわけではないので、CYBER STATIONという空席確認Webサイトでじっといい時間の空席が現れるのを待つしかない。 というわけでPythonで解決しよう。 この記事は ふしみ Advent Calendar の10日目の記事です。 CYBER STATIONは (見た目的にも) パースがとても簡単そうなので、素直なスクレイピングが通用しそうだ。予約サイト (エクスプレス予約) は自動操作が難しそうだが、Pythonに空席状況を監視してもらって、空席が見つかっ

    年末年始の新幹線をPythonで予約する - ふしみのブログ
    mohno
    mohno 2018/12/29
    Python知らないんだけど、「必ずリクエストの間には充分な間隔を開けよう」で「time.sleep(5)」って5秒?
  • 1