並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 368件

新着順 人気順

scrapingの検索結果41 - 80 件 / 368件

  • 7594591200220899443 on Twitter: "ひえーFacebook、Aタグの上でマウス押下した瞬間にhref書き換えてんのか!で次の瞬間マウスクリックするとその書き変わったURLを踏む https://t.co/7r8ZccLLnk"

    ひえーFacebook、Aタグの上でマウス押下した瞬間にhref書き換えてんのか!で次の瞬間マウスクリックするとその書き変わったURLを踏む https://t.co/7r8ZccLLnk

      7594591200220899443 on Twitter: "ひえーFacebook、Aタグの上でマウス押下した瞬間にhref書き換えてんのか!で次の瞬間マウスクリックするとその書き変わったURLを踏む https://t.co/7r8ZccLLnk"
    • 例のスクレイピングしてる不動産物件検索が復活・・・で、結局「不動産屋が悪で黒い」、という話に・・・Orz|torum

      以前、「スクレイピングした物件データを利用した物件検索サービスは問題ないのか」で取り上げたサービスですが、再度リニューアルして復活した模様です。 あきらめずに再び立ち上がる根性があるのを見るのは大好きであります。 これが、また某所で少し話題になっていました。 「使いやすい」、と、多少の支持もあるようですね。大手不動産物件検索サイトの運営者も、自社のサービスに改善の余地があると自戒すべきことです。 ただ・・・ ・そもそもレインズを客に見せない不動産業界が黒い ・レインズ公開しちゃったら宅権協会の入会者が減って稼げなくなる ・レインズの閉鎖性はどうにかしたい。 ・レインズを囲ってる連中に喧嘩を売るのは危険 ・不動産事業者から刺されてもおかしくない だーかーらー ・・・ Orz そういう単純な話しでは無いのであります。詳しくは「レインズの情報を一般公開しない理由とは」と、「巷の「レインズの『オー

        例のスクレイピングしてる不動産物件検索が復活・・・で、結局「不動産屋が悪で黒い」、という話に・・・Orz|torum
      • レインズの情報を一般公開しない理由|torum

        本日、note運営から「あなたの記事が話題です!先週もっとも多く読まれた記事の一つになりました!」というメッセージを頂戴しました、ありがとうございます。先日の、「スクレイピングした物件データを利用した物件検索サービスは問題ないのか」であります。 その関連で色々な人の意見をつらつらと読んでいたところ、やはり、「レインズの情報を公開しろ」、というコメントが散見されました。いわゆるレインズのオープン化、と言われるやつですね。 レインズとそれにまつわるもろもろは、物凄く誤解が多く、適当な話しが出回り過ぎているので、本当にウンザリで、どれだけの人が分かって言っているのかは不明であります。 以前より、「レインズの情報は不動産ジャパンに掲載されている」みたいなデマは何度も何度も見かけます。「米国では一般でも普通にMLSを見れる」、みたいなデマも。 不動産や取引に係る情報は、機微な情報(売り主の特定に繋が

          レインズの情報を一般公開しない理由|torum
        • Google『reCAPTCHA』を突破!『2Captcha』でブラウザ操作の完全自動化に挑む - Qiita

          目次 はじめに 2Captchaとは 2Captchaの使用準備 Python+Selenium+2Captchaで『reCAPTCHAv2』を突破 さいごに 参考 はじめに スクレイピングやブラウザ操作の自動化タスクにおける一番の難所は各種キャプチャの突破だと思います。そもそもキャプチャ機能はロボット操作されないために設置するものなので,それを突破しようとする時点でどうなのという気はしますが,それでもなんとかしたいと思うことがあります。そんなときの解決方法として「2Captcha」というサービスがあります。 最近このサービスを知り利用してみたところ,あまりに簡単にキャプチャ突破できたので,ここで紹介しようと思います。 ※ ご利用は自己責任でお願いします。くれぐれも悪用しないように。 2Captchaとは ロシアの会社が提供するキャプチャ機能を突破するためのサービスです。 2Captcha

            Google『reCAPTCHA』を突破!『2Captcha』でブラウザ操作の完全自動化に挑む - Qiita
          • ルーチンワークはPythonにやらせよう Seleniumで勤怠処理を自動化する - Qiita

            勤怠処理の自動化は、以下の仕組みによって実現しています。 在宅勤務と出社では勤怠処理が異なるため、基本的にフルリモート前提で在宅勤務の場合に処理を行うよう設定しています。 cronによってシェルスクリプトを起動 シェルスクリプトで在宅勤務の判定を行う 在宅勤務の場合、Pythonのプログラムを起動 Seleniumで勤怠入力 実装 Pythonのプログラムは、仮想環境を作成して実行しています。 仮想環境の作成及びSeleniumの導入 Pythonの仮想環境はvenvを使用して作成します。 仮想環境を作成するためには、以下のコマンドを実行します。 <Dir>には任意のディレクトリ名を指定します。 $ python3 -m venv <Dir> $ source <Dir>/bin/activate 仮想環境構築後、seleniumをインストールします。 仮想環境が有効な場合はプロンプトの表

              ルーチンワークはPythonにやらせよう Seleniumで勤怠処理を自動化する - Qiita
            • GitHub - microsoft/playwright: Playwright is a framework for Web Testing and Automation. It allows testing Chromium, Firefox and WebKit with a single API.

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                GitHub - microsoft/playwright: Playwright is a framework for Web Testing and Automation. It allows testing Chromium, Firefox and WebKit with a single API.
              • 退職エントリを毎日自動で集めるBlogを作った - Qiita

                概要 退職エントリって良いですよね。 人生色々ですよね。 作ったもの 退職エントリまとめ これ自体は、ただのはてなブログです。 退職エントリをあつめる cheerio-httpcliで、タイトルに「退職しました」や、「退職します」が付いてるサイトのURLを Google検索結果から集めます。 const client = require('cheerio-httpcli'); // "退職しました"を検索する。"&tbs=qdr:d"を付与すると24時間以内の検索になる。 const BASE_URL_GOOGLE = 'https://www.google.com/search?q=%22%E9%80%80%E8%81%B7%E3%81%97%E3%81%BE%E3%81%97%E3%81%9F%22&tbs=qdr:d&start='; // はてブなど、除外したいサイトを登録しておく

                  退職エントリを毎日自動で集めるBlogを作った - Qiita
                • オンラインドキュメントと日本語全文検索

                  自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日本語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。 そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。 ただ、なんとかして日本語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。 まとめ日本語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

                    オンラインドキュメントと日本語全文検索
                  • Twitter、ログインしないと何も表示できない状態に 「一時的な緊急措置」とマスク氏

                    6月30日深夜ごろ(日本時間)から、アカウントにログインせずにTwitterにアクセスしようとすると、コンテンツが表示されなくなっている。Webアプリだけでなく、モバイルアプリでも同様だ。以前は一般公開されたツイートが表示できていたが、現在はTwitterにログインあるいは新規にアカウントを登録するよう求める画面にリダイレクトされる。

                      Twitter、ログインしないと何も表示できない状態に 「一時的な緊急措置」とマスク氏
                    • idをautoincrementして何が悪いの?

                      idをautoincrementしない方が良い理由 こんにちは。株式会社プラハCEOの松原です。 最近プラハチャレンジの参加者とお話している際に 「PKのidはautoincrementするとして...」 とナチュラルにid=autoincrementするものという前提が見えたので、「本当にidをautoincrementしても良いものだろうか?」と気になったことを書いてみようと思います。もしフレームワークが自動的にautoincrementでテーブルを作るからなんとなく使っているという方がいたらご一読いただいた後、それでも連番を使いたい理由があれば教えて欲しいです・・! 不必要に情報を晒すことになる スクレイピングされたり もしも僕が某大手に勤めているエンジニアで「競合サービスAにのってる物件情報、全部コピーして新しいサービス作ろうぜ」と指示されたらですよ?「人としてそれはやっちゃダメで

                        idをautoincrementして何が悪いの?
                      • Pythonで自動化できること7選!面倒な作業を効率化してより便利に

                        Pythonの自動化でできることとはPythonは構文がシンプルで読みやすく、書きやすいプログラミング言語であるため初学者でも習得しやすい言語です。Pythonでは機械学習やデータ分析などさまざまなことができますが、会社で使う場合にはPythonの自動化ツールが活躍してくれます。 この記事では、Pythonの自動化でできることを1つ1つ詳しく解説していきます。そもそもPythonとはどういう言語なのか、どういった人に需要のある言語なのか、Pythonエンジニアの年収について解説します。Pythonを学ぶ初心者の方は、入門編としてぜひこの記事を参考にしてください。

                          Pythonで自動化できること7選!面倒な作業を効率化してより便利に
                        • AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog

                          2022年5月24日(米国時間)、SANS ISCのフォーラムでPython向けライブラリの1つ(その後PHP向けライブラリでも判明)が第三者により不正なコードを含むアップデートが行われていたとして注意を呼び掛ける投稿が行われました。その後この行為に関わっていたとして実行者とみられる人物が顛末を公開しました。ここでは関連する情報をまとめます。 改ざんされた2つのライブラリ 今回影響が確認されたのPython Package Index(Pypi.org)で公開されている「ctx」、Packagist(Packagist.org)で公開されている「PHPass」の2つ。 影響を受けたライブラリ インストール実績 改ざんされたとみられる期間 概要 ctx 約75万回 2022年5月14日~5月24日頃 辞書(dict型オブジェクト)を操作するユーティリティを提供するPython向けのパッケージ

                            AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog
                          • 【Linux】スクレイピングにはNordVPNが便利・設定方法を解説

                            Webスクレイピングをしたいのだけど、VPNやプロキシーで一番良いサービスはないだろうか!? Linuxで使えるベストなVPNサービスを教えてほしい! …という形に、最適なプラクティスをご紹介します。 ということで、こんにちは! Webサイトを自動で取得する「Webスクレイピング」をする上で、必ずネックとなるのがアクセスするIPアドレスの問題です。 スクレイピングする対象のサービスの営業妨害にならない範囲でスクレイピングするのは言うまでもない当然の話ですが、Webサイトによっては、少しのアクセスでも不正なアクセスと認識してIPアドレスごとブロックしてしまうことがあります。 これを回避するためには、定期的なIPアドレス変更などの対応が必要です。 一般的にはこうした問題はプロキシーやVPNサービスを使って回避することになりますが、具体的にはどうしたら良いのでしょう? 結論を言いますと、「Nor

                              【Linux】スクレイピングにはNordVPNが便利・設定方法を解説
                            • シンプルかつ高速な文字列照合アルゴリズムを紹介します - エムスリーテックブログ

                              こんにちは! エンジニアリンググループ マルチデバイスチーム 新卒1年目の小林です。 エムスリーでは、2週間に1度、Tech Talkという社内LT会(現在はリモートで)が開催されています。これは、とある回の発表テーマリストです。 Tech Talkのとある回の発表テーマリスト このように、最近エムスリーでは文字列が流行っている(?)ようなので、その勢いに乗って私も文字列照合アルゴリズムについて書きたいと思います!(業務とは全然関係ない話です) Knuth-Morris-PrattやBoyer-Mooreアルゴリズムは解説記事がたくさん出ていると思うので、この記事ではシンプルかつ高速なQuick-SearchとQuite-Naiveアルゴリズムについて説明し、速度比較を行った結果についてご紹介します。 文字列照合アルゴリズムとは テキストとパターンという文字列が与えられたときに、中に出現す

                                シンプルかつ高速な文字列照合アルゴリズムを紹介します - エムスリーテックブログ
                              • 画像ファイルやデータベースの文字列を「grep」のように検索できる「ripgrep-all」

                                Linuxのコマンドラインで文字列を検索する際に必要不可欠なコマンドといえば「grep」です。しかし、grepは動画ファイルやPDFファイルの文字列を検索できないのが弱点。そんなgrepの弱点を克服し、動画ファイルのメタデータやデータベースのレコード、画像ファイル内の文字列まで検索可能なコマンドが「ripgrep-all(rga)」です。 GitHub - phiresky/ripgrep-all: rga: ripgrep, but also search in PDFs, E-Books, Office documents, zip, tar.gz, etc. https://github.com/phiresky/ripgrep-all rgaはLinuxに限らずWindowsやmacOSでも利用することが可能。今回はUbuntu 20.04でrgaを利用してみます。以下のコマンドを

                                  画像ファイルやデータベースの文字列を「grep」のように検索できる「ripgrep-all」
                                • Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ

                                  はじめに Webスクレイピングの基本事項 Webスクレイピング(Scraping)とは Webスクレイピングの活用シーン Webスクレイピングの基本的な仕組み Webスクレイピングの注意事項 取得先への攻撃とみなされたり、規約違反や、著作権法違反に問われることもある 取得先の変更に影響を受ける 取得先がAPIを公開しているならそちらを活用する方が良い Webスクレイピングの実践方法 Webスクレイピングを実践するには 1. ベンダーのサービスやツールを利用する 2. 自分でプログラムを作成する なぜPythonなのか? Pythonでのスクレイピング実践方法 事前準備 BeautifulSoup4のインストール 模擬Webサイトの構築 Webサーバーを立ち上げる 初級編:特定の要素から単一の要素を抜き出す 中級編:あるページから繰り返しを伴う複数の要素を抜き出す 上級編:複数のページから複

                                    Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ
                                  • PR TIMES、自社の杜撰な仕様ミス(公開前でもURLを推測して直打ちすれば公開状態)を不正アクセスと言い張る : 市況かぶ全力2階建

                                    国策企業扱いのさくらインターネット、501億円の補助金で国を財布にした後は200億円の株券印刷で株主を財布に

                                      PR TIMES、自社の杜撰な仕様ミス(公開前でもURLを推測して直打ちすれば公開状態)を不正アクセスと言い張る : 市況かぶ全力2階建
                                    • GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例

                                      こんにちは。わいけいです。 今回の記事では、生成AI界隈ではかなり浸透している RAG について改めて解説していきます。 「低予算で言語モデルを使ったアプリを開発したい」というときに真っ先に選択肢に上がるRAGですが、私自身もRAGを使ったアプリケーションの実装を業務の中で何度も行ってきました。 今回はその知見をシェア出来れば幸いです。 RAG(Retrieval-Augmented Generation)とは まず、 そもそもRAGとは何ぞや? というところから見ていきましょう。 RAG(Retrieval-Augmented Generation) は自然言語処理(NLP)と特に言語モデルの開発において使用される技術です。 この技術は、大規模な言語モデルが生成するテキストの品質と関連性を向上させるために、外部の情報源からの情報を取得(retrieval)して利用します。 要は、Chat

                                        GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例
                                      • 月間1.6億秒の Lambda x Node.js 利用から得られた知見

                                        はじめにStockmark のプロダクトでは、各メディアから記事を収集するために AWS Lambda (実行環境はNode.js) を大量に利用しています。「大量」とは実際にはどの程度なのかを紹介すると、月間で 1.6億 秒ほど(1日で約60日分) 使用しています。もしかしたら「えっ、なんでそんなに使っているの?」と思われているかもしれません。 本記事ではその疑問に回答しつつ、実運用から得られた知見を一部共有していきます。段階的に理解いただけるように、技術選定理由から説明していきます。 なぜ Node.js なのか?なぜ AWS Lambdaなのか?Lambda x Node.js でスクレイピングする際の落とし穴ということで、早速1つ目からいってみましょう! なぜ Node.js なのか?ストックマークのプロダクトでは、Web記事などを中心としてスクレイピングして収集した情報をベースに

                                          月間1.6億秒の Lambda x Node.js 利用から得られた知見
                                        • GitHub - mgdm/htmlq: Like jq, but for HTML.

                                          $ htmlq -h htmlq 0.4.0 Michael Maclean <michael@mgdm.net> Runs CSS selectors on HTML USAGE: htmlq [FLAGS] [OPTIONS] [--] [selector]... FLAGS: -B, --detect-base Try to detect the base URL from the <base> tag in the document. If not found, default to the value of --base, if supplied -h, --help Prints help information -w, --ignore-whitespace When printing text nodes, ignore those that consist entirel

                                            GitHub - mgdm/htmlq: Like jq, but for HTML.
                                          • 【Power Automateの新しいRPA機能】Power Automate Desktopの操作方法(ExcelとWebブラウザ操作の自動化) - Qiita

                                            【Power Automateの新しいRPA機能】Power Automate Desktopの操作方法(ExcelとWebブラウザ操作の自動化)RPAPowerAutomateDesktop サンプルファイルについて 2021/7/24 追記 Github に、本ページで扱う Excel ファイルやサンプルのフローをアップロードしました。 よろしければご使用ください。 以下のイベント用にで作成したファイルになります。 はじめに Microsoft Igniteの発表でPower Automateの「per user with attended RPA plan」で「Power Automate Desktop」が使用できるようになりました。2020年9月24日でPreview版です。 この記事でPower Automate DesktopのWebレコーダーによる自動化やExcel操作を通

                                              【Power Automateの新しいRPA機能】Power Automate Desktopの操作方法(ExcelとWebブラウザ操作の自動化) - Qiita
                                            • コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball

                                              名著です,まじでオススメ 個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリー をご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ! っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル(現実世界)に迷惑

                                                コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball
                                              • anypicks.jp - anypicks リソースおよび情報

                                                This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

                                                  anypicks.jp - anypicks リソースおよび情報
                                                • n8n.io - a powerful workflow automation tool

                                                  Secure, AI-native workflow automation The world's most popular workflow automation platform for technical teams

                                                    n8n.io - a powerful workflow automation tool
                                                  • 個人開発したサービスのバックエンドを Python から Rust に書き換えてみた

                                                    はじめに 過去の記事『淡路島発着の高速バス検索サービス「GO TO AWAJI」をリリースした話』で Python を用いて個人開発サービスのバックエンドを実装したことを紹介しました。 勉強のためにこのサービスのバックエンドの一部を Rust で書き換えたので、本記事で紹介させて頂きます。 クローラーサービス 今回 Python から Rust に書き換えを行ったのはクローラーと呼んでいるサービスです。 これは GCP の Cloud Run 上で動いており、 Cloud Scheduler から定期的に実行されて以下のことを行っています。 クローラーサービスのシステム構成 各バス会社の新着情報をスクレイピングする 取得した新着情報を DB (SQLite) に保存されている過去の新着情報と比較する 新しい新着情報が存在する場合DBに保存し、SendGrid で筆者宛にメールで通知する な

                                                      個人開発したサービスのバックエンドを Python から Rust に書き換えてみた
                                                    • Pythonの15年間見過ごされてきた脆弱性が30万件以上のオープンソースリポジトリに影響を与える可能性

                                                      プログラミング言語のPythonで、2007年に存在が公開されたものの修正されなかったバグが再発見されました。任意コード実行可能な脆弱性にもつながるこのバグの影響は、コーディング自動化ツールを介してさまざまなプロジェクトに広まっており、修正するべきオープンソースリポジトリが35万件以上にも及ぶと指摘されています。 Tarfile: Exploiting the World With a 15-Year-Old Vulnerability https://www.trellix.com/en-us/about/newsroom/stories/threat-labs/tarfile-exploiting-the-world.html Tarfile: Exploiting the World With a 15-Year-Old Vulnerability https://www.trell

                                                        Pythonの15年間見過ごされてきた脆弱性が30万件以上のオープンソースリポジトリに影響を与える可能性
                                                      • データサイエンスにオススメの本80冊! - Qiita

                                                        文字数が超えるため、本の画像をて削除しました。興味がある方は、元記事をご覧ください。 2019年データサイエンスにオススメの本80冊! ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! #Part I: データサイエンス概論 1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイ

                                                          データサイエンスにオススメの本80冊! - Qiita
                                                        • 「つみたてNISAは米国インデックスファンド放置で良い」は本当か? - Qiita

                                                          こんにちは、最近になってつみたてNISAを始めた今年2年目の社会人です。つみたてNISAは運用益が非課税、半自動的に積立運用可能、途中で取り崩し可能と様々なメリットがあり、非常に有益な制度です。そんなつみたてNISAを活用する上でよく耳にするのは「信託報酬が安くてパフォーマンスの高い米国インデックスファンド一択!一時的に暴落しても戻るから気にするな!」という話です。確かに2000年のITバブル崩壊、2008年のリーマンショックという暴落を経験しながらも、S&P500といった代表的な米国インデックスの直近20年のパフォーマンスは素晴らしいです。 しかし、本当に米国インデックスファンドを積立・放置するだけでいいんでしょうか?頭を使わずに、というのは言い過ぎかもしれませんが放置しているだけで資産が殖えるなんて美味い話、不安を感じるのも確かです。そこで過去に米国インデックスファンドを積立・放置して

                                                            「つみたてNISAは米国インデックスファンド放置で良い」は本当か? - Qiita
                                                          • Twitter Rate Limitsに関するアップデート

                                                            <path opacity="0" d="M0 0h24v24H0z" /> <path d="M17.207 11.293l-7.5-7.5c-.39-.39-1.023-.39-1.414 0s-.39 1.023 0 1.414L15.086 12l-6.793 6.793c-.39.39-.39 1.023 0 1.414.195.195.45.293.707.293s.512-.098.707-.293l7.5-7.5c.39-.39.39-1.023 0-1.414z" /> </svg>" data-icon-arrow-left="<svg width="28px" height="28px" viewbox="0 0 28 28" version="1.1" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://ww

                                                              Twitter Rate Limitsに関するアップデート
                                                            • Webサイト・アプリのページ構成を分析、サイトマップを自動的に作成するオンラインサービス -Visual Sitemaps

                                                              指定したWebサイトやWebアプリのページ構成を分析し、サイトマップを高解像度スクリーンショット付きで自動的に生成するオンラインサービスを紹介します。 UI、UX、SEO、およびマーケティングなどの調査もこれなら簡単です。トップのURLを指定し、あとは少し待つだけで、自動的に生成されます。

                                                                Webサイト・アプリのページ構成を分析、サイトマップを自動的に作成するオンラインサービス -Visual Sitemaps
                                                              • クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG

                                                                こんにちは!最近気になるニュースはスピノサウルスの尻尾の化石が発見されたこと1な、SRE部エンジニアの塩崎です。ZOZOテクノロジーズの前身となった会社の1つであるVASILYでは数多くのクローラーの開発・運用の担当をしてきました。 今回はその知見を生かして、クローラーを楽に運用するためのクラウドサービスを紹介します。 概要 データ解析を円滑に進めるためには、CSVやWeb APIなどの構造化されたデータが必要です。しかし全てのWebサイトにあるデータが構造化データを提供しているとは限りません。むしろ提供していないケースの方がはるかに多いです。そのため、Webクローラーを作成して構造化されていないWebページを解析し、構造化データを生成する必要があります。 しかし、Webクローラーの運用には数多くの「つらみ」があります。特に大量のWebページを1日1回などの頻度で定期的にクロールする際には

                                                                  クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG
                                                                • AWS LambdaでSeleniumとActiveRecordを扱う · フロッピーディスクの残骸

                                                                  気付いたらもう9月ですね。 最近、AWS Lambdaでいろいろと遊ぶ機会があったのでメモとして残します。 はじめに とあるセキュリティゲームの運営用に、SeleniumでWebスクレイピングをやっているRubyのスクリプトをEC2で運用していたのですが、Headless Chromeを扱うため大量に起動するとメモリ食っちゃうし、スケールしようにもEC2インスタンスのAutoScaling組むのもちょっとなあ。とか、インスタンスの起動まで待ってられないからある程度多めにインスタンスを実行したりするのも余分にコストが。。。 1実行に15分もかからないスクリプトだし、ということでLambdaに移行することにしました。 Lambda Layerについて Headless Chromeを扱う場合、単純にFunctionのデプロイパッケージにバイナリを含めると50MBを超えてしまうため、Lambda

                                                                  • Pythonのみで業務スーパーの各店舗と気象状況を可視化する - Qiita

                                                                    みなさん、業務スーパー使ってますか?私は、朝ごはんに業務スーパーのインスタントフォー(チキン味)を食べるようにしていることから、週1回は業務スーパーに通っています。最近、全都道府県に店舗が出店されたそうです(パチパチパチ)。 というわけで、業務スーパーの全店舗の位置をプロットしてみようかと思いました。あと可視化だけだとちょっと退屈なので、気象データを使っていくつかの店舗の気温の比較を行います。foliumで作った可視化は次のようになります。 開発環境: Python 3.9.1 folium 0.12.1 pandas 1.2.3 requests 2.25.1 requests_html 0.10.0 xarray 0.16.2 ハンズオン開催します はんなりPythonで、この記事であったrequests / requests-htmlを使ったデータ取得ハンズオンを行います。ご関心をお

                                                                      Pythonのみで業務スーパーの各店舗と気象状況を可視化する - Qiita
                                                                    • 📝数値という理由だけで input[type="number"] 要素を使わない|たかもそ/Web Creator.

                                                                      フォームに入力する値といえば、電話番号や年齢、クレジットカード番号など様々です。しかし、数字を使っているからといってむやみに <input type="number"> 要素を使うと問題が起きます。 数字であって数値でないWHATWG の仕様には次のように書かれています。 The type=number state is not appropriate for input that happens to only consist of numbers but isn't strictly speaking a number. For example, it would be inappropriate for credit card numbers or US postal codes. A simple way of determining whether to use type=num

                                                                        📝数値という理由だけで input[type="number"] 要素を使わない|たかもそ/Web Creator.
                                                                      • 「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表

                                                                        2023年7月1日にGoogleがプライバシーポリシーを変更し、「GoogleのAIモデルのトレーニング」のために「一般に公開される情報」を使用すると明言したことが分かりました。記事作成時点で、このプライバシーポリシーはアメリカ国内向けに発行されています。 プライバシー ポリシー – ポリシーと規約 – Google https://policies.google.com/privacy/archive/20221215-20230701 Google Says It'll Scrape Everything You Post Online for AI https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486 VPNやインターネットアーカイブなどを通してアメリカ国内向けのプラ

                                                                          「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表
                                                                        • 詐欺られた(注意喚起の拡散希望)

                                                                          訪れたサイトが扱っていた商材はかなりマニアックなもので、その商品以外の商品もたくさんあってページもひとつひとつしっかりしていて特集バナーなども作ってあり自然な作り しかし実態はヤフオクのスクレイピングで大量に商品が登録されているだけの中古ショップ風のただのダミーのフィッシングサイトだった 自分が買おうとした物があまりにマニアックだったため、そんなマニアックでスーパーニッチなものをまさか詐欺の商材としようとする人間がいるとは思わず、全く警戒してなかったため、サイトの細部までよく調査をせず普通に振り込んでしまった しかし振り込んだあとは待てど暮せど発送されず連絡も取れない 主犯か受け子かしらないが口座名義はおそらくタイかベトナム風の名前(←これについてもこの時点でん?と思ったがスルーしてしまった心境は後述の追記やトラバ参照。この時点では全ての警戒センサーがオフになっていたのでよく考えたらタイ・

                                                                            詐欺られた(注意喚起の拡散希望)
                                                                          • Playwrightも知らないで開発してる君たちへ - Qiita

                                                                            重要なのはここで、 pw.webkit.launch() とするか pw.chromium.launch() とするかで 起動するブラウザが変わるだけです。 デバイスの設定も簡単 pw.devices に主な端末のviewport, UAの情報がまとめられています。 デバイスのリスト: https://github.com/microsoft/playwright/blob/master/src/deviceDescriptors.ts const pw = require('playwright'); // iPhone11のデバイス情報を取得 const iPhone11 = pw.devices['iPhone 11 Pro']; (async () => { const browser = await pw.webkit.launch(); const context = awai

                                                                              Playwrightも知らないで開発してる君たちへ - Qiita
                                                                            • GASを使ったスクレイピングの作成手順を紹介! | 株式会社LIG(リグ)|DX支援・システム開発・Web制作

                                                                              こんにちは! エンジニアのまうみです。 突然ですが、「今使ってるブログサービスからWordPressに引っ越ししたい」と検討中の方はいらっしゃいますか。 もし、現在のブログサービスに記事をエクスポートする機能がない場合、手作業で記事を更新する必要があります。10記事程度ならまだしも、100記事以上ともなると、それは流石に手作業では骨が折れますね。 そこで今回はGoogle Apps Script(以下:GAS)で、スクレイピングしたデータをスプレッドシートに保存するプログラムを作り方をご紹介します。 【前提】スクレイピングとは スクレイピングとは、あらかじめ指定したWebサイトを巡回して情報を取得し、新たな情報を出力するためのプログラムです。 今回は、開発環境を構築することなく簡単にプログラムを実行できるGASを使用します。特に開発環境は初心者がつまづくところなので、そこをスキップできるの

                                                                                GASを使ったスクレイピングの作成手順を紹介! | 株式会社LIG(リグ)|DX支援・システム開発・Web制作
                                                                              • Webサイトの丸ごとダウンロードツール「Cyotek WebCopy」がJavaScriptをサポートへ/コアエンジンを書き直した「Cyotek WebCopy 1.8」がテスト公開

                                                                                  Webサイトの丸ごとダウンロードツール「Cyotek WebCopy」がJavaScriptをサポートへ/コアエンジンを書き直した「Cyotek WebCopy 1.8」がテスト公開
                                                                                • 第662回 Docker+Selenium ServerでWebブラウザ自動操作環境を作る | gihyo.jp

                                                                                  今回は、Selenium ServerによるWebブラウザ自動操作環境を、Ubuntu上にDockerを使って簡単に構築する方法を紹介します。 Webブラウザの自動操作を可能にするSelenium Seleniumは、Webアプリケーションのテストを、人が操作することなく自動で行うために開発されているソフトウェアです。本来は「テストの自動化」のために開発されたソフトなのですが、Webブラウザを用いて行っている業務の自動化や、Webサイトの情報を自動収集するスクレイピングなどにも使われています。 今回、主に紹介するのは「Selenium Server」を使う方法ですが、他に「Selenium IDE」というFirefoxおよびGoogle Chrome用の拡張機能も開発・配布されています。Selenium IDEを使えば、デスクトップ環境でWebブラウザの操作を記録し、簡単に再実行させること

                                                                                    第662回 Docker+Selenium ServerでWebブラウザ自動操作環境を作る | gihyo.jp