並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 422件

新着順 人気順

scrapingの検索結果1 - 40 件 / 422件

  • 【スクレイピングツール】面倒な情報収集はGoogle Spreadsheetにやらせよう! - DAINOTE

    毎日同じような作業でこのように思っている人はいないでしょうか。 あ~毎日ネットにアクセスして、同じデータ収集するの面倒くさいなぁ こういう退屈な作業、自動でやってくれないかな でもプログラミングできないしなぁ。勉強すんのも面倒くさいなぁ。 そんな人に朗報です。今回は、プログラムをかけない人でも、ネットから情報を自動収集する方法をまとめます。 今回使うのは、Google Spreadsheetという、エクセルに似たWeb上のアプリケーションです。実はネット上の情報を自由に取得(スクレイピング)できるツールだとは知られていません。そんな裏の使い方を今回は説明したいと思います。

      【スクレイピングツール】面倒な情報収集はGoogle Spreadsheetにやらせよう! - DAINOTE
    • 食べログ3.8問題に終止符を打つ

      import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json import glob import math from pathlib import Path from collections import Counter from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score from sklearn.metrics import confusion_matrix from sklearn.metrics import roc_auc_score from sklearn.model_selection imp

      • 「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開

        「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開 新型コロナウイルス感染症の患者数や、感染者用の病床数などを都道府県ごとに表示した「新型コロナウイルス対策ダッシュボード」がネットで話題に。開発者の福野泰介さんに経緯を聞いた。 新型コロナウイルス感染症の患者数や、感染者用の病床数などを都道府県ごとに表示した「新型コロナウイルス対策ダッシュボード」が、ネットで話題を呼んでいる。Twitterでは「病床の使用率が一目瞭然」「都市部の病床数がギリギリなのが分かる」と好評だ。Facebook上のシェア数は4000近くあり、開発者の福野泰介さんは「バグを疑ったくらいです」と驚く。 福野さんは、福井県鯖江市のソフトウェアメーカー「jig.jp」の会長を務める傍ら、東京都が開設した「東京都新型コロナウイルス感染症対策サイト」

          「ひっ迫した状況が一目瞭然」新型コロナ病床数まとめサイト、大反響に「バグを疑った」と開発者仰天 “医療現場の声”励みにスピード公開
        • データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary

          (2019/10/12追記 データ解析のプログラムもGitHubで公開しました) (2019/10/15追記 会員の見分け方に誤りがありました。本文中では"非会員"と"有料会員"に分けると述べていますが、正確には"非会員・無料会員"と"有料会員"に分かれています。以後の図・文章は脳内で変換していただけると幸いです。詳細は https://anond.hatelabo.jp/20191011180237 で他の方が調べてくださっています) はじめに この記事は、藍屋えん氏( @u874072e )の以下のブログに触発されて、個人的に行った一連のデータ解析をまとめたものです。 clean-copy-of-onenote.hatenablog.com 上のブログでは、食べログ3.8問題と称される問題、 「評価3.8以上の店舗は年会費を払わなければ評価を3.6に下げられる」 との説を食べログの店舗

            データ解析を駆使して食べログ3.8問題が証明できなかった話 - konkon3249’s diary
          • 思わずWeb開発で使いたくなる便利機能をAPIで提供するサービスを厳選してみた! - paiza開発日誌

            どうも、まさとらん(@0310lan)です! 今回は、Webサービスやアプリ開発などで便利に使える機能をAPIで提供しているサービスを厳選してみたのでご紹介いたします。 画像系、ストレージ、CMS、認証系、APIモック…など、さまざまな用途に使えるサービスの特徴や基本的な使い方も合わせて解説しています。いずれも無料で使えるものばかりなので、ご興味ある方はぜひ参考にしてみてください! ■イラスト風のアバター画像を取得できるAPI 【 Joe Schmoe 】 Webサイト、ブログ、SNSなどに利用可能なアバター画像を取得できるAPIです。 イラスト風の人物画像を取得できるのが特徴で、Webサイトのチームページにアバターとして利用できるほか、自分のプロフィール画像やブログに挿入する画像など無料で利用できます。 使い方は簡単で、以下のような構成のエンドポイントを実行するだけです。 https:/

              思わずWeb開発で使いたくなる便利機能をAPIで提供するサービスを厳選してみた! - paiza開発日誌
            • Node.js でお手軽スクレイピング 2020 年夏 - Qiita

              皆さんは Web ページのスクレイピングって書いた事ありますか?私はあります。だってどんなに平和で平穏な生活を送っていても数年に一度はスクレイピングってしたくなりますよね。「うわーまじか!API ないのかよ…。」的な。 そうしたら HTTP クライアントと HTML パーサのライブラリを探してきてインストールした上でごりごり書くことになると思います。でも実際に書いてみると、そうやってライブラリのインストールをしたりサンプルコードで動作確認している時間よりも、HTML を解析して実際にパースしたところから対象の要素を取得して欲しい値を取り出す試行錯誤の時間の方が長かったっていう事はないですか? 今日ご紹介する Node.js でお手軽スクレイピングは、その辺の試行錯誤の手間を極力減らすことが出来る方法です。2020 年夏の最新版です。 まずは環境から。特に古いものを使う理由もないので 202

                Node.js でお手軽スクレイピング 2020 年夏 - Qiita
              • 【自動化】PDF内の表をPythonで抜き出す - Qiita

                PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData

                  【自動化】PDF内の表をPythonで抜き出す - Qiita
                • Twitter障害はスクレイピングではなく“自己DDoS”が原因?

                  Twitterのオーナー、イーロン・マスク氏は7月1日、Twitterでの“サービスの低下”の原因を「数百の組織がTwitterのデータを極度なレベルでスクレイピングしている」ことだとツイートしたが、原因は別のところにあるようだと、フリーランスのWeb開発者、シェルドン・チャン氏がMastodonの投稿で指摘した。 この“サービスの低下”で、多数のユーザーが投稿を読めなくなっている。マスク氏は2日、「極端なレベルのデータスクレイピングとシステム操作に対処するため」にユーザーが読める投稿数に制限を加えたとツイートした。 だがチャン氏は、異常なトラフィックの原因として、TwitterのWebアプリのバグにより、無限ループ状態でTwitterにリクエストが送信されていることを発見したと動画を添えて説明した。この動画では毎分数百件のリクエストが送信されていることが確認できる。 左の動画は、レートが

                    Twitter障害はスクレイピングではなく“自己DDoS”が原因?
                  • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

                    このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

                      無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
                    • pythonを使った株価の自動収集 - Qiita

                      Help us understand the problem. What are the problem?

                        pythonを使った株価の自動収集 - Qiita
                      • 行政をハックし、行政データをオープンにしてみようとした結果

                        2019年6月29日に開催されたCivic Tech Forum 2019の資料です。

                          行政をハックし、行政データをオープンにしてみようとした結果
                        • ノーコードでWebページをスクレイプできるChrome拡張「AnyPicker」

                          ◆ AnyPicker https://anypicker.ryang-studio.com/ 紹介 「AnyPicker」は、ノーコードでWebページをスクレイプできるChrome拡張ツールです。 Chrome拡張機能をインストール後、スクレイプするWebサイトを開くとこのようなサイドバーが出現します。 STEPは全部で5つあり、その1つ目がこちら。今回は初めての登録なので「New recipe」を選択します。 続いてSTEP2、ここで実際にスクレイプするコンポーネントを登録していきます。 取得対象にカーソルを合わせてクリックすると フィールドとバリューが取得できます。 同じ要領で、ピックアップ全部のタイトルを選択しました。 なお、フィールド値は自由に設定可能。後にアウトプットデータのKey値になるので、取得しやすい英単語が好ましいでしょう。 続いてSTEP3は、リンク元を取得&サジェス

                            ノーコードでWebページをスクレイプできるChrome拡張「AnyPicker」
                          • GitHub に漏れ出た内部コードを探す ~ 上場企業 3900社編 ~ - ぶるーたるごぶりん

                            全1回、このシリーズは今回で最後です! TL;DR 上場企業 3900 社程に対して、すごく大雑把な「内部コード等の漏洩調査」を GitHub 上で行った 結果としては、重要度の高いものから低いものまで 10社ほどで漏洩が確認された 重要度の高いものとして、社外秘っぽそうなスプレッドシート、社員のハッシュ化パスワード(BCrypt)、 AWS Credential 等 「大雑把な」調査を行ったが、より精度の高い方法等について記事内にて触れていく 脅威インテルとか DLP みたいなエリアとかも、外部企業とかに頼るだけじゃなく「自分たちでも」頑張ってみるのがいいんだと思います GitHub Code Search ... すげえぜ! Google Dorks ならぬ、 GitHub Dorks + GitHub Code Search でまだまだいろいろできるはず。 はじめに チャオ! 今回は

                              GitHub に漏れ出た内部コードを探す ~ 上場企業 3900社編 ~ - ぶるーたるごぶりん
                            • Python と Playwright でブラウザを自動操作させるコードを自動生成したよ - Qiita

                              Playwright が昨年1年間で大幅パワーアップしていたので、使い方を確認したときの記録のまとめです。 ブラウザを自動操作できるということは、簡単なスクレイピングやブラウザ側のテスト自動化が簡単にできるようになります。 特に、Python での解説がまだまだ少なかったので、自分の学習を含めてまとめました。 今回は入門編ということで全体像をつかみつつ使用方法の流れを確認していただければありがたいです。 Selenium や Puppeteer を使っている方も、一度試す価値ありと思っています。 選定した理由 ブラウザのテストを Python で自動化したかったんです。 私なりの要件がありまして、非常にわがままな要件でしたが余裕ですべてクリアしました。 Python で書けること。社内で Python を使える方が多いので。pytest と連携してくれるとなおうれしい。 Docker コン

                                Python と Playwright でブラウザを自動操作させるコードを自動生成したよ - Qiita
                              • はてなアンテナは20周年を迎えました - はてラボ 開発者ブログ

                                2022/05/28(土)は、はてなアンテナのサービス開始20周年記念日でした。 2002/05/28 に、有限会社はてな(当時)は、創業サービスである人力検索はてなに続くサービスとしてはてなアンテナをリリースしました。 普段チェックしているホームページのアドレスを登録することで、サービスが自動的に巡回チェックしてくれるという機能は、ユーザが自分で巡回プログラムを配置しなければならなかった難しさを肩代わりするものとして人気を博し、多くの方々に利用いただきました。 サービス開始以来20年、個人ホームページの隆盛からブログや RSS およびフィードリーダーの勃興、ソーシャルネットワークへと個人や組織の発信・交流の場が変化する中、変わらぬ価値を提供するものとして、はてなアンテナはウェブを見つめ続けています。 最近大きな機能追加をしていないはてなアンテナですが、近年では 常時HTTPS化 インフラ

                                  はてなアンテナは20周年を迎えました - はてラボ 開発者ブログ
                                • 使いやすさを重視したHTMLスクレイピングライブラリを作った - 純粋関数型雑記帳

                                  TL:DR レポジトリ https://github.com/tanakh/easy-scraper ドキュメント 背景 このところ訳あってRustでHTMLからデータを抽出するコードを書いていたのですが、 既存のスクレイピングライブラリが(個人的には)どれもいまいち使いやすくないなあと思っていました。 HTMLから望みのデータを取り出すのはいろいろやり方があるかと思いますが、 ツリーを自力でトラバースするのはさすがにあまりにも面倒です。 近頃人気のライブラリを見てみますと、CSSセレクターで目的のノードを選択して、 その周辺のノードをたどるコードを書いて、 欲しい情報を取り出すという感じのものが多いようです。 RustにもHTMLのDOMツリーをCSSセレクターで検索して見つかったノードをイテレーターで返してくれたりする、 scraperというライブラリがあります。 例えば、<li>要素

                                    使いやすさを重視したHTMLスクレイピングライブラリを作った - 純粋関数型雑記帳
                                  • データ収集からディープラーニングまで全て行って競馬の予測をしてみた - Qiita

                                    Register as a new user and use Qiita more conveniently You get articles that match your needsYou can efficiently read back useful informationWhat you can do with signing up

                                      データ収集からディープラーニングまで全て行って競馬の予測をしてみた - Qiita
                                    • ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記

                                      この記事は、以下のハローワークインターネットサービスから求人情報を自動で取得する試みを記録したものです: www.hellowork.mhlw.go.jp まずは、ソースコードと実行結果をお見せし、後ほどこの記事を書いた経緯などを話します。 ソースコード:HelloWork_Scraping_ST.py from selenium import webdriver from selenium.webdriver.support.ui import Select import time from bs4 import BeautifulSoup import re # ハローワークインターネットサービスのURL url = "https://www.hellowork.mhlw.go.jp/" # 以下からご自分で使用しているChromeのバージョンに合ったChromeDriverをダウンロ

                                        ハローワークの求人情報をスクレイピング(Python + Selenium + BeautifulSoup) - ai_makerの日記
                                      • 絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net

                                        巷で話題になっているこの話題、画像をスクレイピングやダウンロードされたくないということで騒がれています。その話に関しては色々な意見があると思ってますがここでは置いておくとして・・・ 技術的にやるとしたら実際どれくらい対策できるの?ということが気になったので、自分の知識で出来る限り対策したものを作ってみることにしました。 最初に 賢い方はわかると思いますが、タイトルは釣りです。 絶対に画像をダウンロード&スクレイピングさせないページは存在しません。ソフトウェアにおいて絶対と言う言葉はまず存在しないのです。ブラウザで表示している以上、仕組みさえわかれば技術的には可能です。 そのため、 「元画像のダウンロードとスクレイピングを非常に困難にしたWebページを本気で作ってみた」 が実際のタイトルかなとなります。 とはいえ、この仕組みであれば大多数の人は機械的にスクレイピングすることを諦めるレベルの作

                                          絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net
                                        • Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも? - Qiita

                                          Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも?GoogleスクレイピングChatGPTBard Google Bardが、日本からも利用できる様になりましたが、ChatGPTとの大きな違いがありました。 それは、ユーザが渡したURLにBardがアクセスができることです。 ChatGPTでは基本的にそういったことはできず、やれている様に見えても違った情報を返してしまっていました。 例えば、以下ページのURLを渡して要約してもらうと、返ってくるのは以下の様な返答になってしまいます。 アクセス先のページ ChatGPTからの返答 なんだか、違うページを読み込んでいそうです・・・完全に間違っています。 -- それに対し、Google Bardは正しくリンク先の記事を読み取って要約をしてくれました。 本当にリクエスト先のURLにア

                                            Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも? - Qiita
                                          • 「自動ムービー編集」「ゲーム開発」「文章校正」「論文要約」などGPT-4がわずか3週間で生み出した14の画期的ツール

                                            OpenAIが2023年3月14日に正式発表した「GPT-4」は、ChatGPTなどに用いられたGPT-3.5の性能をさらに超え、「初代iPhone登場時と同等の衝撃を与える存在」と評されています。すさまじい性能を有するGPT-4がどのような影響を生み出しているのか、AIに関するマーケティングの専門家であるサム・ウッズ氏が「生後わずか3週間のGPT-4が作成した14の素晴らしいもの」としてまとめています。 GPT-4 is barely 3 weeks old. It has already made significant contributions to various fields. Here are the 14 incredible things created with GPT-4.— Sam Woods (@samuelwoods_) GPT-4では、テキストだけでなく画像を

                                              「自動ムービー編集」「ゲーム開発」「文章校正」「論文要約」などGPT-4がわずか3週間で生み出した14の画期的ツール
                                            • Google『reCAPTCHA』を突破!『2Captcha』でブラウザ操作の完全自動化に挑む - Qiita

                                              目次 はじめに 2Captchaとは 2Captchaの使用準備 Python+Selenium+2Captchaで『reCAPTCHAv2』を突破 さいごに 参考 はじめに スクレイピングやブラウザ操作の自動化タスクにおける一番の難所は各種キャプチャの突破だと思います。そもそもキャプチャ機能はロボット操作されないために設置するものなので,それを突破しようとする時点でどうなのという気はしますが,それでもなんとかしたいと思うことがあります。そんなときの解決方法として「2Captcha」というサービスがあります。 最近このサービスを知り利用してみたところ,あまりに簡単にキャプチャ突破できたので,ここで紹介しようと思います。 ※ ご利用は自己責任でお願いします。くれぐれも悪用しないように。 2Captchaとは ロシアの会社が提供するキャプチャ機能を突破するためのサービスです。 2Captcha

                                                Google『reCAPTCHA』を突破!『2Captcha』でブラウザ操作の完全自動化に挑む - Qiita
                                              • 退職エントリを毎日自動で集めるBlogを作った - Qiita

                                                概要 退職エントリって良いですよね。 人生色々ですよね。 作ったもの 退職エントリまとめ これ自体は、ただのはてなブログです。 退職エントリをあつめる cheerio-httpcliで、タイトルに「退職しました」や、「退職します」が付いてるサイトのURLを Google検索結果から集めます。 const client = require('cheerio-httpcli'); // "退職しました"を検索する。"&tbs=qdr:d"を付与すると24時間以内の検索になる。 const BASE_URL_GOOGLE = 'https://www.google.com/search?q=%22%E9%80%80%E8%81%B7%E3%81%97%E3%81%BE%E3%81%97%E3%81%9F%22&tbs=qdr:d&start='; // はてブなど、除外したいサイトを登録しておく

                                                  退職エントリを毎日自動で集めるBlogを作った - Qiita
                                                • オンラインドキュメントと日本語全文検索

                                                  自社では Sphinx というドキュメントツールを利用しているのですが、残念ながらこれに付属している検索機能の日本語検索はかなり厳しいです。また残念ながら Sphinx 開発側も検索周りを改善するという予定は直近ではないようです。 そして検索というのはとても難しい技術なため自分のような素人では導入して「普通に期待する動作」をさせるまでの距離はとても遠いです。 ただ、なんとかして日本語全文検索を実現したいという思いはここ10 年くらいずっと思っていました。これは自社の Sphinx テーマを作ってくれている社員ともよく話をしていたのですが、どうしてもリソースをつぎ込めずにいました。 まとめ日本語検索に対応している Meilisearch を採用したドキュメントスクレイパーの実行は GItHub Actions (Self-hosted Runner) を採用した自社 Sphinx テーマの検

                                                    オンラインドキュメントと日本語全文検索
                                                  • Twitter、ログインしないと何も表示できない状態に 「一時的な緊急措置」とマスク氏

                                                    6月30日深夜ごろ(日本時間)から、アカウントにログインせずにTwitterにアクセスしようとすると、コンテンツが表示されなくなっている。Webアプリだけでなく、モバイルアプリでも同様だ。以前は一般公開されたツイートが表示できていたが、現在はTwitterにログインあるいは新規にアカウントを登録するよう求める画面にリダイレクトされる。

                                                      Twitter、ログインしないと何も表示できない状態に 「一時的な緊急措置」とマスク氏
                                                    • AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog

                                                      2022年5月24日(米国時間)、SANS ISCのフォーラムでPython向けライブラリの1つ(その後PHP向けライブラリでも判明)が第三者により不正なコードを含むアップデートが行われていたとして注意を呼び掛ける投稿が行われました。その後この行為に関わっていたとして実行者とみられる人物が顛末を公開しました。ここでは関連する情報をまとめます。 改ざんされた2つのライブラリ 今回影響が確認されたのPython Package Index(Pypi.org)で公開されている「ctx」、Packagist(Packagist.org)で公開されている「PHPass」の2つ。 影響を受けたライブラリ インストール実績 改ざんされたとみられる期間 概要 ctx 約75万回 2022年5月14日~5月24日頃 辞書(dict型オブジェクト)を操作するユーティリティを提供するPython向けのパッケージ

                                                        AWS認証情報が盗まれる2つのライブラリ改ざんについてまとめてみた - piyolog
                                                      • 【Linux】スクレイピングにはNordVPNが便利・設定方法を解説

                                                        Webスクレイピングをしたいのだけど、VPNやプロキシーで一番良いサービスはないだろうか!? Linuxで使えるベストなVPNサービスを教えてほしい! …という形に、最適なプラクティスをご紹介します。 ということで、こんにちは! Webサイトを自動で取得する「Webスクレイピング」をする上で、必ずネックとなるのがアクセスするIPアドレスの問題です。 スクレイピングする対象のサービスの営業妨害にならない範囲でスクレイピングするのは言うまでもない当然の話ですが、Webサイトによっては、少しのアクセスでも不正なアクセスと認識してIPアドレスごとブロックしてしまうことがあります。 これを回避するためには、定期的なIPアドレス変更などの対応が必要です。 一般的にはこうした問題はプロキシーやVPNサービスを使って回避することになりますが、具体的にはどうしたら良いのでしょう? 結論を言いますと、「Nor

                                                          【Linux】スクレイピングにはNordVPNが便利・設定方法を解説
                                                        • Deno入門 ─ 新しいTypeScript/JavaScript実行環境でWebアプリ開発とデータベース接続の基本を体験しよう|ハイクラス転職・求人情報サイト AMBI(アンビ)

                                                          例えばmain.tsというスクリプトに対して、ファイルの読み取りだけを許可したい場合は、以下のようにコマンドを実行します。 $ deno run --allow-read main.ts このときmain.tsプログラムはファイルの読み取りだけが可能になるため、ファイルの書き込みやネットワークアクセスをするとPermissionErrorによる実行時エラーになります。 なお、実行時にフラグを何も与えなければ、どの権限も持っていない状態になります。 各フラグにはパラメータを指定でき、例えば次のように実行すると/home/userディレクトリの読み込みだけが許可されます(--allow-writeフラグも同様)。 $ deno run --allow-read=/home/user main.ts また、--allow-netを次のように指定すると、特定のドメインとポートだけのアクセスを許可で

                                                            Deno入門 ─ 新しいTypeScript/JavaScript実行環境でWebアプリ開発とデータベース接続の基本を体験しよう|ハイクラス転職・求人情報サイト AMBI(アンビ)
                                                          • Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ

                                                            はじめに Webスクレイピングの基本事項 Webスクレイピング(Scraping)とは Webスクレイピングの活用シーン Webスクレイピングの基本的な仕組み Webスクレイピングの注意事項 取得先への攻撃とみなされたり、規約違反や、著作権法違反に問われることもある 取得先の変更に影響を受ける 取得先がAPIを公開しているならそちらを活用する方が良い Webスクレイピングの実践方法 Webスクレイピングを実践するには 1. ベンダーのサービスやツールを利用する 2. 自分でプログラムを作成する なぜPythonなのか? Pythonでのスクレイピング実践方法 事前準備 BeautifulSoup4のインストール 模擬Webサイトの構築 Webサーバーを立ち上げる 初級編:特定の要素から単一の要素を抜き出す 中級編:あるページから繰り返しを伴う複数の要素を抜き出す 上級編:複数のページから複

                                                              Webスクレイピングとは?Pythonで始めるWebスクレイピング実践・活用法 - RAKUS Developers Blog | ラクス エンジニアブログ
                                                            • 分散型SNS「Bluesky」って今どうなってるの?【7月7日更新】

                                                              分散型SNS「Bluesky」って今どうなってるの?【7月7日更新】2023.07.02 08:15363,620 かみやまたくみ かつてTwitterのCEOを勤めたジャック・ドーシー氏が関与し“Twitterの代わり”として機能してくれそうな分散型SNS「Bluesky」(ブルースカイ)。現在は開発中で、一部のユーザーがβテストに参加できている…といった状態です。 先日、そんなBluesky関連のミートアップが開催され、開発側から今どんな状況なのかが共有されました。βテスト中の「中」がどんな感じなのかと併せて、紹介します。 アプリ名:Bluesky Social ダウンロード先:App Store/Google Play Store BlueskyのコンセプトImage: Bluesky分散型SNSとは、特定のサーバーに依存しないSNSのこと。インターネット上に点在する複数のサーバーが

                                                                分散型SNS「Bluesky」って今どうなってるの?【7月7日更新】
                                                              • ロシアの検索エンジンYandexが「ハゲ」と検索してもプーチン大統領の写真が出ないように検索結果をいじっていたことが判明

                                                                by Carmen Rodriguez 2023年1月に、「ロシアのGoogle」と呼ばれることもあるロシア最大の検索エンジン「Yandex」からソースコードが流出しました。このコードの解析により、Yandexは「ハゲ頭」や「うそつき」といった罵倒語で検索した際に、ウラジーミル・プーチン大統領の画像が表示されないようにしたり、「Z」で検索してもナチス・ドイツに関する検索結果などが表示されないようにしていたことが分かったことが報じられています。 Yandex scrapes Google and other SEO learnings from the source code leak https://searchengineland.com/yandex-leak-learnings-392393 Yandex caught scraping Google SEO code | TechR

                                                                  ロシアの検索エンジンYandexが「ハゲ」と検索してもプーチン大統領の写真が出ないように検索結果をいじっていたことが判明
                                                                • 月間1.6億秒の Lambda x Node.js 利用から得られた知見

                                                                  はじめにStockmark のプロダクトでは、各メディアから記事を収集するために AWS Lambda (実行環境はNode.js) を大量に利用しています。「大量」とは実際にはどの程度なのかを紹介すると、月間で 1.6億 秒ほど(1日で約60日分) 使用しています。もしかしたら「えっ、なんでそんなに使っているの?」と思われているかもしれません。 本記事ではその疑問に回答しつつ、実運用から得られた知見を一部共有していきます。段階的に理解いただけるように、技術選定理由から説明していきます。 なぜ Node.js なのか?なぜ AWS Lambdaなのか?Lambda x Node.js でスクレイピングする際の落とし穴ということで、早速1つ目からいってみましょう! なぜ Node.js なのか?ストックマークのプロダクトでは、Web記事などを中心としてスクレイピングして収集した情報をベースに

                                                                    月間1.6億秒の Lambda x Node.js 利用から得られた知見
                                                                  • GitHub - mgdm/htmlq: Like jq, but for HTML.

                                                                    $ htmlq -h htmlq 0.4.0 Michael Maclean <michael@mgdm.net> Runs CSS selectors on HTML USAGE: htmlq [FLAGS] [OPTIONS] [--] [selector]... FLAGS: -B, --detect-base Try to detect the base URL from the <base> tag in the document. If not found, default to the value of --base, if supplied -h, --help Prints help information -w, --ignore-whitespace When printing text nodes, ignore those that consist entirel

                                                                      GitHub - mgdm/htmlq: Like jq, but for HTML.
                                                                    • 戦略ファーム時代に読んだ700冊のまとめ *随時更新 - Digital, digital and digital

                                                                      戦略ファーム時代に読んだ700冊程度の本をまとめています*随時更新 戦略ファーム時代に読んだ700冊程度の本をまとめています I. 戦略 企業参謀 https://amzn.to/44iKVxM 当初、いまいち戦略というものが掴めきれず迷子になっていた時に「大前研一はこれだけ読め」と教わった本。大量に出ている他の大前本を読まなくて済むのが見過ごせない大きな価値 戦略サファリ 第2版 https://amzn.to/3csZg0t 経営戦略の本を読み漁るも、実プロジェクトの方が全くもって学びになるという普通の感想をもち、俯瞰での戦略論を求めるようになる。いやあ懐かしい 企業戦略論【上】基本編 競争優位の構築と持続 Jay Barney https://amzn.to/3dJjVxB 任天堂の戦略の妙に気が付きはじめ、ベースか似通ったものはないだろうかと思うようになった時にJay Barney

                                                                        戦略ファーム時代に読んだ700冊のまとめ *随時更新 - Digital, digital and digital
                                                                      • コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball

                                                                        名著です,まじでオススメ 個人的にすごく気に入っているかつオススメな「Pythonクローリング&スクレイピング」の増補改訂版が出てました. Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド 作者: 加藤耕太出版社/メーカー: 技術評論社発売日: 2019/08/10メディア: 単行本(ソフトカバー)この商品を含むブログを見る 早速読みましたが,初版からのアップデートに加え元々の構成の良さに感激しました.*1 本の内容そのものの解説は, 著者である加藤さんのエントリー @iktakahiroさんの感想エントリー をご覧いただくとして*2,このエントリーでは, Webクローリングとスクレイピングはコワクナイヨ! っていう話をルール・ノウハウという「お作法」の面でポエムしたいと思います. TL;DR インターネットおよび, リアル(現実世界)に迷惑

                                                                          コワクナイWebクローリング&スクレイピング - 初心者とPython使いのための作法とノウハウ - Lean Baseball
                                                                        • n8n.io - a powerful workflow automation tool

                                                                          Secure, AI-native workflow automation The world's most popular workflow automation platform for technical teams

                                                                            n8n.io - a powerful workflow automation tool
                                                                          • 各国報道機関を装ったニュースサイトで親中派の偽情報を流す「PAPERWALL」作戦が展開されている

                                                                            中国企業が運営している、少なくとも123のウェブサイトネットワークが、30カ国の報道機関を装ったニュースサイトで親中派の偽情報や感情に訴えるような攻撃を流す「PAPERWALL」という作戦を行っていることが明らかになりました。 PAPERWALL: Chinese Websites Posing as Local News Outlets Target Global Audiences with Pro-Beijing Content - The Citizen Lab https://citizenlab.ca/2024/02/paperwall-chinese-websites-posing-as-local-news-outlets-with-pro-beijing-content/ 中国はオンライン、オフラインの両面から影響力を高めるための作戦を展開しています。その中の1つとみられ

                                                                              各国報道機関を装ったニュースサイトで親中派の偽情報を流す「PAPERWALL」作戦が展開されている
                                                                            • データサイエンスにオススメの本80冊! - Qiita

                                                                              文字数が超えるため、本の画像をて削除しました。興味がある方は、元記事をご覧ください。 2019年データサイエンスにオススメの本80冊! ビッグデータの発展とともに、データサイエンスは今広く知られるようになりました。大学にデータサイエンスを学べる学部ができたり、データサイエンティストを目指している人もたくさんいるでしょう。この記事では、統計学から機械学習やマーケティングまで、初心者がデータサイエンスを学ぶのにおすすめの本を80冊紹介します! #Part I: データサイエンス概論 1.『データサイエンス講義 』Rachel Schutt、Cathy O'Neil 著 本書では、データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法を選択する必要があるのかを実例を多数示しながら紹介します。 2.『戦略的データサイ

                                                                                データサイエンスにオススメの本80冊! - Qiita
                                                                              • 不具合発生?TwitterのホームがAPI制限により新規のツイート所得が出来ない状態になってる垢が多数出ている模様

                                                                                Elon Musk @elonmusk To address extreme levels of data scraping & system manipulation, we’ve applied the following temporary limits: - Verified accounts are limited to reading 6000 posts/day - Unverified accounts to 600 posts/day - New unverified accounts to 300/day 2023-07-02 02:01:50 ざっくり訳:極端なレベルのデータスクレイピングとシステム操作に対処するために、次の一時的な制限を適用しました。 ・認証済みアカウントは、1 日あたり 6,000 件の投稿を閲覧できるように制限されています ・未認証アカウントは

                                                                                  不具合発生?TwitterのホームがAPI制限により新規のツイート所得が出来ない状態になってる垢が多数出ている模様
                                                                                • Twitter Rate Limitsに関するアップデート

                                                                                  <path opacity="0" d="M0 0h24v24H0z" /> <path d="M17.207 11.293l-7.5-7.5c-.39-.39-1.023-.39-1.414 0s-.39 1.023 0 1.414L15.086 12l-6.793 6.793c-.39.39-.39 1.023 0 1.414.195.195.45.293.707.293s.512-.098.707-.293l7.5-7.5c.39-.39.39-1.023 0-1.414z" /> </svg>" data-icon-arrow-left="<svg width="28px" height="28px" viewbox="0 0 28 28" version="1.1" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://ww

                                                                                    Twitter Rate Limitsに関するアップデート