並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 369件

新着順 人気順

scrapingの検索結果1 - 40 件 / 369件

  • 自宅の消費/発電電力量を記録しはじめてから1年経った - Datadog Synthetic Tests はじめの一歩 - えいのうにっき

    こんなかんじで記録・確認できるようにしています 一昨年、PPAの制度を利用して自宅に太陽光発電を導入してそれなりに便利に活用していたのですが、唯一引っかかっていたのが、その実績値の確認や記録のこと。 我が家で利用しているシステムの場合、↓のようなWebサービスでそれを確認することができるんですが、 なんと、これだけしかみられなくって。 1時間単位でどれくらいの消費/発電量だったか 当月以前の過去の消費/発電量の推移はどんなだったか といったような情報は、このWebサービス単独では得ることができません。......つらい! ただ、"このWebサービス単独では" と書いたとおり、何らかの仕組み、もしくは努力によって以下のようなことをすることで、補うことはできます。 毎時間、このサイトにアクセスし、その時点での消費/発電量を取得(いわゆるスクレイピングですね)、前回アクセス時のそれらとの差分を取

      自宅の消費/発電電力量を記録しはじめてから1年経った - Datadog Synthetic Tests はじめの一歩 - えいのうにっき
    • 画像生成AI・Midjourneyが「Stable Diffusion開発元のBOTによるプロンプトと画像の大量収集」を検知して当該アカウントを永久BAN

      画像生成AIを開発・運営するMidjourneyが、競合するAIのStable Diffusionを開発するStability AIの従業員が所有するアカウントを無期限で自社サービスから追放したと報じられています。Midjourneyは、Stability AIの従業員がBOTを使ってプロンプトと画像のペアを大量に取得するデータスクレイピングを行っていた疑いがあるからだと説明しています。 Midjourney bans all Stability AI employees over alleged data scraping - The Verge https://www.theverge.com/2024/3/11/24097495/midjourney-bans-stability-ai-employees-data-theft-outage Image-scraping Midjou

        画像生成AI・Midjourneyが「Stable Diffusion開発元のBOTによるプロンプトと画像の大量収集」を検知して当該アカウントを永久BAN
      • PHPerのための「PHPと型定義」を語り合う【PHP TechCafe イベントレポート】 - RAKUS Developers Blog | ラクス エンジニアブログ

        弊社で毎月開催し、PHPエンジニアの間で好評いただいているPHP TechCafe。 2023年5月のイベントでは「型定義」について語り合いました。 弊社のメンバーが事前にまとめてきた情報にしたがって、他の参加者に意見を頂いて語り合いながら学びました。 今回はその内容についてレポートします。 rakus.connpass.com PHPと型 静的型付け言語 動的型付け言語 一般的な誤解 PHPの型 単一の式が持つ型 型システムで扱える型 never型について void型について self,parent,static型について resource型について evalでresource型を宣言すると リテラル型について ユーザー定義型について 複合型について 型のエイリアス mixed iterable PHPで取り入れられた型表現 型宣言のメリット PHPの歴史を振り返る PHPのドキュメント

          PHPerのための「PHPと型定義」を語り合う【PHP TechCafe イベントレポート】 - RAKUS Developers Blog | ラクス エンジニアブログ
        • 【2024年3月】Googleがコア&スパムアップデートを発表! - 中年独身男のお役立ち情報局

          【2024年3月6日】Googleがコア&スパムアップデートを発表! 前回の2023年11月から5ヶ月振りの大型アップデートが実施されます。 今回のアップデートでは、通常よりも複雑で、ロールアウトに最大1ヶ月もかかる大規模な改良。 大幅なランキング変動が予想されています。 情報を入手次第、随時更新していきます。 Today we announced the March 2024 core update & new spam policies that, in combination, are designed to show less content made to attract clicks and more content that people find useful. Learn more: https://t.co/wQVZ8mExRB — Google Search Cent

            【2024年3月】Googleがコア&スパムアップデートを発表! - 中年独身男のお役立ち情報局
          • 著作権協会国際連合「日本のAI学習は権利者からの許可と報酬の支払いを条件に」文化庁に申し入れ

            ぜんぶ翻訳 「AI と著作権に関する考え方について」への協議 CISACについて 私は、国際作家・作曲家協会連合である CISAC を代表してこの文章を書いています。 CISACは、著作者団体の世界的なネットワークとして、116カ国から225の団体が加盟しています。 CISACは、会員を通じて、音楽、演劇、文学、オーディオビジュアル、グラフィック、ビジュアル・アートなど、あらゆる芸術分野の500万人以上のクリエイターの利益を代表しています。 CISACは、「人工知能と著作権に関する協議」について、日本政府にコメントを提出する機会を得たことを嬉しく思います。 AIについて このテクノロジーは人間の創造性を高め、イノベーションを支援する一方で、クリエイターの権利や生活を脅かす存在にもなっています。 重要な問題のひとつは、テキストマイニングやデータマイニング(TDM)を含むAIの学習目的で、権利

              著作権協会国際連合「日本のAI学習は権利者からの許可と報酬の支払いを条件に」文化庁に申し入れ
            • NewsPicks、著作権侵害を謝罪 写真の無断利用、新聞協会から指摘受け

              ユーザベースは2月29日、ソーシャル経済メディア「NewsPicks」のアプリやWebサイトで、他の報道機関やメディアの写真を許諾を得ずに掲載し、著作権を侵害していたことを認めて謝罪した。日本新聞協会から著作権侵害の指摘を受けて精査したところ、侵害が認められたとしている。 2024年2月からは、利用許諾を得た報道機関・メディアのコンテンツのみで編成する方針に切り替えた。著作権侵害による経済的補償については、誠実に協議・対応するとしている。 NewsPicksのアプリ、Webの「ワールド」「ビジネス」「今日のニュース」「話題をまとめ読み」などのコーナーや、PC版のコメントページに、利用許諾を得ていない写真などを掲載したことが著作権侵害だったとしている。 また、NewsPicks上に掲載するために、元の写真・画像をトリミングしたことについて、同一性保持権を侵害していたと認めた。 2月から、許諾

                NewsPicks、著作権侵害を謝罪 写真の無断利用、新聞協会から指摘受け
              • 価格.com: 商品価格比較サイトの利用方法とPythonによるスクレイピング - Python転職初心者向けエンジニアリングブログ

                価格.com: 商品価格比較サイトの利用方法とPythonによるスクレイピング 価格.comとは 価格.comは、日本国内で最も有名な商品価格比較サイトの一つです。家電製品、家具、ファッションアイテムなど、さまざまな商品の価格を一覧で比較することができます。また、ユーザーレビューや評価も掲載されており、商品選びの参考になります。 価格.comの特徴 豊富な商品情報: 価格.comには、数多くの商品情報が掲載されています。家電製品やゲーム機、食品や衣料品など、さまざまなカテゴリーの商品が網羅されています。 価格比較機能: 価格.comでは、同じ商品を複数の店舗で比較することができます。これにより、最安値やお得なセール情報を簡単に見つけることができます。 ユーザーレビュー: 商品ごとにユーザーレビューや評価が掲載されており、実際の利用者の意見を参考にすることができます。これにより、購入前に商品

                  価格.com: 商品価格比較サイトの利用方法とPythonによるスクレイピング - Python転職初心者向けエンジニアリングブログ
                • 採用担当者が開発者に求めるプログラミング言語スキルランキングトップ10、PythonがJavaScriptを超えて1位に

                  コーディング面接に使われるWebサービスなどを手掛けるCoderPadは2024年1月17日(米国時間)、「需要の高いプログラミング言語 トップ10」を発表した。ランキングは、技術者の採用担当者、人事リーダー、採用マネジャーと開発者を対象とした同社による調査「State of Tech Hiring 2024」に基づくものだ。 需要の高いプログラミング言語 TOP10 ランキングの結果は以下の通り。括弧内の数字は、その言語のスキルを持つ候補者を求める回答者の割合だ。 関連記事 2024年に人気が出る言語は? 「2023年の言語」はやはりC#に プログラミング言語の人気ランキング「TIOBEインデックス」の2024年1月版が公開された。C#が「2023年のプログラミング言語」となり、Fortran、Kotlin、Scratch、PHPもこの1年で順位を伸ばした。 2023年の言語はC#で決ま

                    採用担当者が開発者に求めるプログラミング言語スキルランキングトップ10、PythonがJavaScriptを超えて1位に
                  • GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例

                    こんにちは。わいけいです。 今回の記事では、生成AI界隈ではかなり浸透している RAG について改めて解説していきます。 「低予算で言語モデルを使ったアプリを開発したい」というときに真っ先に選択肢に上がるRAGですが、私自身もRAGを使ったアプリケーションの実装を業務の中で何度も行ってきました。 今回はその知見をシェア出来れば幸いです。 RAG(Retrieval-Augmented Generation)とは まず、 そもそもRAGとは何ぞや? というところから見ていきましょう。 RAG(Retrieval-Augmented Generation) は自然言語処理(NLP)と特に言語モデルの開発において使用される技術です。 この技術は、大規模な言語モデルが生成するテキストの品質と関連性を向上させるために、外部の情報源からの情報を取得(retrieval)して利用します。 要は、Chat

                      GPT連携アプリ開発時の必須知識、RAGをゼロから解説する。概要&Pythonコード例
                    • 詐欺られた(注意喚起の拡散希望)

                      訪れたサイトが扱っていた商材はかなりマニアックなもので、その商品以外の商品もたくさんあってページもひとつひとつしっかりしていて特集バナーなども作ってあり自然な作り しかし実態はヤフオクのスクレイピングで大量に商品が登録されているだけの中古ショップ風のただのダミーのフィッシングサイトだった 自分が買おうとした物があまりにマニアックだったため、そんなマニアックでスーパーニッチなものをまさか詐欺の商材としようとする人間がいるとは思わず、全く警戒してなかったため、サイトの細部までよく調査をせず普通に振り込んでしまった しかし振り込んだあとは待てど暮せど発送されず連絡も取れない 主犯か受け子かしらないが口座名義はおそらくタイかベトナム風の名前(←これについてもこの時点でん?と思ったがスルーしてしまった心境は後述の追記やトラバ参照。この時点では全ての警戒センサーがオフになっていたのでよく考えたらタイ・

                        詐欺られた(注意喚起の拡散希望)
                      • PythonとRスクリプトの効果的な連携:データサイエンスの新しい次元へ - Python転職初心者向けエンジニアリングブログ

                        データサイエンスの分野では、PythonとRスクリプトを組み合わせて使用することが一般的です。この記事では、PythonとRスクリプトを効果的に連携させ、データサイエンスの実践的な応用例に焦点を当てて解説します。 PythonとRの連携の重要性 Pythonは機械学習や深層学習などの分野で強力であり、豊富なライブラリが揃っています。一方で、Rスクリプトは統計解析やデータ可視化において優れた性能を発揮します。これらの言語を組み合わせて使用することで、データサイエンティストは幅広いツールを手に入れ、柔軟かつ効率的に分析を行うことができます。 PythonからRスクリプトを呼び出す PythonからRスクリプトを呼び出す方法として、subprocessモジュールを使用することができます。以下は、PythonからRスクリプトを呼び出す基本的な例です。 import subprocess # Rスク

                          PythonとRスクリプトの効果的な連携:データサイエンスの新しい次元へ - Python転職初心者向けエンジニアリングブログ
                        • 【機械学習】機械学習を用いたin silico screening【AI創薬】~第2/5章 スクレイピングによる公共データベース(PDB)からの機械学習データを収集~ - LabCode

                          AI創薬とは? AI創薬は、人工知能(AI)技術を利用して新しい薬物を発見、開発するプロセスです。AIは大量のデータを高速に処理し、薬物の候補を予測したり、薬物相互作用を評価したりします。また、AIは薬物の効果や安全性をシミュレートすることも可能で、臨床試験の前の段階でリスクを評価することができます。これにより、薬物開発のコストと時間を大幅に削減することが期待されています。AI創薬は、薬物開発の新しいパラダイムとして注目を集め、製薬企業や研究機関で積極的に研究、導入が進められています。また、バイオインフォマティクス、ケモインフォマティクス、機械学習、ディープラーニングなどの技術が組み合わされ、薬物開発のプロセスを革新しています。さらに、AI創薬は個人化医療の推進にも寄与し、患者にとって最適な治療法を提供する可能性を秘めています。 今回はAI創薬の中でも、in silico screeeni

                          • 主要なAI画像生成サービス - AI画像生成・生成系AI 問題まとめwiki

                            2023年8月現在、よく利用されている画像生成AIは大きく分けて2つ。 一つはStableDiffusion系、もう一つはMidjorney(Nijijorney)である。 なかでもStableDiffusionはオープンソースで公開され、それを利用した様々な派生モデルが登場してる。 よって、関係性が非常に複雑だが、データセットが公開されていることなどから、画像生成AIの構造及び問題点を理解する上でよい例と考える。 画像生成AIはデータセットをもとに画像を生成を行う。 そのデータセットはインターネット上の画像を権利者の許諾なしにWEBスクレイピングすることによって取得したものである。 StableDiffusionに使用されているLAION-5Bデータセットには著作権で保護された画像や、医療記録、家族写真、戦争の写真等が含まれている。 日本の法律や海外のフェアユースの概念では研究目的として

                              主要なAI画像生成サービス - AI画像生成・生成系AI 問題まとめwiki
                            • Open RSS

                              Feeds we've served so far 259,154 We offer feeds for thousands of popular websites across the internet, and we won't stop until every corner of the internet has one. The more feeds we have, the closer we all get to ditching the intrusive, ad-invested algorithmic feeds that harm and manipulate us. So we can follow internet content on our own terms, in feeds that only we control.

                                Open RSS
                              • 自作した時間割アプリが大学の公式アプリに採用された話 - Qiita

                                記事の概要 私(芝浦工業大学学部4年生)が大学2年時に1人で制作した、大学のポータルアプリ(ポータルサイトからスクレイピングして時間割などを表示する)が、大学に正式採用され、公式アプリ"ScombApp"としてリリースされるに至った経緯を時系列順に説明します。 ホーム画面 時間割画面 制作の動機 大学のポータルサイト使いにくいがち。 ポータルサイトのスマホアプリ版があれば便利そう。 他にやってる人いなさそうだし、最初に作ったらみんな使ってくれそう。 ポータルサイトの問題点 大学ポータルサイトで使いにくかった点を挙げていく。 とりあえずこれを克服することを目標にした。 ログインの時に自動補完が使えない 制作当時はBASIC認証で、スマホからだとログインの自動補完ができなかった。 毎回手打ちでパスワードを入力している人がほとんど ←!? 次の授業や教室を確認するだけでも、毎回手打ちログインが必

                                  自作した時間割アプリが大学の公式アプリに採用された話 - Qiita
                                • 本番環境でやらかしちゃった人 Advent Calendar 2019〜2022 総合ランキング - Qiita

                                  すみません、すごい前置きが長くなってしまったので、ランキングの結果だけ知りたい場合は目次から飛んでください! 「本番環境でやらかしちゃった人 Advent Calendar」をご存知ですか おはようございます! 自分が好きなアドベントカレンダーに、「本番環境でやらかしちゃった人 Advent Calendar」 というのがあります。インフラエンジニアとして働く自分は、毎年こんなにもリアリティのある やらかしと学びの集大成 を「明日は我が身」だと胃を痛めながらありがたく拝見していました…。 この分野における しくじり先生 がここまで一同に介する機会というのはあまりないことから、大変マニアックながらも知る人ぞ知るアドベントカレンダーという感じになっています。 このアドベントカレンダーのいいところ ポイントは、しっかりと ポストモーテム の要素がルール化されているところだと思っています。 振り返

                                    本番環境でやらかしちゃった人 Advent Calendar 2019〜2022 総合ランキング - Qiita
                                  • GitHub - philippta/flyscrape: A standalone and scriptable web scraper in Go

                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

                                      GitHub - philippta/flyscrape: A standalone and scriptable web scraper in Go
                                    • Sentryを使ったScrapyのウェブクローリング監視

                                      クローリング監視の必要性 ウェブサイトのクローリングは、インターネット上の情報を自動的に収集する方法です。機械学習の文脈では、言語モデルや辞書作成などのデータの収集に欠かすことができません。必要な質および量のデータを収集するためには、定期的かつ大規模なクローリングが必要となります。 さて、クローリングを実装し運用する上で問題となるのが、エラーの対応です。インターネットを通じてウェブページをクローリングする際には、以下のような問題が偶発的に発生します。 ネットワーク的な問題でリクエストがタイムアウトする リクエスト先のサーバの問題で、正常にHTMLが読み込まれない ウェブページの構造が変わってしまい、意図した抽出処理が失敗する 上の2つは実行時の外部環境に起因するため時間を空けたり再実行することで解決することがありますが、最後の1つは外部環境の変化に対して自身のコードが対応できていない問題で

                                        Sentryを使ったScrapyのウェブクローリング監視
                                      • GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
                                        • GitHub - adbar/trafilatura: Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments

                                          Trafilatura is a cutting-edge Python package and command-line tool designed to gather text on the Web and simplify the process of turning raw HTML into structured, meaningful data. It includes all necessary discovery and text processing components to perform web crawling, downloads, scraping, and extraction of main texts, metadata and comments. It aims at staying handy and modular: no database is

                                            GitHub - adbar/trafilatura: Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments
                                          • OpenAIがインターネット上のコンテンツ収集に用いるウェブクローラー「GPTBot」をブロックする試みが進行中

                                            対話型AIのChatGPTを開発するOpenAIは2023年8月に、大規模言語モデルの学習に必要なデータセットをインターネット上から収集するためのウェブクローラー「GPTBot」に関する詳細を公開しました。GPTBotに関するオンラインドキュメントには、GPTBotによるコンテンツの収集を防ぐための方法も記載されており、一部のウェブサイトは早速GPTBotのブロックに乗り出していることが報じられています。 Now you can block OpenAI’s web crawler - The Verge https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai OpenAI launches web crawling GPTBot, sparking blocking effort by website

                                              OpenAIがインターネット上のコンテンツ収集に用いるウェブクローラー「GPTBot」をブロックする試みが進行中
                                            • Seleniumが本当にバレバレなのか試してみた - Qiita

                                              目的 以前こちらの記事にてスクレイピングはすぐにバレることを知った 本当にそうなのか試してみたくなったので、実際に試してみた 確認手順 適当にWebページをつくる スクレイピングをして挙動を確認する 環境構築 なんでもいいんですが、試しにReactで環境構築します npx create-react-app check-scraping cd check-scraping code . npm run start import React, { useEffect } from 'react'; function App() { useEffect(() => { if (window.navigator.webdriver) { alert("Webdriverを検出しました"); } }, []); return ( <div className="App"> <h1>WebDriver

                                                Seleniumが本当にバレバレなのか試してみた - Qiita
                                              • OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

                                                米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ

                                                  OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
                                                • EasySpider: No-Code Visual Web Crawler/Browser Automation Test Tool

                                                  EasySpider: No-Code Visual Web Crawler/Browser Automation Test Tool An open-source, free, and ad-free software for designing a web scraper/browser automation test task visually in minutes. Can download from your PC. Github Repository Watch Tutorial Demonstration Example 1: (Right Click) Select a product title, the same type of title will be automatically matched, click the 'Select All' option -> C

                                                  • EasySpider: No-Code Visual Web Crawler/Browser Automation Test Tool

                                                    BrightData is the market leader in the proxy industry, covering 72 million IPs worldwide, offering real residential IPs, instant batch collection of publicly available web data, with a guaranteed high success rate. For those in need of high cost-performance proxy IPs, click on the image above to register and contact the Chinese customer service. After activation, you get a free trial and up to $25

                                                    • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

                                                      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

                                                        無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
                                                      • Twitter Rate Limitsに関するアップデート

                                                        <path opacity="0" d="M0 0h24v24H0z" /> <path d="M17.207 11.293l-7.5-7.5c-.39-.39-1.023-.39-1.414 0s-.39 1.023 0 1.414L15.086 12l-6.793 6.793c-.39.39-.39 1.023 0 1.414.195.195.45.293.707.293s.512-.098.707-.293l7.5-7.5c.39-.39.39-1.023 0-1.414z" /> </svg>" data-icon-arrow-left="<svg width="28px" height="28px" viewbox="0 0 28 28" version="1.1" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://ww

                                                          Twitter Rate Limitsに関するアップデート
                                                        • 「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表

                                                          2023年7月1日にGoogleがプライバシーポリシーを変更し、「GoogleのAIモデルのトレーニング」のために「一般に公開される情報」を使用すると明言したことが分かりました。記事作成時点で、このプライバシーポリシーはアメリカ国内向けに発行されています。 プライバシー ポリシー – ポリシーと規約 – Google https://policies.google.com/privacy/archive/20221215-20230701 Google Says It'll Scrape Everything You Post Online for AI https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486 VPNやインターネットアーカイブなどを通してアメリカ国内向けのプラ

                                                            「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表
                                                          • Twitter閲覧制限でRSSが復権? ところでRSSって何ですか 今更使ってみた

                                                            簡単でびっくり RSSリーダー「Feedly」を使ってみた では、早速RSSを使ってみよう。今回はFeedly社の定番RSSリーダー「Feedly」(Web版)を使ってみる。 使い方はシンプル。トップページの検索窓に、情報を取得したいWebサイトのサイト名かURLを入力すると、そのサイトがRSS配信をしていれば候補として表示される。その右上にある「FOLLOW」ボタンをクリックすれば登録完了。これで最新情報を自動的に収集できるようになった。 早い、安い(基本は無料)、うまい。RSSが何であるかを知らなくてもSNS上のニュースアカウントをフォローするのと同じように使えてしまう。見た目もシンプルで見やすく、「後で見る」「お気に入り」「レイアウト変更」「SNSでシェア」「登録サイトのフォルダ分け」といった機能も備えている。 筆者も正直「なぜ今まで使っていなかったのか」と感動している。Twitte

                                                              Twitter閲覧制限でRSSが復権? ところでRSSって何ですか 今更使ってみた
                                                            • Twitter障害はスクレイピングではなく“自己DDoS”が原因?

                                                              Twitterのオーナー、イーロン・マスク氏は7月1日、Twitterでの“サービスの低下”の原因を「数百の組織がTwitterのデータを極度なレベルでスクレイピングしている」ことだとツイートしたが、原因は別のところにあるようだと、フリーランスのWeb開発者、シェルドン・チャン氏がMastodonの投稿で指摘した。 この“サービスの低下”で、多数のユーザーが投稿を読めなくなっている。マスク氏は2日、「極端なレベルのデータスクレイピングとシステム操作に対処するため」にユーザーが読める投稿数に制限を加えたとツイートした。 だがチャン氏は、異常なトラフィックの原因として、TwitterのWebアプリのバグにより、無限ループ状態でTwitterにリクエストが送信されていることを発見したと動画を添えて説明した。この動画では毎分数百件のリクエストが送信されていることが確認できる。 左の動画は、レートが

                                                                Twitter障害はスクレイピングではなく“自己DDoS”が原因?
                                                              • Twitter、ログインしないと何も表示できない状態に 「一時的な緊急措置」とマスク氏

                                                                6月30日深夜ごろ(日本時間)から、アカウントにログインせずにTwitterにアクセスしようとすると、コンテンツが表示されなくなっている。Webアプリだけでなく、モバイルアプリでも同様だ。以前は一般公開されたツイートが表示できていたが、現在はTwitterにログインあるいは新規にアカウントを登録するよう求める画面にリダイレクトされる。

                                                                  Twitter、ログインしないと何も表示できない状態に 「一時的な緊急措置」とマスク氏
                                                                • Chrome for Testing availability

                                                                  This page lists the latest available cross-platform Chrome for Testing versions and assets per Chrome release channel. Consult our JSON API endpoints if you’re looking to build automated scripts based on Chrome for Testing release data. Last updated @ 2024-04-08T16:09:33.718Z

                                                                  • 絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net

                                                                    巷で話題になっているこの話題、画像をスクレイピングやダウンロードされたくないということで騒がれています。その話に関しては色々な意見があると思ってますがここでは置いておくとして・・・ 技術的にやるとしたら実際どれくらい対策できるの?ということが気になったので、自分の知識で出来る限り対策したものを作ってみることにしました。 最初に 賢い方はわかると思いますが、タイトルは釣りです。 絶対に画像をダウンロード&スクレイピングさせないページは存在しません。ソフトウェアにおいて絶対と言う言葉はまず存在しないのです。ブラウザで表示している以上、仕組みさえわかれば技術的には可能です。 そのため、 「元画像のダウンロードとスクレイピングを非常に困難にしたWebページを本気で作ってみた」 が実際のタイトルかなとなります。 とはいえ、この仕組みであれば大多数の人は機械的にスクレイピングすることを諦めるレベルの作

                                                                      絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net
                                                                    • ChatGPTのプラグインがやってきた!使い方とスクレイピングの実験例(ChatGPT部, 大城)|ChatGPT部 Produced by NOB DATA

                                                                      こんにちは、ChatGPT部、部長の大城です。指折り数えて待っていたChatGPTのプラグイン機能がようやく私のところにも届きましたので、そちらの使い方と簡単な利用例について記載したいと思います。 ( ちょっと今日が仕事が埋まっているので、本格的に触れるのは土日になるかもですが、取り急ぎ。 ) プラグインの使い方現在のChatGPTプラグインはOpenAI社のWebのChatGPTで、有料契約をしている人に順次配布されている模様です。(2日前に届いた人もいれば、まだという方もいらっしゃいますが1週間以内には全課金ユーザーが使えるようになるはず、というアナウンスがありました。) 画面を見ていきましょう 左下のユーザー名->Settings->Beta featuresといくと、「Prugins」という項目が追加されていることがわかります。ここをONにします。 そうすると、ChatGPT-4の

                                                                        ChatGPTのプラグインがやってきた!使い方とスクレイピングの実験例(ChatGPT部, 大城)|ChatGPT部 Produced by NOB DATA
                                                                      • Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも? - Qiita

                                                                        Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも?GoogleスクレイピングChatGPTBard Google Bardが、日本からも利用できる様になりましたが、ChatGPTとの大きな違いがありました。 それは、ユーザが渡したURLにBardがアクセスができることです。 ChatGPTでは基本的にそういったことはできず、やれている様に見えても違った情報を返してしまっていました。 例えば、以下ページのURLを渡して要約してもらうと、返ってくるのは以下の様な返答になってしまいます。 アクセス先のページ ChatGPTからの返答 なんだか、違うページを読み込んでいそうです・・・完全に間違っています。 -- それに対し、Google Bardは正しくリンク先の記事を読み取って要約をしてくれました。 本当にリクエスト先のURLにア

                                                                          Bardの衝撃。Bardはユーザから指示されたURLのページにアクセスできる。Webページの要約やスクレイピングも? - Qiita
                                                                        • ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita

                                                                          今回やりたかったこと 目標:ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成 するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。 作ったもの概要 保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。 処理は大きく2つに分かれています。 ウォーキングイベントサイトから歩数をスクレイピング&スプシへアップロード スプシの GAS で投稿文字列作成& slack へ自動投稿 今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。 運良く(?)今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必

                                                                            ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
                                                                          • Twitter APIが有料化された今、スクレイピングでツイートを取得することは可能なのか - Qiita

                                                                            どうもみなさん。こんにちは。 Mondderなるサービスをやっておりますqbotaと申します。 某マスクさんのおかけでTwitter APIがほとんどなにもできない無料プランの次はいきなり100ドルという大変素晴らしい料金設定になってしまいました。これはもうがんがん使い倒してやるしかないなと考えてる方も多いんじゃないかと思います。 そこで、個人的な事情もあり、APIを使わずツイートを取得することが可能なのか少し調べてみました。 なお、ここでツイートを取得するとはTwitterの内部検索からツイートを取得することを意味します。 twint、stweetなどのライブラリ 詳しいことは知りませんがこれらのライブラリはTwitterの非公式APIなるものを利用していて登録などしなくても簡単にツイートを取得することできるそうです。 しかし、2023年4月29日現在、stweetのREADMEに載って

                                                                              Twitter APIが有料化された今、スクレイピングでツイートを取得することは可能なのか - Qiita
                                                                            • GitHub に漏れ出た内部コードを探す ~ 上場企業 3900社編 ~ - ぶるーたるごぶりん

                                                                              全1回、このシリーズは今回で最後です! TL;DR 上場企業 3900 社程に対して、すごく大雑把な「内部コード等の漏洩調査」を GitHub 上で行った 結果としては、重要度の高いものから低いものまで 10社ほどで漏洩が確認された 重要度の高いものとして、社外秘っぽそうなスプレッドシート、社員のハッシュ化パスワード(BCrypt)、 AWS Credential 等 「大雑把な」調査を行ったが、より精度の高い方法等について記事内にて触れていく 脅威インテルとか DLP みたいなエリアとかも、外部企業とかに頼るだけじゃなく「自分たちでも」頑張ってみるのがいいんだと思います GitHub Code Search ... すげえぜ! Google Dorks ならぬ、 GitHub Dorks + GitHub Code Search でまだまだいろいろできるはず。 はじめに チャオ! 今回は

                                                                                GitHub に漏れ出た内部コードを探す ~ 上場企業 3900社編 ~ - ぶるーたるごぶりん
                                                                              • Pythonで実装!Custom Search APIを使ったGoogle検索結果の自動収集 - システムエグゼ コーポレートサイト

                                                                                プログラミング言語のPythonは、データ分析や機械学習の領域で使われるイメージがありますが、様々なサービスのAPIを利用することも簡単にできます。 今回は、Pythonを使ってGoogleのCustom Search APIを利用し、Google検索結果を取得するプログラムを作成してみようと思います。 1.Google Custom Search APIとは Google Custom Search APIは、Googleの検索結果の情報をJSON形式で返してくれるAPIです。 ■Custom Search JSON API なお、Google検索結果を取得する方法として、Pythonでスクレイピングという手段も考えられますが、Googleは許可なく検索結果をスクレイピングすることを禁止しているようです。 そのため、スクレイピングではなく、Googleが提供しているAPIを使って検索結果

                                                                                  Pythonで実装!Custom Search APIを使ったGoogle検索結果の自動収集 - システムエグゼ コーポレートサイト
                                                                                • 【2023】ロリポップサーバー 評判(メリット・デメリット)

                                                                                  〒150-8512(東京本社) 東京都渋谷区桜丘町26番1号 セルリアンタワー 〒810-0001(福岡支社) 福岡県福岡市中央区天神2丁目7番21号 天神プライム 〒890-0055(鹿児島支社) 鹿児島県鹿児島市上荒田町3番1号 第2NTビル GMOグループのロリポップレンタルサーバーは、表示速度を短縮させるアクセラレータ、電話サポート(スタンダード以上のプラン)付き、格安でも基本的な機能は備わっている人気のレンタルサーバーです! ワードプレスの自動インストール機能により、初心者でも簡単にブログを始められます。 一つのデータベースあたり「2GB」とか「5GB」までとかの制限が無いのも嬉しいポイントです。

                                                                                    【2023】ロリポップサーバー 評判(メリット・デメリット)