タグ

guidelineとscrapingに関するraimon49のブックマーク (3)

  • OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

    OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ

    OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
  • Wikipedia:データベースダウンロード - Wikipedia

    ウィキペディアのコンテンツなどのデータは、再配布や再利用のために利用できる一元化されたデータベース・ダンプでの提供が行われています。クローラを用いてコンテンツを収集しないでください。このデータベース・ダンプの生成は不定期に行われています。 ウィキペディアのコンテンツは Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) および GNU Free Documentation License (GFDL) の下にライセンスされています(Wikipedia:著作権と利用規約を参照)。画像などのメディアファイルは異なるライセンスで提供されることもあり、ファイルページで明記されています。 より詳しい解説はmeta:Data dumps(英語)を参照してください。 全プロジェクトのダンプ:du

    raimon49
    raimon49 2015/12/14
    >記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
  • 開発者の皆さまへ | developer.5ch.net

    5ch.net 専用ブラウザの開発者の皆さまへ 5ch.net 専用ブラウザ(以下「専用ブラウザ」)を開発、公開するには、5ch.net の所有者である Loki Technology, Inc. の許諾を得て、5ch.net が提供する API(以下「API」)を用いる必要があります。 ウェブスクレイピングを用いた専用ブラウザの開発、公開は禁止されています。 API の使用許諾を得ずに API を使用することは、不正アクセス行為の禁止等に関する法律等関係する法律に違反することになります。違法行為を発見次第、刑事民事による適切な法的対応をされることになります。 株式会社ジェーンは Loki Technology, Inc. から API の使用許諾を得て、一部の専用ブラウザ開発者に対し、API を使用許諾する権限を受けていますが新規の登録は受け付けておりません。 株式会社ジェーンは Lok

    raimon49
    raimon49 2015/02/16
    まとめブログ系はどうなるんだろ。
  • 1