robots.txtの人気記事 27件 - はてなブックマーク

1 - 27 件 / 27件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

robots.txtの検索結果1 - 27 件 / 27件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

robots.txtに関するエントリは27件あります。 google、 web、 SEO などが関連タグです。人気エントリには『辻正浩 | Masahiro Tsuji on Twitter: "よくあるrobots.txtの誤りで、致命的なトラブルになる事もあるのにあまり知られていない仕様の紹介で連ツイート。誤りは表に出ることが少ないので日本語で実例紹介を見たことが無いのですが、公共の面も持つサイトでの誤りを発見したので注意喚起意図で実例を紹介します。(続く"』などがあります。

辻正浩 | Masahiro Tsuji on Twitter: "よくあるrobots.txtの誤りで、致命的なトラブルになる事もあるのにあまり知られていない仕様の紹介で連ツイート。誤りは表に出ることが少ないので日本語で実例紹介を見たことが無いのですが、公共の面も持つサイトでの誤りを発見したので注意喚起意図で実例を紹介します。(続く"
- 447 users
- twitter.com/tsuj
- テクノロジー
- 2022/10/29
- SEO
- あとで読む
- web
- robots.txt
- 開発
- web制作
- トラブル
- google
- webサービス
Google's robots.txt Parser is Now Open Source
- 194 users
- opensource.googleblog.com
- テクノロジー
- 2019/07/02
The latest news from Google on open source releases, major projects, events, and student outreach programs. Originally posted on the Google Webmaster Central Blog For 25 years, the Robots Exclusion Protocol (REP) was only a de-facto standard. This had frustrating implications sometimes. On one hand, for webmasters, it meant uncertainty in corner cases, like when their text editor included BOM char
- google
- あとで読む
- クローラー
- clawler
- robots.txt
- Developers
- library
- web
- OSS
- C++
robots.txtでのnoindexをGoogleが完全にサポート終了、2019年9月1日から
- 82 users
- www.suzukikenichi.com
- テクノロジー
- 2019/07/03
[レベル: 上級] robots.txt の noindex 構文のサポートを終了することを Google は告知しました。 REP のインターネット標準化にともなう決定です。機能していたが未サポートだった robots.txt の noindex クローラのクロールを拒否するために robots.txt では Disallow 構文を用います。 User-agent: * Disallow: /dontcrawl.html Google では、クロールではなくインデックスを拒否するために Noindex 構文が使えていました。 User-agent: Googlebot Noindex: /dontindex.html HTML の head セクションで使える noindex robots meta タグと同じ働きをします。しかし、robots.txt での noindex を G
- seo
- Google
- あとで読む
- Web
- network
- 開発
- 仕事
- *あとで読む
Google Search Console、「robots.txt によりブロックされましたが、インデックスに登録しました」への対処方法
- 67 users
- u-ff.com
- テクノロジー
- 2020/04/09
Googleがrobots.txtを無視するrobots.txtというファイルをブログに設置すると、特定のURLをGoogleがクロールしないように制御できます。 ttps://u-ff.com/korona-kannikensakitto-part1/?replytocom=64ttps://u-ff.com/korona-kannikensakitto-part3/?replytocom=81ttps://u-ff.com/crawl-budget/?replytocom=162ttps://u-ff.com/crawl-budget/?replytocom=166上記のようなURLへクロールしてほしくなかったので、robots.txtに Disallow: /*?replytocom=*という設定を追加しました。詳しい設定手順は下記をご参照ください。

Googleがウェブサイト管理に欠かせない「robots.txt」のインターネット標準化を推進
- 55 users
- gigazine.net
- テクノロジー
- 2019/07/02
Googleやbingといった検索エンジンがさまざまなサイトの情報を検索できるのは、クローラーと呼ばれるボットが自動的にサイトを巡回するおかげ。このクローラーによるサイト巡回をサイトの管理者側で制御するために必要なのが「robots.txt」と呼ばれるテキストファイルです。20年以上使われながらも正式に標準化されていなかったrobots.txtについて、Googleがインターネット標準化にむけて動き出しています。 draft-rep-wg-topic-00 - Robots Exclusion Protocol https://tools.ietf.org/html/draft-rep-wg-topic-00 Official Google Webmaster Central Blog: Formalizing the Robots Exclusion Protocol Specifica
GitHub - google/robotstxt: The repository contains Google's robots.txt parser and matcher as a C++ library (compliant to C++11).
- 50 users
- github.com/google
- テクノロジー
- 2019/07/01
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
- parser
- C++
- google
- library
- github
- あとで読む
あなたも同じミスをするかも？ robots.txtのミスで予想外のページをクロール禁止していた悲劇【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
- 44 users
- webtan.impress.co.jp
- テクノロジー
- 2022/11/04
最強級のSEOと最上級のコンテンツすら台無しにする、robots.txtの予想と違う挙動を、あなたは知っているだろうか？知らなければうっかりハマってしまい、「コンテンツがインデックスされない！」となってしまうかも。「実際の挙動の根拠は？」「どうすればこの落とし穴を避けられるの？」を含めて、詳しく解説する。ほかにも、モバイル検索でのサイト名表示や、SERPでのCTR向上事例、Google検索にとってのAIの意味などなど、今回はちょっと濃いめのSEOトピックをお届けする。グーグルのモバイル検索でサイト名が表示されるようになったスニペット改善でCTR向上・検索トラフィック約2倍に⬆UP！2022年10月のスパムアップデートをグーグルが実施10月のグーグルオフィスアワー：サイトマップのlastmod、MFIに移行しない、サイト名が表示されないなど人間が書いたコンテンツをグーグルがスパム判
- SEO
- あとで読む
- 情報
- google
- サイト
- techfeed
飲酒し、路上に寝込む on Twitter: "デジタル庁の note の robots.txt、官公庁なのでちゃんとクロールできるようにしといてほしいですね https://t.co/J47LFvg5nZ https://t.co/v4txJkUXqG"
- 36 users
- twitter.com/fuba
- 政治と経済
- 2021/05/13
デジタル庁の note の robots.txt、官公庁なのでちゃんとクロールできるようにしといてほしいですね https://t.co/J47LFvg5nZ https://t.co/v4txJkUXqG
- hoge
- 安倍晋三
- politics
- news
- あとで読む
Twitter、Google以外の検索エンジンを締め出しへ？ robots.txtが大幅改変され話題に【やじうまWatch】
- 35 users
- internet.watch.impress.co.jp
- テクノロジー
- 2023/07/28
- search
- Twitter
- 検索
- Yahoo!
- 話題
- 資料
- neta
- google
- これはひどい
Google Search Console、robots.txtでクロールを禁止する方法
- 25 users
- u-ff.com
- 暮らし
- 2020/04/08
Google Search Consoleで、インデックス　＞　カバレッジ　＞　除外を確認すると、以下のようなURLが多数インデックスから除外されていました。 ttps://u-ff.com/korona-kannikensakitto-part1/?replytocom=64ttps://u-ff.com/korona-kannikensakitto-part3/?replytocom=81ttps://u-ff.com/crawl-budget/?replytocom=162ttps://u-ff.com/crawl-budget/?replytocom=166調べてみると、「replytocom」というURLパラメーターはコメントの返信先を制御するためのものでした。以下の3つのURLはページの見た目としてはまったく同じものです。 ttps://u-ff.com/crawl-bu
SEOの知識にクイズで挑戦！あなたは正解できる？ robots.txt初級＋中級【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
- 24 users
- webtan.impress.co.jp
- テクノロジー
- 2020/07/17
知っておいて損はない（でもちょっとマニアック）SEOの知識にクイズで挑戦！あなたは仕様を理解してrobots.txtを書き、Googlebotをちゃんとコントロールできるか！？ほかにも、JavaScriptレンダリング最新情報、SEOでの重要度が高まっている構造化データ、SEOの「ペナルティ」、グーグルのAMPの扱いなどなど、今週もSEOやサイト運営に役立つ、次のような情報をまとめてお届けする。 GooglebotのJavaScriptレンダリングに関する2つの最新豆知識リッチリザルトテストが正式版になり構造化データテストツールは引退へ動画の構造化データに関するアップデートグーグルに送ったスパムレポートはどのように使われるのか？SEOの「ペナルティ」は古い考え方!?グーグルが新型コロナ対策に新型ツールで尽力グーグルがAMPを捨てる日は来るのか？7月のオフィスアワー開催――ネイティブL
Google Search Console、「robots.txt テスター」の使い方
- 23 users
- u-ff.com
- 暮らし
- 2020/04/12
robots.txtを変更した後にすることrobots.txtを設定すると、特定のURLに対してクロールを禁止にしたり、許可したりできます。 robots.txtを変更後は「果たして、このやり方であっているんだろうか？」と心配になると思います。そういうときは、「robots.txt テスター」を使うと動作確認が行えます。「robots.txt テスター」はGoogle Search Consoleの付属機能です。 Google Search Consoleへ未登録の人は、先に登録しておきましょう。
グーグル、「robots.txt」プロトコルの仕様標準化を推進
- 16 users
- japan.zdnet.com
- テクノロジー
- 2019/07/03
Charlie Osborne （Special to ZDNET.com）翻訳校正：編集部 2019-07-03 11:39 Googleは米国時間7月1日、Robots Exclusion Protocol（REP）が将来安定したインターネット標準になることを願って、「Google Robots.txt Parser and Matcher Library」をオープンソースコミュニティに向けて公開した。REPはrobots.txtを使う際の仕様で、その解析やマッチングに使われてきたC++のライブラリなどが公開されている。 REPはウェブ管理者がサイトを巡回するクローラーの行動を制御するためのものだ。考案者のMartijn Koster氏は、自分のウェブサイトがクローラーの巡回にあい、サーバーの負荷を減らすために1994年に最初の標準を開発した。テキストファイルにはクローラーへの指
robots.txtの5xxエラーは30日を境にクロールの処理が変わる
- 9 users
- www.suzukikenichi.com
- テクノロジー
- 2019/07/04
[レベル: 上級] REP のインターネット標準化に伴い、Google が公開している robots.txt の技術ドキュメントに更新が入りました。 ※この記事を公開した時点では、日本語ページは未更新。 robots.txt が 500 番台のエラーを返すときの処理が変わりました。 30 日まではクロールしない、30日を超えるとクロールを再開することも 30 日間まではクロールを完全停止 robots.txt が 5xx エラーを返す場合、30 日間まではそのサイトのクロールを完全に停止します。言い換えると、サイトのクロールが完全に拒否されていると検索エンジンはみなします（503 エラーを返す場合は、robots.txt 取得のための再試行はほかの 5xx エラーよりも頻繁になる）。 robots.txt が 5xx エラーを返すと、検索結果からサイト全体が消えることもあるので注意が必要
- seo
- robots.txt
- 検索
- google
robots.txtの書き方 | URLやサイトマップ、リダイレクト | テクニカルSEO BLOG
- 9 users
- technical-seo.jp
- テクノロジー
- 2019/08/19
こんにちは、SEO分析ツール「アナトミー」開発チームの伏見です。 robots.txt とは、クローラのサイト巡回を制御するためのファイルです。XMLサイトマップと同じように、robots.txt もクローラビリティに大きく影響します。特に、クローリングされるページ数が多いECサイトなどでは、robots.txt を慎重に設定したほうがよいでしょう。この記事では、robots.txt の書き方や設置方法、設定の確認方法、よくある誤りなどを詳しく紹介します。 robots.txtとは robots.txt とは、検索エンジンのクローラーに対し、サイトの巡回を制御するためのファイルです。具体的には、以下の2つの役割があります。クローラーに巡回を許可するURLや拒否するURLを伝えるサイトマップファイルのURLを伝える GoogleやBingなど主なクローラーがrobots.txtに対応し
- SEO
グーグルのAIに自社コンテンツを学習させたくない！ Bardをブロックするrobots.txt指定【SEO情報まとめ】 | 海外&国内SEO情報ウォッチ
- 9 users
- webtan.impress.co.jp
- テクノロジー
- 2023/10/13
「ChatGPTにもBardにも、生成AIの学習にウチのコンテンツを使わせない！」そんなあなたに朗報。GPTBotに加えて、グーグルのAIによる学習を防ぐ方法が公開された。 ChatGPTとBard（とVertex AI）による学習をまとめて禁止するrobots.txtの指定も紹介する。ピックアップ意外にも、今回も良ネタが多数。 9月のヘルプフルコンテンツアップデートの特徴「広告UX」と「実経験」、10月のコアアップデートとスパムアップデートなど、グーグル情報が3件。さらに検索結果でのサイト名表示、Googleビジネスプロフィールの新機能などなど、グーグル最新事情から、SEO以外にも役立つ情報まで、今週もあなたに役立つネタを吸収していただきたい。グーグルのAIに自社サイトのコンテンツを学習させたくない！ Bardをブロックするrobots.txt指定2023年9月のヘルプフル
- web
昨日、Twitterはrobots.txtを更新。 Googleだけに許可を出して、他のbotを基本的にブロック。Microsoft Bingなど多くの検索エンジンはTwitterをまともに検索できなくなった。
- 7 users
- twitter.com
- テクノロジー
- 2023/07/26
- Microsoft
- twitter
- Google
- web
Google's robots.txt parser is now open source
- 5 users
- webmasters.googleblog.com
- テクノロジー
- 2019/07/02
accessibility 10 advanced 195 AMP 13 Android 2 API 7 apps 7 autocomplete 2 beginner 173 CAPTCHA 1 Chrome 2 cms 1 crawling and indexing 158 encryption 3 events 51 feedback and communication 83 forums 5 general tips 90 geotargeting 1 Google Assistant 3 Google I/O 3 Google Images 3 Google News 2 hacked sites 12 hangout 2 hreflang 3 https 5 images 12 intermediate 205 interstitials 1 javascript 8 job s
- Google
- あとで読む
Google、自身が使ってきたrobots.txt解析ツールをオープンソース化
- 5 users
- news.mynavi.jp
- テクノロジー
- 2019/07/02
Googleは現地時間1日、Robots Exclusion Protocol(REP)の解析ツールをオープンソース化したことを公式ブログGoogle Open Sourceで発表した。 WebクローラーとWebサイトに設置されるrobots.txtとの間の通信の用いられるREP。ほぼ25年間にわたり事実上の標準であった一方、Webマスターやクローラー開発者にとって不確かな部分もあったことや現在IETE(Internet Engineering Task Force)と標準化のためのやりとりを行っていることを別の公式ブログ(Webmaster Central Blog)で明かしている。公開された解析ツール「Google Robots.txt Parser and Matcher Library」(Github)は、Googleがrobots.txtの解析やマッチングルールのために利用して
- あとで読む
Google、クロールの統計情報レポートのヘルプ記事を更新。Googlebot がサイトをクロールする際に robots.txt ファイルをリクエストして使用する仕組みをより詳細に説明
- 4 users
- www.suzukikenichi.com
- テクノロジー
- 2022/06/28
[レベル: 上級] クロールの統計情報レポートについて解説するヘルプ記事を Google は更新しました。 Googlebot がサイトをクロールする際に robots.txt ファイルをリクエストして使用する仕組みの説明がより詳細になりました。最後のレスポンスが不成功か、24 時間以上経過している場合の挙動 Google がサイトをクロールする際に robots.txt ファイルをリクエストして使用する仕組みを解説するセクションの更新前です。更新後は次のようになりました。文字量が増えていることに気付くはずです。特に注目したいのは、robots.txt をリクエストしたときの最後のレスポンスが不成功か、24 時間以上経過している場合の Googlebot の挙動です。 3. 最後のレスポンスが不成功であるか、24 時間以上経過している場合、Google は robots.txt f
- SEO
- google
robots.txt の置き忘れで１万円を失った話
- 4 users
- pistatium.dev
- 学び
- 2021/12/03
ChatGPTのウェブクローラはGPTBot。robots.txtでブロック可能
- 4 users
- www.suzukikenichi.com
- テクノロジー
- 2023/08/08
[レベル: 上級] 管理するサイトのコンテンツを ChatGPT に利用されるのを防ぐために、ChatGPT が運用するクローラの GPTBot を robots.txt でブロックできます。 ChatGPT のウェブクローラは GPTBot ChatGPT の開発/提供元である OpenAI は、ウェブクローラに関係する技術ドキュメントを最近新たに公開しました。 OpenAI が使用するクローラのユーザーエージェント (UA: User Agenet) は GPTBot です。完全な UA 文字列は次のとおりです。 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) GPTBot の用途は次のとおりです。 Web pages craw
- 人工知能
- techfeed
- seo
- ai
『https://note.digital.go.jp/robots.txt』へのコメント
- 4 users
- b.hatena.ne.jp
- 暮らし
- 2021/05/13
note本家のrobots.txtと同一ではない。megalodon（ウェブ魚拓）、ia_archiver（Internet Archive）がDisallowに設定されているのは意図的と思われる。 https://note.com/robots.txt / 日経のrobots.txtと同一だった。 https://comemo.nikkei.com/robots.txt <blockquote class="hatena-bookmark-comment"><a class="comment-info" href="https://b.hatena.ne.jp/entry/4702568062960124290/comment/stp7" data-user-id="stp7" data-entry-url="https://b.hatena.ne.jp/entry/s/note.dig
robots.txtはインデックス拒否に使える？使えない？
- 3 users
- www.suzukikenichi.com
- テクノロジー
- 2021/03/10
[レベル: 初級] robots.txt は、検索エンジンのクロールを拒否する仕組みであって、インデックスを拒否する仕組みではありません。そうかと言って、インデックス拒否にまったく役立たないということでもありません。 robots.txt でブロックしたページでも検索結果に表示される robots.txt でクロールをブロックしたページでも検索結果に出てくることがあります。たとえば、Twitter カードのバリデーションを検証するツールのページは robots.txt でブロックされています。にもかかわらず、検索結果には出てきます。このツールを公開している cards-dev.twitter.com の robots.txt はサイト全体のクロールをブロックしています。ただし、クロールしないためページの内容を検索エンジンは読み取ることができません。 meta descriptio
robots.txtとは？意味から設定方法まで詳しく解説｜アクセス解析ツール「AIアナリスト」ブログ
- 3 users
- wacul-ai.com
- テクノロジー
- 2019/05/24
こんにちは。SEO記事提供サービス「AIアナリストSEO」運営チームの曽我です。この記事では、robots.txtの意味やそのファイルの設置方法について詳しくご説明します。 robots.txtを活用することで、クロールされるコンテンツを制御して、有利なコンテンツをクロールさせることが可能になります。robots.txtを活用するとクロールを最適化することができ、SEOに良い効果をもたらします。結果として、流入数やCV数の向上に繋がるため、是非ご一読ください。目次 robots.txtとは robots.txtのSEO効果 robots.txtの設定方法 robots.txtファイルの書き方ファイルが正しくかけているか確認する方法ファイルの設置方法まとめ robots.txtとは、収集されたくないコンテンツをクロールされないように制御するファイルです。これにより検索エンジンのク
- 解説
- 設定
- search
- 検索
- SEO
- ツール
- ブログ
【WordPress】OpenAIからのクローラーをrobots.txtでブロックしてみた【プラグイン】 - ネタフル
- 3 users
- netafull.net
- テクノロジー
- 2023/10/20
対話型生成AIのChatGPTを提供するOpenAIのクローラーが、あまりよろしくない挙動をしているというのを見かけたので、WordPressのプラグインを用いてrobotsを記述し、OpenAIからのクローラーをブロックしてみたという話です。 OpenAIのクローラーの挙動がよろしくない？見かけたのはこちらのツイートです。うちのサイト攻撃されてる？と思ってUA見たらOpenAIからのクローラーだった。自動BANされまくってるのに無尽蔵のIPアドレスで以ってゲートオブバビロン並みに四方八方から矢継ぎ早にアクセスし続けてくるの、宗旨替えして大嫌いになりそう。 Googleクローラーと違ってメリットもないし。 — バフェット・コード (@buffett_code) October 18, 2023 いずれにせよ学習用に利用されるだけで「Googleクローラーと違ってメリットもない」とい
- ai
Google、robots.txtの仕様のWeb標準化を目指す | スラド IT
- 3 users
- it.srad.jp
- テクノロジー
- 2019/07/05
Googleが、検索エンジンなどのクロールボット（クローラ）に対しクロール禁止などの指示を出すためのファイル「robots.txt」の仕様の標準化を目指すことを発表した（ドラフト案、ITmedia）。 robots.txtの仕様は「REP（Robots Exclusion Protocol）」や「Robots Exclusion Standard」などと呼ばれている。多くのクローラはこのファイルを確認してクロール頻度やインデックスの制御を行っているが、標準化されていないためにクローラによって解釈が異なったり、一部のクローラのみが認識するディレクティブが存在するといった状況になっていた。あわせてGoogleはrobots.txtを解釈するためのライブラリ「robotstxt」も公開している。
- web