[B! search][web] kaorunのブックマーク

kaorun id:kaorun

searchとwebに関するkaorunのブックマーク (2)

「東京電力」と検索すると「東京電“カ”」が広告枠に　いったい何者？　東電に聞いた
引越し準備をする人が増える3月、電気の開通手続きを手配する人も多いかと思う。その際にGoogle検索で「東京電力」と調べると、広告を表示するスポンサー欄に「東京電カ」（漢字の“力”ではなく片仮名の“カ”）というWebサイトが現れることがある。記者も検索したところ、3月15日午後4時時点で確かにこのような結果になることを確認できた。この際、スポンサー欄には本物の東京電力と“東京電カ”の2件のサイトが表示された。本物の東京電力は「tepco.co.jp」のドメインを使っているのに対し、電カでは「denkigas.net」のドメインが使われている。謎のサイトの文言は「【開始専用センター】東京電カ - でんき開始受付センター」としている。
kaorun 2023/03/24
web

internet

crime

search

これはひどい
リンク
大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
robots.txtとは robots.txtは、検索エンジンのクローラー（bot）に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:（ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能） Crawl-Delay:（クロールの時間間隔を指定） Disallow:（クロールされたくないページやディレクトリを指定） Allow:（Disallowで指定されたディレクトリの小階層で
kaorun 2013/04/11
robots.txt

web

http

search

security
リンク
1