タグ

searchとwebに関するkaorunのブックマーク (2)

  • 「東京電力」と検索すると「東京電“カ”」が広告枠に いったい何者? 東電に聞いた

    引越し準備をする人が増える3月、電気の開通手続きを手配する人も多いかと思う。その際にGoogle検索で「東京電力」と調べると、広告を表示するスポンサー欄に「東京電カ」(漢字の“力”ではなく片仮名の“カ”)というWebサイトが現れることがある。 記者も検索したところ、3月15日午後4時時点で確かにこのような結果になることを確認できた。この際、スポンサー欄には物の東京電力と“東京電カ”の2件のサイトが表示された。物の東京電力は「tepco.co.jp」のドメインを使っているのに対し、電カでは「denkigas.net」のドメインが使われている。謎のサイトの文言は「【開始専用センター】東京電カ - でんき開始受付センター」としている。

    「東京電力」と検索すると「東京電“カ”」が広告枠に いったい何者? 東電に聞いた
  • 大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

    robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で

    大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
  • 1