[B! RSS][XML] raimon49のブックマーク

米Bing、コンテンツのクローリング方針について解説, 「あらゆるコンテンツをクロールするつもりはない」 ::SEM R (#SEMR)

米Bing、コンテンツのクローリング方針について解説, 「あらゆるコンテンツをクロールするつもりはない」マイクロソフトの検索エンジン・BingのDuane Forrester氏がBingのクローリングの仕組みや考え方について語った。公開日時：2011年09月09日 11:38 米Microsoftの検索エンジン・BingのDuane Forrester氏（シニアプロダクトマネジャー）が、Stone Temple ConsultingのEric Enge氏によるインタビューに応じ、Bingのコンテンツのクローリング及びインデクシングの方針や取り組みについて説明を行った。 Bingのクローリングの仕組みまず、Bingはインターネット上のコンテンツをクローリングする手段として、（他の検索エンジンもサポートする）XMLサイトマップもサポートしているが、同社はRSSフィードを通じたコンテンツの

raimon49 2011/09/10

＞RSSフィードを利用することは、コスト削減や効率の観点からも、また、リアルタイムに新しいコンテンツを取得できることから「理想的な手段」

リンク

APIコンソール | dev.twitter.com

<g> <g> <defs> <rect id="SVGID_1_" x="-468" y="-1360" width="1440" height="3027" /> </defs> <clippath id="SVGID_2_"> <use xlink:href="#SVGID_1_" style="overflow:visible;" /> </clippath> </g> </g> <rect x="-468" y="-1360" class="st0" width="1440" height="3027" style="fill:rgb(0,0,0,0);stroke-width:3;stroke:rgb(0,0,0)" /> <path d="M13.4,12l5.8-5.8c0.4-0.4,0.4-1,0-1.4c-0.4-0.4-1-0.4-1.4,0L12,10.6L6.2

raimon49 2010/09/20

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

raimon49 2008/09/29

RSSの拡張。慣例として名前空間にはドメイン名を使われることが多い。

リンク

koshigoewiki:feed:rss2.0仕様 [KoshigoeWiki]

RSS2.0は、RSS0.91の後継的な仕様です。RSS1.0ではRDF Site Summaryの略称であるのに対し、RSS2.0はReally Simple Syndicationから来る略称です。ここから分かるように、よりシンプルな仕様でシンジケーションを実現させようと考えられています。RSS1.0ではRDFを利用しているため拡張度が高く様々な表現が可能です。もちろんRSS2.0をXMLの名前空間で拡張する事は出来ます。しかし、よりシンプルな形を保つ事で特定の目的を実現させる事も大切な事でしょう。シンジケーションを日本語訳する事は難しいですが、コンテンツの再利用と考えればいいでしょう。フィードはXMLベースのため、原則としてメタデータです。それ自体では人に理解されにくい形態ですが、ある目的に沿って複数のフィードを集約したり、単体に対する装飾などが簡単な形態であるとも言えます。散らば

raimon49 2008/06/05

ざっくりとした仕様

RSS
XML

リンク

RSSをパースするときの制御文字への対処 - public static void main

DOMを使ってRSSをパースしているとたまに以下のエラーがおきることがあります。（Livedoorブログ、FC2、Amebaブログとかが多い） An invalid XML character (Unicode: 0x14) was found in the element content of the document.Unicode: 0x14の部分は0xbだったりいろいろです。原因は、絵文字を使っていたり、文字化けしたりといったことによって制御文字が挿入されたためのようです。 ASCIIコードでは0x00〜0x1Fと0x7Fのコード範囲が制御文字になり、これが含まれているXMLはinvalidになるようです。 Javaの場合、RSSをパースする前に以下のようにこの制御文字を削除しました。 str.replaceAll("[\\00-\\x1f\\x7f]", ""); 上記のコード

raimon49 2008/05/15

#x0～#x1fを消してパースエラーの回避。

リンク

フィードをアイテム単位に区切れば、セマンティック・ウェブが一気に現実化する - モジログ

ブログを更新すると、トップページに最新エントリが出てくる。これは、ブログのトップページが一種の「一覧ページ」だからだ。一覧ページのURLは変わらずに、その中身が変わっていく。これに対して、ブログの１つのエントリを表示する「個別ページ」は、基本的に中身が変わらない。１つのエントリに対して固有のページが割り当てられ、そのURLが「パーマネントリンク」になる。この２種類のページ、「一覧ページ」と「個別ページ」は役割が違う。「一覧ページ」はフォルダのようなもので、「個別ページ」はファイルのようなものだ。フォルダにファイルが追加されるように、「一覧ページ」に「個別ページ」が追加される。「フィード」とは、この２種類のページのうち、前者の「一覧ページ」をソフトウェア向けにしたものだ。 Webページは人間が見るために作られているが、フィードはソフトウェア向けに作られている。フィードのおか

raimon49 2008/03/25

XHTMLが、ここで述べられているような再利用性みたいなものを実現するんだと思ってたけど、実際は全然違ったなぁ。

RSS
XML

リンク

スクレイピングはもっと簡単にならなければいけない - bits and bytes

スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけどデモムービーを見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

raimon49 2008/03/07

＞簡単なことを簡単に実現するための方法

リンク

CDATA セクション内に ]]> < 07 < July < 2005 < nulog, NULL::something : out of the headphone

Studying XML -- second step -- [ エスケープ ] (via XML の CDATA 中では ]]> のエスケープが必要)で ]]> を書くときは ]]> のようにエスケープすればよいみたいなことが書かれているけど、CDATA セクション内ではそもそも & の扱いもなくなる (CDATA セクション内では ]]> のみがマークアップとして扱われる。Within a CDATA section, only the CDEnd string is recognized as markup) ので意図した挙動 (]]> がアンエスケープ) にならない。結論をいうと CDATA セクションに ]]> をそのまま含めることは不可能で、どうしても CDATA セクションを書きたいよぅって時は二つにわけないとダメ。すなわち <!CDATA[[]]]]><CDATA[

raimon49 2008/03/04

XML
RSS

リンク

MagpieRSSを使ってPHPで簡単RSSパース - TechMemo

MagpieRSSを使ってPHPで簡単RSSパーストップ差分一覧ソース検索ヘルプ PDF RSS ログインカテゴリ[PHP] 今までPHPでRSSをパースするときはPEARのXML Parserをextendしてオリジナルのパーサーを作っていたが、CDATAの読み込みの所がうまくいかなかったりしてあまりよろしくなかった。が、このMagpieRSSってのー使えば簡単じゃん。使い方 http://magpierss.sourceforge.net/ で最新版をダウンロード .incファイルとextlibをアップロード UTF-8で使う場合はrss_fetch.incのMAGPIE_OUTPUT_ENCODINGの値をUTF-8にするこんな感じでPHPを記述 <?php require_once 'rss_fetch.inc'; $url = 'http://yusukebe.

raimon49 2007/10/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (13)

RSSとXMLに関するraimon49のブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス