タグ

RSSとXMLに関するraimon49のブックマーク (9)

  • 米Bing、コンテンツのクローリング方針について解説, 「あらゆるコンテンツをクロールするつもりはない」 ::SEM R (#SEMR)

    米Bing、コンテンツのクローリング方針について解説, 「あらゆるコンテンツをクロールするつもりはない」 マイクロソフトの検索エンジン・BingのDuane Forrester氏がBingのクローリングの仕組みや考え方について語った。 公開日時:2011年09月09日 11:38 米Microsoftの検索エンジン・BingのDuane Forrester氏(シニアプロダクトマネジャー)が、Stone Temple ConsultingのEric Enge氏によるインタビューに応じ、Bingのコンテンツのクローリング及びインデクシングの方針や取り組みについて説明を行った。 Bingのクローリングの仕組み まず、Bingはインターネット上のコンテンツをクローリングする手段として、(他の検索エンジンもサポートする)XMLサイトマップもサポートしているが、同社はRSSフィードを通じたコンテンツの

    米Bing、コンテンツのクローリング方針について解説, 「あらゆるコンテンツをクロールするつもりはない」 ::SEM R (#SEMR)
    raimon49
    raimon49 2011/09/10
    >RSSフィードを利用することは、コスト削減や効率の観点からも、また、リアルタイムに新しいコンテンツを取得できることから「理想的な手段」
  • APIコンソール | dev.twitter.com

    <g> <g> <defs> <rect id="SVGID_1_" x="-468" y="-1360" width="1440" height="3027" /> </defs> <clippath id="SVGID_2_"> <use xlink:href="#SVGID_1_" style="overflow:visible;" /> </clippath> </g> </g> <rect x="-468" y="-1360" class="st0" width="1440" height="3027" style="fill:rgb(0,0,0,0);stroke-width:3;stroke:rgb(0,0,0)" /> <path d="M13.4,12l5.8-5.8c0.4-0.4,0.4-1,0-1.4c-0.4-0.4-1-0.4-1.4,0L12,10.6L6.2

    APIコンソール | dev.twitter.com
  • IBM Developer

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    IBM Developer
    raimon49
    raimon49 2008/09/29
    RSSの拡張。慣例として名前空間にはドメイン名を使われることが多い。
  • koshigoewiki:feed:rss2.0仕様 [KoshigoeWiki]

    RSS2.0は、RSS0.91の後継的な仕様です。RSS1.0ではRDF Site Summaryの略称であるのに対し、RSS2.0はReally Simple Syndicationから来る略称です。ここから分かるように、よりシンプルな仕様でシンジケーションを実現させようと考えられています。RSS1.0ではRDFを利用しているため拡張度が高く様々な表現が可能です。もちろんRSS2.0をXMLの名前空間で拡張する事は出来ます。しかし、よりシンプルな形を保つ事で特定の目的を実現させる事も大切な事でしょう。 シンジケーションを日語訳する事は難しいですが、コンテンツの再利用と考えればいいでしょう。フィードはXMLベースのため、原則としてメタデータです。それ自体では人に理解されにくい形態ですが、ある目的に沿って複数のフィードを集約したり、単体に対する装飾などが簡単な形態であるとも言えます。散らば

    raimon49
    raimon49 2008/06/05
    ざっくりとした仕様
  • RSSをパースするときの制御文字への対処 - public static void main

    DOMを使ってRSSをパースしているとたまに以下のエラーがおきることがあります。(Livedoorブログ、FC2、Amebaブログとかが多い) An invalid XML character (Unicode: 0x14) was found in the element content of the document.Unicode: 0x14の部分は0xbだったりいろいろです。 原因は、絵文字を使っていたり、文字化けしたりといったことによって制御文字が挿入されたためのようです。 ASCIIコードでは0x00〜0x1Fと0x7Fのコード範囲が制御文字になり、これが含まれているXMLはinvalidになるようです。 Javaの場合、RSSをパースする前に以下のようにこの制御文字を削除しました。 str.replaceAll("[\\00-\\x1f\\x7f]", ""); 上記のコード

    RSSをパースするときの制御文字への対処 - public static void main
    raimon49
    raimon49 2008/05/15
    #x0~#x1fを消してパースエラーの回避。
  • フィードをアイテム単位に区切れば、セマンティック・ウェブが一気に現実化する - モジログ

    ブログを更新すると、トップページに最新エントリが出てくる。 これは、ブログのトップページが一種の「一覧ページ」だからだ。 一覧ページのURLは変わらずに、その中身が変わっていく。 これに対して、ブログの1つのエントリを表示する「個別ページ」は、基的に中身が変わらない。 1つのエントリに対して固有のページが割り当てられ、そのURLが「パーマネントリンク」になる。 この2種類のページ、「一覧ページ」と「個別ページ」は役割が違う。 「一覧ページ」はフォルダのようなもので、「個別ページ」はファイルのようなものだ。 フォルダにファイルが追加されるように、「一覧ページ」に「個別ページ」が追加される。 「フィード」とは、この2種類のページのうち、前者の「一覧ページ」をソフトウェア向けにしたものだ。 Webページは人間が見るために作られているが、フィードはソフトウェア向けに作られている。 フィードのおか

    raimon49
    raimon49 2008/03/25
    XHTMLが、ここで述べられているような再利用性みたいなものを実現するんだと思ってたけど、実際は全然違ったなぁ。
  • スクレイピングはもっと簡単にならなければいけない - bits and bytes

    スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。 そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけど デモムービー を見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

    raimon49
    raimon49 2008/03/07
    >簡単なことを簡単に実現するための方法
  • CDATA セクション内に ]]> < 07 < July < 2005 < nulog, NULL::something : out of the headphone

    Studying XML -- second step -- [ エスケープ ] (via XML の CDATA 中では ]]> のエスケープが必要)で ]]> を書くときは ]]&gt; のようにエスケープすればよいみたいなことが書かれているけど、CDATA セクション内ではそもそも & の扱いもなくなる (CDATA セクション内では ]]> のみがマークアップとして扱われる。Within a CDATA section, only the CDEnd string is recognized as markup) ので意図した挙動 (]]> がアンエスケープ) にならない。 結論をいうと CDATA セクションに ]]> をそのまま含めることは不可能で、どうしても CDATA セクションを書きたいよぅって時は二つにわけないとダメ。すなわち <!CDATA[[]]]]><CDATA[

  • MagpieRSSを使ってPHPで簡単RSSパース - TechMemo

    MagpieRSSを使ってPHPで簡単RSSパース トップ 差分 一覧 ソース 検索 ヘルプ PDF RSS ログイン カテゴリ[PHP] 今までPHPRSSをパースするときはPEARのXML Parserをextendしてオリジナルのパーサーを作っていたが、CDATAの読み込みの所がうまくいかなかったりしてあまりよろしくなかった。が、このMagpieRSSってのー使えば簡単じゃん。 使い方 http://magpierss.sourceforge.net/ で最新版をダウンロード .incファイルとextlibをアップロード UTF-8で使う場合はrss_fetch.incのMAGPIE_OUTPUT_ENCODINGの値をUTF-8にする こんな感じでPHPを記述 <?php require_once 'rss_fetch.inc'; $url = 'http://yusukebe.

  • 1