タグ

ブックマーク / hwat.sakura.ne.jp (1)

  • perl html パース hPod: use HTML::TreeBuilder

    Excite ブログから Seesaa ブログへの移行:その2 次に、 Excite ブログのドキュメント構造を調べる。ドキュメント構造なんて言うと小難しいことをやりそうだけれど、単に HTML を、目で、パースしてみたにすぎない。この HTML から、各要素を抜き出して、 Seesaa ブログの(エクスポートしたデータの)書式に合わせて整えればよいのだけれど、 Excite ブログのそれは、ちょっと酷い内容。あまり長く眺めていると、気絶しそう。 一見、たくさんのスタイルの指定がしてあるので、データもそれなりに括られているのかと思われど、要素としては意識されておらず、 HTML デザインの延長として(だけに)スタイルを作っているように思われる。でも、ほかに手がかりもないのでそれを頼りにするしかない。 DIV タグと、その要素 class の値。でもそれらを取り出せば、記事の構成要素を抽出し

  • 1