タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

scrapingに関するuesimaのブックマーク (1)

  • ひどいHTMLをSAXパーサに読ませる (2007-08-10)

    先日取り上げたexblogのひどいHTMLを、HTML向けSAXパーサに読ませるとどうなるかの実験。startElement()やendElement()がどうコールされるかによって、パーサごとの性格が現れる。 コールバックメソッド level はネストの深さを表すインスタンス変数。 public void startElement(String uri, String localName, String qName, Attributes attrs){ for(int i = 0; i < level; i++) System.out.print(" "); System.out.print("<"+localName); for(int i = 0; i < attrs.getLength(); i++) System.out.print(" "+attrs.getQName(i)+

  • 1