HTML5ではタグを閉じなくてもよいのでjava.xmlのDocumentBuilderでそのままパースできません。 Validator.nu HTML Parserを利用するのが一番簡単です。 日本語のドキュメントが少ないのでメモを共有します。 このライブラリはFirefox4系のコアでC++にコード変換して利用されているとのことでかなり信頼性が高いと考えられます。これまでに数百のサイトのhtmlを解析してみましたがパースでエラーが出たことはまだありません。英語のドキュメントでの利用方法もそれなりに充実しています。 本投稿時点でのバージョンは1.4です。 使い方 まずは上記URLにあるzipをダウンロードしhtmlparser-1.4.jarにビルドパスを通します。 nu.validator.htmlparser.dom.DocumentBuilderクラスを利用することで簡単にorg.