動機 そういえばXMLだけじゃなくてHTMLの解析もやってみたくなったから。 方法 HTMLもXML系のパーサ使えばいいんだろうけど、HTMLParserってのがあるので使ってみました。使い方としてはざっくり下のコードみたいな感じ。 from HTMLParser import HTMLParser, HTMLParseError class TestHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): attrs = dict(attrs) # タプルだと扱いにくいので辞書にする print 'start', tag if 'div' == tag and 'class' in attrs: print '-->', attr