XPathの前に「いろいろ」やるけど。 mixiのHTMLというか、backup_mixiが出力したhtml。ここから本文・タイトル・日付を取り出す。(ついでにはてなダイアリー仕様のXMLに出力) mixiのhtml、古いと思うな。Webにオープンじゃないからいいのかな。 #!/usr/bin/env ruby base_dir = "." output = "hatena.xml" require 'rexml/document' require 'rexml/xpath' require 'iconv' s2u = Iconv.new('UTF-8', 'Shift_JIS') u2s = Iconv.new('Shift_JIS', 'UTF-8') def delete_otag!(html, name) html.gsub!(/<#{name}[^>]*>/, '') end d