タグ

nokogiriに関するslyskrのブックマーク (1)

  • Nokogiriが文字化けするのの対策 - hitode909の日記

    そこらへんで拾ってきたHTMLをNokogiriに渡すと,文字化けすることがあって,困ってた. Nokogiriに文字コードを渡せるので,HTMLから正規表現でcharsetを取り出して,一番多く出現するcharsetをそのページのcharsetとして採用すると,うまくいった. ヒューリスティックにやってるだけだけど,だいたいうまくいく. こんな感じ. charset = io.scan(/charset="?([^\s"]*)/i).flatten.inject(Hash.new{0}){|a, b| a[b]+=1 a }.to_a.sort_by{|a| a[1] }.reverse.first[0] before "〓\u0082«〓\u0083¼〓\u0083\u0089〓\u0083\u0095〓\u0082〓〓\u0082〓〓\u0083\u0088!! 〓\u0083´〓\

  • 1