タグ

ブックマーク / 7io.org (1)

  • 統計学の力を借りて、文字化け退散! | 月と燃素と、ひと匙の砂糖

    どの方式も、ASCIIを基として、ASCIIでは使われていないデータ部分を使って日語(やその他の言語)を表現しています。その使い方はそれぞれの符号化方式で異なるため、「このデータの並びはShift_JISでしか使われないはず…だから、このテキストはShift_JISだろう」みたいな感じで、文字コードの推定ができます。 たとえば、昔のYahoo!JapanはEUC-JPで書かれていた(今はUTF-8)のですが、そのとき、ページの最初のほうにこんな感じのコメントが入っていました。 <!-- 京 --> 趣味によっては「美乳」とか使うみたいです(笑 この「京」や「美乳」をEUC-JPでエンコードしたバイト列、「0xB5 0xFE」や「0xC8 0xFE 0xC6 0xFD」は、Shift_JISにもISO-2022-JPにも、さらにUTF-8にも決して現れないデータの並びです。だから、ブラウ

    technerd
    technerd 2011/11/06
    素晴らしくスマートなやり方。マッピング画像を見たら思わず声が出た。
  • 1