タグ

文字コードに関するwakaranyのブックマーク (3)

  • iconvの「UTF-8」はBOMが無いものとみなす - yanok.net

    文字コード変換プログラムのiconvでは、文字コード「UTF-8」において、入出力ともにBOMを用いません。 出力においてBOMを使わないということは、すぐに納得がいくことと思います。UTF-8として出力されるバイト列の先頭にBOMがつかないということです。 かたや、入力においてというのがどういうことかというと、BOMに相当するバイト列を 見ても、それをBOMとは認識しないということです。 つまり、データ先頭にEF BB BFという3バイトがあったら、それをBOMとして消費するのでなく、単なる普通の1文字のように扱うのです。 ちょっと実験してみましょう。 UTF-8にBOMを付けて出力するプログラムとしてポピュラーなのはWindowsのメモ帳です(XPで確認)。メモ帳でUTF-8としてテキストを保存するともれなくBOMがついてきます。 例えば、メモ帳で「あ」とだけ書いて改行し、UTF-8

  • JSPで特殊文字が文字化けする場合の対処方法

    質問1:「①②」「ⅠⅡ」「㍉㌔」などが文字化けします 解答:文字コードとしてシフトJIS(Shift_JIS)の代わりにWindows-31Jを指定しましょう Windows環境で標準的に用いられている文字コードは、正確にいうと「Shift_JIS」ではなく、Shift_JISを拡張した「Windows-31J」と呼ばれるWindows標準文字セットである。JavaではJDK 1.2以降で「MS932」という名称でサポートされており、JDK 1.4.1以降はWindows-31JというIANAの正式名称でも利用可能になっている。 このWindows-31Jは、以下のようなWindows固有の機種依存文字を含んでいるのが特徴だ。 一方、MacintoshなどWindows以外のOSにおける「Shift_JIS」は、Windows-31Jとは異なる文字集合をサポートしている。例えばWindow

    JSPで特殊文字が文字化けする場合の対処方法
  • vimエディタで「文字コード、改行コードを変更して保存する。」

    vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。 ファイルの文字コードや、改行コードを変更する時は、 変更したいファイルを開いた状態で、 ・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f

    vimエディタで「文字コード、改行コードを変更して保存する。」
  • 1