タグ

文字コードに関するbillie175のブックマーク (5)

  • 【第511回】UnicodeじゃなくてUTF-8にしてください!? : イジハピ!

    2014年01月13日18:08 【第511回】UnicodeじゃなくてUTF-8にしてください!? カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) このブログは、FacebookやTwitterへのボタンを配備するために、zenbackのサービスを使っている。 zenbackを使うと面白いのが、記事の題名や内容から類推して、他の人がポストした似たような記事を引っ張ってリスト化してくれることだ。 先週の月曜日、「Unicodeを使うと犯罪ですか」というブログを書くと、「似たような記事」リストの中に、「UnicodeとUTF-8の違い」という記事があった。 これもコンピューターを商売にしてるこっちにしたら、なかなかインパクトのある言葉である。 でも、専門外の人が知らないのはしょうがないと思う。 ぼくもよく知らない分野について相当トンチンカンな

    【第511回】UnicodeじゃなくてUTF-8にしてください!? : イジハピ!
  • Unicodeについて

    Maxyは、Unicode対応のテキストエディタです。 ところで、そもそもUnicodeって何なのでしょうか。 UnicodeとUTF-8とかUTF-16との関係は? そのあたりのことを簡単に説明していきます。 文字コードとは 日語を扱うには? 文字化け 多言語の混在 Unicodeの誕生 サロゲートペア エンコード方式 BOM そして今… 資料 文字コードとは まずは基中の基だけど、(現在のところ)コンピュータが扱えるのは数値のみという大前提がある。 何をするにも数値をいじるしかない。 きれいなCGも、優雅な音楽も、つまるところ数値なわけだ。 「ここに100を書き込んで、ここに150を書き込んで…」と、コンピュータが必死になっていろんなところに数値を書き込んだ結果としてCGが表示されたり音楽が流れたりするわけ。 そんなわけだから、当然コンピュータ内で文字を表現するにも数値が必要で、

  • UTF-8/UTF-16/UTF-32の違い - tanamonの稀に良く書く日記

    軽く調べてみた。 UTF-8 1文字は1byte〜6byteで表される。 (6byteで31bitまでの表現ができる) ASCIIは1byte ISO 8859-1以外のISO 8859の8bit文字は2byte 大抵の日語文字(半角カナ含む)は3byte 5〜6byteの文字は定義されていないし、する気もなさそう ISO 8859-1部分に互換性があるため、マルチバイト文字に対応していないような行儀の悪いプログラムでもそのまま動く。 BOMを付ける場合、BOMは3byteになる。 エンディアンに関係なくEF BB BF BOMは来要らないはずだけど、付いていることがある。 文字コードを自動判別する際にはBOMが無いと誤判別することが多いため、 出所不明の文書が飛び交う所では付けたほうがいいかもしれない。 BOM付きをUTF-8、なしを通称UTF-8N(正式名称ではない)という。 既に

    UTF-8/UTF-16/UTF-32の違い - tanamonの稀に良く書く日記
  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜

    Perl › モジュール › here 日語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日語を扱うことができます。 外部から入力された文字列はEncodeモジュールのdecode関数でデコードする 外部へ出力する文字列はEncodeモジュールのencode関数でエンコードする ソースコードはUTF-8で保存しutf8プラグマを有効にする この解説での用語 この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。 プログラミングで日語を扱う場合にその文字列がバイト文字

    Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜
  • 1