[B! encoding] higedのブックマーク

higed id:higed

encodingに関するhigedのブックマーク (2)

Unicode のサロゲートペアとは何か - ひだまりソケットは壊れない
こないだ同僚に Unicode のサロゲートペアについて説明する機会があって、それで Unicode の話をブログ記事に書きたくなったのでサロゲートペアについて書いておこうと思う。この記事は Unicode Standard version 6.3.0 を見ながら書いた。文字とコードポイント抽象文字 (abstract character) を計算機上で扱うためには、符号化する必要がある。 Unicode では、文字の符号化のために使用できる整数の範囲をコード空間 (Codespace; 符号空間) と呼んでいる。 0 から 0x10FFFF がその範囲である。そして、その空間に属する値をコードポイント (Code Point; 符号位置) と呼ぶ。次の図は、抽象的な「Å」という文字と、対応する符号化文字 (Encoded Character) を表現するコードポイント
higed 2016/03/31
encoding

文字コード

サロゲートペア
リンク
文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。
「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ
higed 2016/03/28
あとで読む

まとめ

プログラミング

文字コード

encoding
リンク
1