[B! UTF-8] kuwalabのブックマーク

kuwalab id:kuwalab

UTF-8に関するkuwalabのブックマーク (2)

Unicodeを斬りたい
※2014/4/17　記事の内容に関していくつか訂正させていただきました。ご指摘いただいた皆様ありがとうございました。誤字脱字を修正しました。ソースコードの間違いを修正しました。 BOMの記述を分かりやすい表現に修正しました。合字に関する記載を追記いたしました。こんにちは。 Yahoo! JAPANで通知プラットフォームの開発をおこなっています佐々木海（@Lewuathe）と申します。普段は全社向けのPush通知プラットフォームやメール配信プラットフォームの開発、保守をしています。通知というのはPush通知にしろ、メール配信にしろ基本的には「テキストデータ」を送ることになります。プラットフォーム内ではこれらのテキストに対してさまざまな処理をかけることになるのですが、さすが日本語といったところでしょうか、一筋縄ではいかない部分が出てきました。具体的にはUTF-8でエンコーディング
kuwalab 2014/04/17
UTF-8

Unicode
リンク
UTF-8で4バイトになる文字 at softelメモ
JIS X 0213の第3・4水準漢字の一部が4バイトとなる。マイナーな文字ですね。例えば、第1・2水準漢字だけ対応していればよい案件などでは考慮しなくてよいでしょう。 MySQLではこのUTF-8で4バイトになる文字を扱えないのだとか（MySQL6なら対応したそうだ）。数値文字参照で全部書いてみた。（パッチのあたっていないWindowsXPなどでは表示されないです。）𠀋𡈽𡌛𡑮𡢽𠮟𡚴𡸴𣇄𣗄𣜿𣝣𣳾𤟱𥒎𥔎𥝱𥧄𥶡𦫿𦹀𧃴𧚄𨉷𨏍𪆐𠂉𠂢𠂤𠆢𠈓𠌫𠎁𠍱𠏹𠑊𠔉𠗖𠘨𠝏𠠇𠠺𠢹𠥼𠦝𠫓𠬝𠵅𠷡𠺕𠹭𠹤𠽟𡈁𡉕𡉻𡉴𡋤𡋗𡋽𡌶𡍄𡏄𡑭𡗗𦰩𡙇𡜆𡝂𡧃
kuwalab 2013/05/23
4バイト文字。ほとんど読めない。

UTF-8
リンク
1