[B! UTF-8] teracy_junkのブックマーク

UTF-8からSJISに文字化けすると糸偏の漢字がよく出てくる - Qiita

はじめに Twitterで、文字化けネタを幾つかつぶやきました。サッちゃんはねサチコっていうんだほんとはねだけどちっちゃいから自分のこと SJISで保存するんだよおかしいな繧ｵ繝ちゃん — ロボ太 (@kaityo256) 2017年10月10日「私魔女のキキです。こっちはSJISの繧ｸ繧ｸ」 — ロボ太 (@kaityo256) 2018年1月6日 UTF-8「もしかして…」 SJIS「私達…」「「入れ替わ縺縺ｦ繧九≦縲懶ｼ†」」 — ロボ太 (@kaityo256) 2018年2月13日どれもUTF-8で保存された文字をSJISとして解釈したための文字化けを表現したものですが、パッと見で「糸偏の漢字が多いな」ということがわかるかと思います。なぜそうなるかを簡単に説明してみようと思います。なお、文字コードはいろいろ面倒なので、ここではざっくりとしたことしか言い

teracy_junk 2018/02/16

『UTF-8のひらがな、カタカナ3バイトの上位2バイトをSJISで解釈した時、1バイト目はE3で確定、2バイト目の上位4bitは8で確定、残りの下位4bitとしてとり得るのは「1」「2」「3」の三種類』頻出の理由なるほど

リンク

HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血

さよならレガシーエンコーディング。文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日本語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー

teracy_junk 2017/10/10

リンク

プログラミング言語における文字コードの話

世の中がほぼUnicode前提になってめでたしめでたし。とはいかなかった現実の話。 String型でできる文字列処理とか、ソースコード自体、特に識別子で使える文字とか。軽くおさらい: Unicode まあいろんなところでいろんな人が書いてると思うのでさらっと概要だけ。 Unicodeは、元々、「65,536文字あれば十分だろ」とかいう幻想の元、2バイト固定長の文字コードとして作られていました。もちろん足りなくて、ビット数を拡張。基本が2バイトのままでこの拡張した分を取り扱えるようにしたのが今のUTF-16で、拡張分は2文字分(4バイト)を使って表現。この、2文字分使って1文字を表すやつのことをサロゲートペア(surrogate pair: 代理対)と呼びます。あと、ASCII文字も2バイトになるのを欧米人が嫌って、ASCII文字はASCIIコードのまま、逆に漢字・ひらがな・カタカナ

teracy_junk 2017/05/23

面白い（実務だと胃が痛い）話

リンク

JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

Intro textarea などに入力された文字数を、 JS で数えたい場合がある。ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID