タグ

UTF-8に関するext3のブックマーク (8)

  • HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血

    さよならレガシーエンコーディング。 文字エンコーディング宣言が存在するかどうかにかかわらず、文書のエンコードに使用される実際の文字エンコーディングはUTF-8でなければならない。 4.2.5.5 文書の文字エンコーディングを指定する - HTML Standard 日語訳 Require utf-8 when specifying character encoding by sideshowbarker · Pull Request #3091 · whatwg/htmlにより、HTMLで使用できるエンコーディングはUTF-8のみとなりました。これにより、古いHTMLでは許容されていた、Shift_JIS、ISO-2022-JP、EUC-JP、UTF16LEといった文字エンコーディングは適合するHTMLではなくなりました。すでにNu Html CheckerでUTF-8以外の文字エンコー

    HTML文書は文字エンコーディングUTF-8でなければなりません - 水底の血
  • Twitter時代の文字の数え方 | 配電盤

    入力「×」のブラウザでは、「𠮷」が2文字とみなされるため、2文字目まで、つまり「𠮷野」までしか入力できません。 Mozillaの文書には、Unicode code pointsで数えると書いてあるので、そのうち改善されるのかもしれませんが、現時点ではTwitterのために「maxlength="140"」を使うことはできません。 pattern属性 Firefox 21とChrome 27、IE 10、Opera 12.15は、「pattern=".{0,3}"」(任意の文字からなる0から3文字)のような正規表現を使った検証にも対応していますが、やはり「𠮷野家」は4文字とみなされてしまいます。 JavaScript 追記:javascript – でBMP以外のUnicode文字をきちんと扱う(404 Blog Not Found) JavaScriptでは、文字列strの長さをst

  • UTF-8 - Wikipedia

    * 第1バイトがE0のときに第2バイトが80-9Fの範囲を、または同F0のときに80-8Fの範囲を取るものは冗長な符号化となるため許されない。第1バイトがEDのときに第2バイトがA0以上となるものはサロゲートペアのための符号位置にあたり、また同F4のときに90以上となるものはUnicodeの範囲外となるため、UTF-8ではやはり許されない。 Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する(最少のバイト数で表現するため、yの部分には最低1回は1が出現する)。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 1バイト目の先頭の連続するビット "1"(その後にビット "0" が1つ付く)の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が

  • UTF8 と UTF8N の違い - alpha @ ウィキ

    UTF8 と UTF8N の違い UTF8:  BOM (Byte Order Mark)付き UTF8N: BOM なし BOMとはUnicodeのエンディアンを示すものでテキスト・ファイルの先頭に置かれている。 また、同時にテキスト・ファイルがUnicodeかどうかの判別にも使われることもある。 中身は、U+FEFF である。 これが、次のような形式の違いで、エンディアンを区別している。 FE FF: ビッグエンディアン(UTF-16) FF FE: リトルエンディアン(UTF-16) 00 00 FE FF: ビッグエンディアン(UTF-32) FE FF 00 00: リトルエンディアン(UTF-32) UTF-8の場合、エンディアンが関係ないので必要ないが付いているものがある。 この場合、UTF-8 の BOM は EF BB BF UTF-8Nで保存すると、アプリケーションによ

    UTF8 と UTF8N の違い - alpha @ ウィキ
  • utf8とutf8Nって?

    ブログがお目見えしてから、utf-8という文字コードを初めて知った方は多いだろう。かくゆう私も、実はそうである。 unicodeの存在はおぼろげに知っていたが、MTでその存在が明らかになった。 で、MTのutf-8は、正確にはutf-8Nである。 utf-8utf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです。 さらに知りたい人は、短時間でわかりやすいESRIジャパンのこちらを参考に。 と小難しいことはさておいて、MTのカスタマイズに関わってくるutf8について。 テンプレートを外部ファイルで保存した場合、 エディタで保存するときに、(もちろん設定がutf-8の場合) (※文字コードが選択できるエディタ) 「名前をつけ

    utf8とutf8Nって?
    ext3
    ext3 2012/09/04
    "utf-8とutf-8Nの違いは、utf-8がBOMあり、utf-8Nはありません。 BOMとは、unicodeでファイルが保存されるときに、「このファイルはunicodeだよ」と判定できるために、ファイルの先頭につけるコードのことです"UTF-8N駄目じゃん
  • ソースファイルのエンコーディングを指定してコンパイルする

    コンパイル時にエンコーディングを指定する Java では環境ごとにデフォルトのエンコーディング file.encoding プロパティに設定されており、異なるエンコーディングを使用してソースファイルを保存した場合にはコンパイルを行う時にエンコーディングを指定する必要があります。 コンパイルを行う時にエンコーディングを指定するには javac の -encoding オプションを使います。

    ソースファイルのエンコーディングを指定してコンパイルする
  • nabokov7; rehash : ライブドアという会社の話をしよう - Q12. 次世代ブログサービス(になるはずだった) nowaの撤退をどうみた?(下)

    March 10, 201213:50 カテゴリライブドアという会社の話をしよう ライブドアという会社の話をしよう - Q12. 次世代ブログサービス(になるはずだった) nowaの撤退をどうみた?(下) さて、前回からの続き。 社運をかけて招集された nowa の開発チームは、プログラマ、ディレクター、デザイナー、マークアッパ、どれをとっても精鋭チームというべき豪華な面子が勢揃いしていた。 一方の「旧ブログ」チームは、それまで一人でブログを支えて続けていたベテランのエンジニアが辞め、あとを僕ともう一人とで継いだものの、その片方の人も別会社に移って行ってしまって、エンジニアは僕一人だけになっていた。マネタイズのプランもなくただの金い虫だった「旧ブログ」には大した長期戦略も与えられず、広告営業案件の狩り場と化して、宣伝用のブログパーツばかり作らされていた。 基的に旧ブログチームの役割はデ

    nabokov7; rehash : ライブドアという会社の話をしよう - Q12. 次世代ブログサービス(になるはずだった) nowaの撤退をどうみた?(下)
    ext3
    ext3 2012/07/04
    "ちょうどエイプリルフールの時期だったのでその企画として一日だけ nowa を復活させ、nowa のロゴの a だけ黒塗りで消して「うちも『now』作りました!」ってリリースを出すというアイデアも出ました。 実は密かに「あれ
  • Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場

    UTF-8 は、逆方向へのスキャンが可能、バイナリ比較の結果が UCS と同じ、といった特徴をもつ一方、冗長なエンコーディングが可能という欠点をもっている。では、前者の特徴を活かしたまま、後者の問題をもたないエンコーディングを定義することはできるだろうか? 定義が可能と考える場合は、そのアルゴリズムを、不可能だと考える場合はその理由を記せ。 (配点:20点) 参考: http://wassr.jp/user/kazuho/statuses/XqsSvKL1hQ, UTF-8 冗長 - Google 検索

    Q. UTF-8 の冗長性問題は、設計上の問題なのか? - kazuhoのメモ置き場
  • 1