タグ

unicodeに関するW53SAのブックマーク (11)

  • IDN in Google Chrome

  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
  • 特殊記号文字置場-ニコニコミュニティ

    0) || (authority !== 'loading' && authority !== 'error' && owner_delegation_request !== 'loading' && owner_delegation_request !== 'error' && owner_delegation_request !== null)"> 【説明】 ①コミュで使用可能な特殊記号文字一覧コミュ コミュ参加は自由です ②引用ご自由に 使用される方はコピー&ペーストでどうぞ ③作成理由は、実際のコミュで使用する際の見え方を確認する為 ※一応主得の為、同用途のコミュが他に存在しても気にしない ④環境依存文字(unicode)メインです ⑤主環境はWindowsです ⑥追加があれば順次追加していきます ※万が一、同じ文字が被っていても気にしない ⑦このコミュについて、リンクは勝手にどう

    特殊記号文字置場-ニコニコミュニティ
  • Macの肝/UNICODEで遊ぼう

    文字コードの規格、UNICODE UNICODE(ユニコード)はパソコンで文字を表すための文字コードの規格だ。 パソコンで表示されるさまざまな文字には、1文字ごとに対応するコード(番号)がふられている。パソコン内部では文字は全て番号で扱われていて、その番号に対応する文字のグラフィックを表示している。 欧米のアルファベットなら大文字、小文字を区別しても26文字×2=52文字なので、256種類の数字を扱える1バイト(8ビット)で1文字を表すことで十分だった。そうやって文字をコードの番号で表現することをエンコードという。 しかしそれでは何千という種類がある漢字や記号を扱うには足りないため、1文字あたりの情報量を2バイトや3バイトに増やし、より多くの文字を扱えるようにしてやる必要が出てきた。たとえばShift JISという文字コードは現在でも日語を扱うパソコン主流のエンコードだ。 その後さらに世

  • Category:Unicodeに存在しない文字 - Wikipedia

    Unicodeに存在しない文字に関するカテゴリ。 このカテゴリは、Unicode上に存在しない文字は検索機能による検索がとても困難なため、それらUnicodeに存在しない文字が含まれる記事を一覧化し、利用者の便宜を図るためのカテゴリである。 このカテゴリに含まれる記事 Unicodeに存在しない文字群(トンパ文字、神代文字など)、Unicodeに存在しない記号の群(洗濯表示など) Unicodeに存在しない学術記号 Unicodeに存在しない漢字 Unicodeで表現できない合字(「トキ」「ト云」などの合略仮名など) Unicodeに存在しない漢字を構成要素の組み合わせで表記したもの Unicodeに存在しない組文字(MacJapaneseの有限会社など) Unicodeに存在しない囲み文字(大⃝や小⃝、控⃝など) Unicodeに収録が提案されているがまだ収録されていない文字(CJK統合

  • 枠外へ鼻血がブー! “はみ出す顔文字”の正体と顔文字アプリ100万ヒットのわけ

    えっなんではみ出てるんだ……。 Twitterを眺めていたときのこと。上下にはみ出る変な顔文字がタイムラインに流れてきたことがあった。目の下に丸が連なって下の行まで飛び出しており、涙がポロポロこぼれているように見える。白目をむき、鼻血がぶわっと豪快に噴き出しているように見えるものもあった。最近ネットでよく見かけるこれらの特殊な顔文字は、「Unicode」に収録されている文字や記号を組み合わせて作られている。 Twitterで表示してみた。涙がぽろぽろ。鼻血も豪快に飛び出して面白い。右がキモカワすぎる そんなはみ出す顔文字を多数収録したiPhoneアプリ「Girl's顔文字BOOK」が、若い女性に人気だ。今年8月にリリースされ、1カ月で70万ダウンロードを突破。リリース3日目には、日のApp Storeの無料総合ランキングで1位に輝いた。現在は100万ダウンロードを超えている。海外のユーザ

    枠外へ鼻血がブー! “はみ出す顔文字”の正体と顔文字アプリ100万ヒットのわけ
  • 301 Moved Permanently

    移転しました。 https://kaosute.net/emoticon/

  • perl - Encode 中級 : 404 Blog Not Found

    2008年05月08日04:00 カテゴリLightweight Languages perl - Encode 中級 以前書いた 404 Blog Not Found:perl - Encode 入門 は大好評でしたが、 ウェブで利用される文字コード、UnicodeがASCIIを上回る--グーグルが明らかに:マーケティング - CNET Japan UnicodeがASCIIを追い越し、World Wide Web上で最も多く利用されている文字コード体系になったとGoogleのシニアインターナショナルソフトウェアアーキテクトMark Davis氏がブログで述べている。 という時代に完全対応するには、入門以上の知識がちょっと必要になります。 例えば、blogをホストしてくれているlivedoor blogの文字コードはEUC-JP。「時代はUnicode」だと言っても、こうした事情もまだ

    perl - Encode 中級 : 404 Blog Not Found
  • 404 Blog Not Found:perl - Encode 入門

    2008年04月09日01:00 カテゴリLightweight Languages perl - Encode 入門 すでにOSCONでもYAPCでも、あちこちそちこちでこの基方針に関しては話したのですが、ここ 404 Blog Not Found でも改めて。 Perl で utf8 化けしたときにどうしたらいいか - TokuLog 改め だまってコードを書けよハゲ 入り口で decode して、内部ではすべて flagged utf8 で扱い、出口で encode する。これがすべてです!とにかくこの基方針をまもっていれば幸せになれます。ここでは、EUC-JPでエンコードされたファイル中の「小飼弾」「こがいだん」「コガイダン」「Kogai Dan」を正規表現で書き換えて標準出力にEUC-JPで出力するプログラムを例にとって説明します。 decode() then encode(

    404 Blog Not Found:perl - Encode 入門
  • Copy Paste Character

    A website for copying the 'hidden' characters that comes with the computer's typefaces.

    Copy Paste Character
  • 1