[B! unicode] f99aqのブックマーク

f99aq id:f99aq

unicodeに関するf99aqのブックマーク (8)

MySQL と寿司ビール問題 - かみぽわーる
MySQL と Unicode Collation Algorithm (UCA) - かみぽわーるに関連するトピックで、 MySQL には寿司ビール問題というのがある。寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。あれ？ MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる？ SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select
f99aq 2015/03/23
MySQL と寿司ビール問題

mysql

unicode
リンク
UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由　
f99aq 2015/03/08
xpのサポートが切れて土壌が出来上がってたのか。あと、かっこいい！→/ それを見て、間違っているんなら直せばいいじゃん、と。

unicode

jis

font

history
リンク
vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く
前置きおはミルキィ! ChromeFullFeedが公開停止になった話を前置きとして書いていたのですが, あまり関係がないのと, 長くなりそうになってきたので, 別の記事に分けました. http://d.hatena.ne.jp/Constellation/20110530/1306701693 概要という前置きで. ECMAScriptと切っても切れない文字コード, UTF-16. iv / lv5はUnicode変換のためにICUに依存していたのですが, UTF-8 <=> UTF-16なら何とか自分でも書けるのではないかと思い, Unicode Converterを書きました. これでlv5の依存はlibboost, libgc (Boehm GC)に減りましたー. Unicodeの変換の教授, bugつぶしにおいて, id:masa141421356 さんに非常にお世話になりま
f99aq 2011/06/15
unicode

c++

javascript

charset
リンク
decodeURIComponentのもろもろについて - 枕を欹てて聴く
追記1 SpiderMonkeyのサロゲートエリアのbug issue は修正されました! (該当commit) 記事の一番下を御覧ください. 追記2 V8のサロゲートエリアのbug issue は修正されました!(該当commit) これで以下の記事のサロゲートエリアのbugはV8, SpiderMonkey, JSCで修正されました普段1.5ヶ月に1記事しか書かないのに, 今日は3つも書いて正気の沙汰じゃないで... id:piro_or さんよりcommentで, id:nanto_vi さんの以下の記事の話を受けましたのでー. (commentついたの1年ぶりで感涙) 文字列と UTF-8 バイト列の相互変換: Days on the Moon リンク先の記事では, 以下の方法によるUTF-16 <=> UTF-8の変換が記載されています. function toUTF8Octe
f99aq 2011/06/15
javascript

unicode
リンク
Unicode, UCS-2/4, UTF-8/16/32についての整理 - デ-mk6
※注意：これは私が調べた結果をまとめたものなので、間違いがあれば指摘していただけるとありがたいです。用語ここで整理したいことについて話せるようにするための説明なので、正確ではないです（符号化文字集合とか符号点とか）。文字集合文字の集合符号化文字集合文字と負ではない整数（または整数列）の対応表。その整数が、コンピュータで扱うビットの並びそのものとは限らない。コンピュータでは、この整数を符号化方式によって変換したものを扱う。符号点、符号位置、コードポイント符号化文字集合で、文字に対応している整数（または整数列）のこと。「符号位置」はUnicodeでの呼び方。符号化方式符号点を、コンピュータで扱うビット列で表現するための変換方式。よく「エンコーディング」と呼ばれるものはこちら。符号化符号化うるさいので、ここでは「エンコーディング」ということにする。 ※「符号化文字集合」と「符
f99aq 2011/01/29
unicode
リンク
Unicode - 似た文字同士にご用心 : 404 Blog Not Found
2008年05月02日04:00 カテゴリLightweight Languages Unicode - 似た文字同士にご用心後者はハイフンでなくてマイナス記号でんがな。 [を] UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだで、元のテキストファイルの全角ハイフンを「od -t x1」で見てみると「ef bc 8d」と「e2 88 92」の２種類が混じっていました。前者は「\p{Hyphen}」にマッチするのですが後者はダメ。まあ原因は分かったので、前処理でバイナリ置換して解決しました。で、紛らわしそうなのを名前のHYPHENとMINUS SIGNでgrepするとこんな感じになる。 egrep '(HYPHEN|MINUS SIGN)' /usr/local/lib/perl5/5.10.0/unicore/Name.pl -002DHYPHEN-MI
f99aq 2008/05/02
unicode
リンク
Unicodeは文字集合か符号化方式か : 404 Blog Not Found
2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。文字コード規格の基礎：ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合，文字の集合エンコード方法という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが，ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。まずUnic
f99aq 2006/11/25
dankogai

encoding

programming

unicode

charset
リンク
Unicode::Normalize で遊ぶ - daily dayflower
Unicode の規格では，文字の合字（リガチャ等）等を統一的に扱えるように，「正規化」という処理が仕様として定まっています。この正規化処理のうち「互換性分解」という処理を行うと副作用として半角カナを全角カナに変換できます（逆に全角カナ→半角カナはできません）。 #!/usr/bin/perl use strict; use utf8; use Encode; use Unicode::Normalize; my $src = 'ﾎﾟﾝｼﾞｭｰｽ'; my $dst = Unicode::Normalize::NFKC($src); print Encode::encode('utf8', "${src} => ${dst}\n"); # OUTPUT is: ﾎﾟﾝｼﾞｭｰｽ => ポンジュースUnicode の正規化についてはperl5.8のUnicodeサポートおよび http:/
f99aq 2006/06/25
perl

unicode
リンク
1