タグ

Unicodeに関するhush_puppyのブックマーク (16)

  • Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

    少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。 気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。 いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。 起動するとなにやら見慣れた文字が。 顔文字でよく使われるギリシャ文字やキリル文字だ。 しばらく眺めているとこんな符号が。 合成用区分符号 これが上と下の行にはみ出す顔文字の正体だった。 ためしに作ってみよう。 ベースとなる顔文字を置く。 左目に合成用区分符号を入れる。 続いて右目に。 見事にはみ出す。 Unicode(ユニコード)とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

    Twitterで見かけるハミ出した顔文字の正体 - RyoAnna
    hush_puppy
    hush_puppy 2011/06/07
    これはスゴい。でもキモい。ぐぬぬ・・・
  • Mac OS X の「テキストエンコーディング」

    Mac OS X でテキスト編集をしていると「テキストエンコーディング」という用語を目にします。「誰か説明してくれないかな〜」とずっと待っているのですが、誰もしてくれそうにないので自分で説明してみます。 ((「テキス...Mac OS X の「テキストエンコーディング」 Mac OS X でテキスト編集をしていると「テキストエンコーディング」という用語を目にします。「誰か説明してくれないかな〜」とずっと待っているのですが、誰もしてくれそうにないので自分で説明してみます。1) テキストエンコーディングは、符号化文字集合と文字符号化方式の組み合わせです。 大ざっぱな表にしてみます。こんな感じ。 もちろんこの他にもたくさんあるのですが、すべて組み合わせが異なります。「同じ組み合わせで異なるテキストエンコーディング」というのはありません。 テキストデータはかならずこのように「符号化文字集合」と「

  • Twitterで使える日本人には無い発想で作られた顔文字、絵文字 - 涙目で仕事しないSE

    hush_puppy
    hush_puppy 2010/04/12
    お顔メーカーとかあったのか・・・やばい被ったどうしよ
  • 複数行にまたがる括弧はなぜズレるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    InD-Boardで出ていた「複数行にまたがる括弧」の話が興味深かったので、ちょっと調べてみた。皆さんの指摘に付け加えるような知見はないのだけれど、以下、文字コード的な雑談として。 Unicodeには、複数行にまたがる丸括弧、角括弧、波括弧がある(下図)。このうち2文字で作る波括弧は、左上と右下、左下と右上のパーツが共通なので、文字数としては、ここまでで16文字。 これらの括弧には、拡張用の直線パーツ(下図、グレー地)が用意されている。丸括弧用と角括弧用はそれぞれ左右別々、波括弧用のみ左右共通で、文字数としては5文字。しかしAdobe-Japan1では、これら5文字がすべてCID+12167に集約されており、区別してデザインすることができない。 下図は小塚明朝。角括弧の拡張はうまくいっているが、丸括弧と波括弧は直線部分がズレている。また、2文字分の波括弧のパーツは、おそらく左右共用ではなく

    複数行にまたがる括弧はなぜズレるのか - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • Unicode - JISマークは一文字! : 404 Blog Not Found

    2009年08月07日15:00 カテゴリCode Unicode - JISマークは一文字! 私もびっくりしたのですが、事実です。 まずは以下をご覧下さい。 〄は一文字です(U+3004)。 フォントまわりをカスタマイズしていないIEでも表示を確認できました。UbuntuのFirefoxでは空白でしたが。 なぜ気がついたかと言えば、unicode@unicode.org にこんな書き込みが登場したからです。 At http://en.wikipedia.org/wiki/Japanese_Industrial_Standards, a new symbol for JIS is shown and discussed. Will there be a new character in the Standard? (Not a new glyph in the same codepoint

    Unicode - JISマークは一文字! : 404 Blog Not Found
  • libiconv - GNU Project - Free Software Foundation (FSF)

    Introduction to libiconv International text is mostly encoded in Unicode. For historical reasons, however, it is sometimes still encoded using a language or country dependent character encoding. With the advent of the internet and the frequent exchange of text across countries - even the viewing of a web page from a foreign country is a "text exchange" in this context -, conversions between these

  • 文字コード変換ライブラリ「ICU」での文字コード変換処理: プログラマーの雑記帳

    UTF-8エンコーディングの文字が書かれているファイル("utf8_src.txt")を準備して、プログラムでファイルの1行目を読み込み、その文字列からUnicodeStringオブジェクトを構築してから、SJISにコード変換するサンプルです。 文字コード変換ライブラリ「ICU」セットアップ が行われいることが前提です。 #define WIN32_LEAN_AND_MEAN #include <stdio.h> #include <string> #include <fstream> #include <unicode/unistr.h> // ICU int main(int argc, char* argv[]) { std::fstream r("utf8_src.txt"); std::string str; r >> str; //一旦Unicodeで文字列オブジェクトを構築し

    文字コード変換ライブラリ「ICU」での文字コード変換処理: プログラマーの雑記帳
  • C/C++ 台北猫々ライブラリ

    ■TCPのSocketクライアントクラス V.1.0.7 ・対応環境:Linux(Fedora8), WindowsXP SP2 ・ソース Socket.src.zip(ソース) 【内容】 Socket.cpp Socket.h socket_main.cpp (windows・Fedora共用テストコード) ReadMe.txt(ソケットクラスについての説明) ・Visual C++ 2008 プロジェクト Socket.zipWindowsXPでは、参照ライブラリに"Ws2_32.lib"を追加してくださいね。 ※文字コードはSJISで作っていますのでLinuxでは注意。 ■生Socketクライアントクラス V.1.0.3 ・対応環境:Linux(Fedora8), WindowsXP SP2 ・Socketクラス V.1.0.7 ~に対応 ・ソース RawSocket.src.z

  • its55 lab » C++でShift-JISをUTF-8に変換する

    6月 11th, 2008 Posted in C++ Windowsアプリケーションでもネットワークにつながって、サーバアプリケーションと連携することが多くなってきてますねぇ。ネットワークといえば文字コードはUTF-8なイメージがあるワタクシですが、C++ではShift-JISなアプリばっかり作ってきたので、UTF-8に変換するにはどうしたらいいの?ってことでまとめます。 C++でShift-JISをUTF-8に変換するには、 Shift-JIS→UTF-16→UTF-8 の順番で変換する必要があります。 そもそも、UTF-16とUTF-8はどう違うのか。UTF-16は文字に割り当てられる番号(コードポイント)が2バイトで格納されます。一方UTF-8は、0~127のコードポイントは1バイトで格納され、128から上のコードポイントは、2~6バイトで格納されます。0~127のコードポイントで

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
  • UCD Documentation File Replaced

    The UCD Documentation File You Requested Has Been Replaced The documentation file you are looking for has been replaced by another document in the latest release of Unicode. The table below lists the files in http://www.unicode.org/Public/UCD/latest/ which have been replaced, including the versions of the Unicode Standard in which they are present, and a link to the replacement file thereafter. Th

  • Unicode HOWTO

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • ものかの:Photoshop CS2 同じフォルダに同一名称のファイルがある事態になると、保存操作時に断りもなく勝手にファイルを削除してしまう

    File List Printを2.7.0にアップデートしました。 ダウンロードはFile List Printのページからどうぞ。 2.6.0で追加した新機能がさらに便利になりました。 環境設定をウインドウからパネルに変更 環境設定パネルに設定変更を即座に反映できる「リストに適用」ボタンを追加 リストのフォルダをダブルクリックで展開するようにした メインウインドウに列幅を最適化する「列幅を調整」ボタンを追加 メニュー「表示 > 列幅を調整」を追加 メニュー「ファイル > Finderに表示」を追加 Illustratorファイルのアプリバージョン判定も少し改善しました。数MB程度のファイルサイズなら若干速くなったかもしれません。それ以上になると(とくにEPSで)全部読み込んでやっと判定できるようになるので、やはりファイルサイズが大きいほど激遅です…。 File List Printを2.

    ものかの:Photoshop CS2 同じフォルダに同一名称のファイルがある事態になると、保存操作時に断りもなく勝手にファイルを削除してしまう
  • 絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

    前回までを振り返る--Unicodeコンソーシアムの影響力 前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。 また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC(Unicode Technical Committee/Unicode技術委員会)で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

    絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
    hush_puppy
    hush_puppy 2009/03/21
    携帯開発してた人たちはこれをテストしてたのか・・・
  • 1