タグ

unicodeに関するNaruhodiusのブックマーク (24)

  • UAX #31: Unicode Identifiers and Syntax

  • 絵文字が開いてしまったパンドラの箱

    の携帯絵文字を国際標準にすべく、GoogleAppleが中心になってISO/IEC 10646に提案されました。ところが顔文字の一部に違和感があるため、有志と修整提案することにしました。その一連の動きを報告します。 なお同じ筆者によるCNET Japanの以下の記事もご参照ください。『絵文字が開いてしまったパンドラの箱』(http://japan.cnet.com/sp/column_emojipandora/20389042/)Read less

    絵文字が開いてしまったパンドラの箱
  • Unicode Standard

    About the Unicode® Standard Characters for the World The Unicode Standard is the universal character encoding designed to support the worldwide interchange, processing, and display of the written texts of the diverse languages and technical disciplines of the modern world. In addition, it supports classical and historical texts of many written languages. The Standard Formally, a version of the Uni

  • Mac OS X におけるファイル名に関するメモ(NFC, NFD等)

    このblogは、著者である「sakito」が技術的に生存している事を報告するために存在します タイトルを「紹介マニアどらふと版」から変更しました Mac OS X で ファイルシステムのフォーマットに HFS+ を利用している場合、ファイル名の取り扱いが、 WindowsLinux と異なります。 具体的には濁点や半濁点の扱いが異なります。これは Unicode の正規化に関係しています。 「Unicode の正規化」とは簡単に言うと、どの文字を同じ文字として処理するか、という問題への対処で、「が」を「が」として扱うか「か + ゛」として扱うか、ということです。 「Unicode の正規化」を実施することで「が」で入力されても、「か + ゛」で入力されても、どちらか一方に統一して、同じ文字として扱えるようにします。 こうした正規化形式には4種類存在します。 Normalization

  • Mac OS Xの濁点ファイルがやってきた - miauのブログ

    一ヶ月ほど前の話。Mac OS X を使っている人から Skype で送られてきた Excel ファイルが WinMerge でうまく開けなくて。「xdoc2txt が .xlsx に対応してない?いやそんなはずは・・・」とかいろいろ調べてて、ふと思い立って dir すると こんな感じと。今まで仕事Mac OS X を使っている人には出会ったことがなかったので、「これが噂の濁点問題かー」とちょっと嬉しくなって、このファイルをいじりまわして遊んだのでそのお話。 簡単に現象&用語を説明 詳しいことは Unicode正規化 紹介マニアどらふと版: Mac OS X におけるファイル名に関するメモ(NFC, NFD等) あたりを読んでいただくのが確実なんですが、今回問題になった濁点まわりに限定してかいつまんで説明すると・・・。 Unicode で「が」という文字を表したい場合、以下の二種類の表

  • MeCab Python バインディング

  • develop/UTF-8ひらがなカタカナ表 - PukiWiki Plus!

    2014-05-23 さくらのレンタルサーバ/コンパイルメモ/subversion-1.82014-05-22 さくらのレンタルサーバ/コンパイルメモ さくらのレンタルサーバ serf2014-05-21 apr-util FrontPage2013-10-20 Linux2013-10-19 Linode/Cent OS 5.3 64bit/ロケールをUTF-8からeucJPに変更する Linode/Cent OS 5.3 64bit/開発用に入れたgcc関係パッケージ Linode/Cent OS 5.3 64bit/参考サイト develop/UTF-8ひらがなカタカナ表 Linode/Cent OS 5.3 64bit/デプロイ後のyumのupdate develop windows MovableType/すべてのテーブルを消去する RecentDeleted contact L

  • 日本語文字列コード問題まとめ — PythonMatrixJp

    文字列コード問題との戦い Pythonに限った話ではないのですが、 日語を取り扱うコードを書いていると やっかいなエンコーディングトラブルに遭う事は少なくないでしょう。 エンコーディングトラブルとは コンパイラ・インタプリタがソースコードを解釈できない。 画面表示が化ける。 意図した入力ができない。 エンコード・デコード時にエラーがでる。 正しいファイル名のつもりなのにファイルが見つからない。 出力させたファイルの中身が読めない。 などといった現象を基としていろんな問題を引き起こします。 問題のすべては「コード変換」に発生します。 実際の文字列が何のエンコーディングで、 渡す先が何のエンコーディングを期待しているか? それらを確認して合致させるように変換をするということが基です。 「Python語版が必要」というのは誤解 Python2.4以降であれば日語のコーデックは含まれて

  • Mac OS Xの文字コード問題に関するメモ

    文字情報基盤(Moji_Joho)のIVS登録にともなう公開レビュー(PRI 259)にコメントした。PDFはこちら。日語。もう、最初から最後まで日語。 安岡孝一さんが挙げていた(yasuokaの日記:文字情報基盤のIVS登録第1弾)ような「Hanyo-DenshiとMoji_JohoでIVSをシェアしようとしてるが、グリフに差異が見られる例」については、いくつか見つけたものの、リストの最初のほうしかチェックできなかったので、言及するのを断念。他にも、CJK互換漢字グリフの扱い、Ken Lundeさんが挙げていた(CJK Type: PRI 259)U+6723とU+81A7の問題など、いろいろ論点はあると思うが、今回はスルーした。 iPhoneや携帯における絵文字の扱いに関して、SoftBankへの要望がいくつかあるので(それから、先日コメント欄でお願いされたので)、メモ。 その1・

    Mac OS Xの文字コード問題に関するメモ
  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • Handling UTF-8 with PHP [Web Application Component Toolkit]

    php/i18n/utf-8.txt · Last modified: 2009/10/21 13:38 by troelskn

  • PCREはUnicode文字プロパティをサポートするとは限らない - hnwの日記

    (2011/05/19追記)CentOS5のpcreパッケージについて言えば、2010年7月以降Unicode文字プロパティが有効になっているそうです。安心ですね!(via「 CentOS5.5でCakePHP1.3系のInflector::slugを正常動作させる方法 - Lism.in * blog - nekoya (id:studio-m)」) PCREというのは、Perl互換の正規表現ライブラリです。PCREは例えばPHPのpreg系関数で利用されていますし、他の処理系でも多く利用されているかと思います。ところで、PCREの挙動は環境ごとに異なる可能性があることをご存知でしょうか。具体的には、Unicode文字プロパティをサポートする環境としない環境とがあり、同じ正規表現でも挙動が変わることがあります。僕はそんなことを考えた事もなかったので、ビックリしました。 同じ原因で、以前の

    PCREはUnicode文字プロパティをサポートするとは限らない - hnwの日記
  • Encode::UTF8Mac

  • MacユーザのためのSubversionTips

    どうも初めましてchariです。 ディノオープンラボラトリがオープンして結構経ったのにやっと初記事です。 2年前はMacユーザが自分含め3人ぐらいしかいなかったディノですが、 気がつけば11人までMacユーザが増えました!Mac大好きな自分としてはすばらしいことです。 ぼちぼち新人メンバーなどがSubversionを使い始めたのもあって 次の新人さんが来たときなどにすぐに教えられたり自分が再セットアップするときに また調べ直す手間を省くためにもmacでSubversionを利用する際の ポイントやらGUIツールなどをまとめてみようかと思います。 文字コード関連 OS X Leopardにデフォルトで入っているsvnを日語の濁点等が正しく処理出来ない問題に対応させます。(UTF-8-MAC問題) ディノの場合はクライアントとの間でエクセルのファイルなどをsvnで管理する場合に、

  • Mac版subversionの濁点問題(utf-8-mac) « kekelog

    ウェブサイトのHTMLからプログラムのソースコード、ドキュメントなど仕事で使うすべてのファイルをSubversionで管理しているんだが、MacのsvnXでチェックアウトすると、濁点の入ったファイル名だけ2つあるように表示され、コミットできなくなるという問題がある。 こんな感じ↓ ? ウェブサイト.txt ! ウェブサイト.txt 原因はOS Xの文字コードがLinuxなどのUTF-8ではなく、UTF-8-MACとなっていることが原因。 UTF-8-MACは濁点を分解して格納するようになっているそうで、「ウェブ」は「ウェフ・(・はなんかの文字)」となるため、ファイルが2つあるように見えてしまうそうな。 この問題を解消するパッチを適用する方法をメモ。 参考にしたページ SubversionのUTF-8-MACについて MacユーザのためのSubversionTips パッチの適用方法

  • Unicode正規化

    正しい並び替えでは、表示は(A)のままですが、間違った並び替えでは、正規結合クラスが互いに等しいMACRONとACUTEを並び替えたため、表示は(B)のように、eの上のアクセント記号の位置が入れ替わってしまいます。 正規分解・互換分解 ある文字列の正規分解 (Canonical Decomposition) を得るには、まず、それぞれの文字を正規マッピングによって再帰的に、可能な限り、分解します。すなわち、1回分解した後に現れた文字がなおも分解可能であればさらに分解します。分解マッピングがその文字自身である場合は、分解不可能なので、そのままです。 しかし、分解しただけでは必ずしも正しい結果が得られません。つまり、結合文字の順序の一意性を保証するため、分解後の文字列に対して正規順序アルゴリズムを適用しなければなりません。このように、正規マッピングによる再帰的分解と、正規順序アルゴリズムによ

  • Converting to Precomposed Unicode

    Q: Unicode 文字列を合成済みの文字の形式に変換する方法はありますか? A: Mac OS X 10.2 で導入された API を使用して、文字列を合成済みの Unicode に変換できます。以下に、合成済みの Unicode と分解された Unicode の違い、なぜ合成済みの Unicode に変換する必要があるのか、および変換方法について説明します。 合成済みの文字と分解された文字 特定の Unicode 文字は、複数の方法でエンコードできます。たとえば、Á(A アキュート)は、U+00C1 (LATIN CAPITAL LETTER A WITH ACUTE) のような合成済みの文字、または U+0041 U+0301(LATIN CAPITAL LETTER A に続く COMBINING ACUTE ACCENT)のような分解された文字のいずれかをエンコードできます。W

  • Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

    少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。 気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。 いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。 起動するとなにやら見慣れた文字が。 顔文字でよく使われるギリシャ文字やキリル文字だ。 しばらく眺めているとこんな符号が。 合成用区分符号 これが上と下の行にはみ出す顔文字の正体だった。 ためしに作ってみよう。 ベースとなる顔文字を置く。 左目に合成用区分符号を入れる。 続いて右目に。 見事にはみ出す。 Unicode(ユニコード)とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

    Twitterで見かけるハミ出した顔文字の正体 - RyoAnna
  • Encode::UTF8Mac - トミールの技術系日記

    探したのだけど作っている人がいなかったので、いわゆるutf-8-macと呼ばれるエンコーディングを追加するEncode::Encodingをつくりました。 https://github.com/tomi-ru/Encode-UTF8Mac use Encode; use Encode::UTF8Mac; print Encode::encode('utf-8-mac', '蘄藭づけ'); use Path::Class; for my $entry (dir(".")->children) { my $filename = Encode::decode('utf-8-mac', $entry); } 反応みてPODちゃんと書いたらUPしようと思っている →POD書いた. PODの方が少し整理されているのでわかりやすいかもしれない。 https://github.com/tomi-ru/En

    Encode::UTF8Mac - トミールの技術系日記
  • 「Unicode 6.0」が策定、絵文字が国際標準に