はじめに 2008年11月27日、Googleは日本の携帯電話の絵文字をUnicodeに収録する計画を公表した。これまで7回にわたってお伝えしてきた連載「絵文字が開いてしまったパンドラの箱」は、この公表から後の動きを追ったものだ。 では、それ以前の同社は何をしていたのか? つまり、Googleはどんなプロセスを経て絵文字をUnicodeに提案すると決めたのだろう。今回ご報告するのはこのことだ。 インタビューに答えてくれたのは桃井勝彦氏。氏は大学時代にスカラシップ(奨学金)で渡って以来米国に暮しつづけている。言語学・日本語学を専攻する大学院生、大学教員などの経歴も持ち、1996年に学術界からNetscape国際化部門に入社。2004年にMozilla Japanの設立にかかわった後、2005年にGoogleに移った経験豊かな国際化エンジニアだ。マウンテンビューにある米本社にあって、今回の符号
be 耄碌 … じゃなくて 備忘録 Unicode Font Hack for Kindle DX Font を Unicode 対応にして、Unicode ベースのPDFなら日本語でも表示できるようにするものらしい。あとで調査する。これがあると、持ち運べるPDFファイルが一気に増大してありがたい。 Kindle DX Screensaver Hack 痛Kindleを作る方法らしい。 KindleDX到着。ZIP/JPGを中心にレビュー。 KindleDX用代替ケーブル、Hack導入 USBコネクタは microUSB という奴らしい。2,3個買っておこう。会社とかでも使うし。 なにより、ケーブルのために $19.99 払わなくて済むのはありがたい(コネクタが 2000円しない事を祈ろう)
書籍 文字コードに関する入門 文字コード超研究 図解雑学 文字コード インターネット時代の文字コード 漢字問題と文字コード JIS規格 JISハンドブック 情報基本 - JIS X 0201,0208,0213,0221等の規格が載っている(目次のpdf)。 PCやUNIXでの文字処理について パソコンにおける日本語処理・文字コード - (サポートページ) UNIX System 5—リリース4国際化機能 CJKV日中韓越情報処理 - ((著者)Ken Lunde's Home Page) 各国の文字コード 文字コードの世界 - 出版元のページ 文字符号の歴史—欧米と日本編 文字符号の歴史 アジア編 漢字について e康煕字典 日本語版 [CD-ROM] - (出版元のページ) 日本の漢字 知っておきたい漢字の知識 メーリングリスト JIS X 0213 Mail Listの御案内 UTF-
Webサイト制作。PHPとかMySQLとかプログラム寄り。symfony、CakePHP。Perlと和解交渉中。 PHPでテキストをUTF-8(BOM付)の文字コードでファイルに保存する。 以下プログラム。 $filename = "./BlandList.xml"; $fp = @fopen($filename, "wb") or die("Error"); fwrite($fp, pack('C*',0xEF,0xBB,0xBF));//BOM書き込み fwrite($fp, $sdadata);//データ書き込み fclose($fp); fwrite($fp, pack('C*',0xEF,0xBB,0xBF))でファイルの先頭にBOFを書き込んで、それからテキストを書き込んでいる。 Windows環境ではバイナリがデフォルトらしいが、環境依存を避けるため"wb"としてバイナ
PHP で UTF-8 に付いている BOM を削除する方法 2006-06-05-1: [PHP] UTF-8 に BOM (Byte Order Mark) が付くのが良いのか,悪いのかは分からないけど,問題が多そうな気がする. Windows に付いているメモ帳はご丁寧に BOM をつけてくる. - When a BOM is used, is it only in 16-bit Unicode text? http://www.unicode.org/unicode/faq/utf_bom.html#25 上記の記事によると,ファイルの先頭 3 バイトに EF BB BF があれば,UTF-8 に付く BOM らしいので,これを判別して削除する方法. function delete_bom($str) { if (ord($str{0}) == 0xef && ord($str{1
■ PHP スクリプトは BOM 付き UTF-8 で書いてはいけない ここのところ、ずっと悩んでいたバグがあったのですが、 ようやく原因が分かったので、その顛末を。 header() を使ってレスポンスヘッダを出力するコードを書いていたのですが、 Live HTTP headers なんかを使って見てみても、 なぜか指定したレスポンスヘッダが出力されていません。 よくある話として、header() の前になにかゴミを出力してしまっているのでは? と疑ったのですが、 チェックしてみてもその気配は無し。 原因が分からず、しばらく放置していたのですが、 ふとひらめいて、バイナリエディタを使ってスクリプトのファイルを見てみました。 あれ? なに、この先頭の EF BB BF って? いつのまにか BOM が付いているけど、もしかしてこれがまずいのか? (…考え中…) そうか! BOM 付き U
例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。 例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe
一部の文字だけが文字化けする現象があります。 ほとんどの文字は正しく表示されているのに、「名前」の「名」など、特定の文字だけが文字化けしてしまうことがあります。同時に、ソースに入れたはずのない改行が入ります。 このページは、その現象の原因と対策についてのメモメモです。 どのような現象なのか? HTML4.01を使い、以下の3行だけの記述をした簡単なHTMLファイルをある条件で保存・アップロードしました。 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"> <title>一部の文字が文字化けする現象のテスト</title> <p>私の名前は「しぃ」です。 リンク先にジャンプすると、「名前」の「名」が「吊」に、閉じるカギ括弧が「《」に化けているのが確認できると思います。また、ソースの表示で確認すると、3行のソースのはずが改行が入って5行となって
CD-ROM版英辞郎第三版を購入した。なんだかんだでやっぱりWeb版より検索が速いし、いろいろ便利。 Amazonでは売り切れているみたいなので、書店にて購入。 以前に、http://ubuntu.livedoor.biz/archives/64618276.htmlというのを見たときに便利だなぁと思った。 でも俺はStarDictというのを使っていたので、こっちでも英辞郎使えたらなぁと考えた。 検索してみると、このページにあたった。手順が記されていたので早速やってみた。 まず、http://ubuntu.livedoor.biz/archives/54202558.htmlにしたがって 「PDIC形式」である英辞郎辞書を「1行テキスト形式」に変換する これは第三版でも一緒。 「PDIC形式」である英辞郎辞書を「1行テキスト形式」に変換 「Personal Dictionary」を起動 「
PDIC(辞書ソフト)でPDIC形式の英辞郎を1行テキスト形式にエクスポートすることができる。テキスト形式であれば、stardict-tools等の変換ソフトで、stardict形式にしてStardict(無料の辞書ソフト)で活用できる。しかしながら、英辞郎第四版を1行テキスト形式にエクスポートしたところ、発音記号が変換されず消えてしまった。解決せねば。。。 少し複雑だが、なんとか発音記号も変換に成功したので変換方法を記録する。 1.PDICの辞書に英辞郎を設定する。 2.発音記号のみの辞書を作成する。 英辞郎の.dicを選択してから、辞書変換の設定ウインドウを立ち上げる。 変換先ファイル形式 -> CSV形式 変換先辞書 -> 適当な名前 (たとえば eijiro_stardict.csv) 登録項目 -> 発音記号部のみマークする。 OKをクリックして変換。 3.変換後のeijiro_
Eee PCを手に入れて、中国語の授業はこれでノートをとることにしたので、せっかくだから辞書も入れてみた。忘れないうちに手順をメモ。 インストールしたもの PDIC/Unicode 「Personal Dictionary / Unicode版 Ver.0.70(β→α版) 2004/11/28 released (PDIC for Win32 Ver.4.72e base)」の安定版?をインストール。Ver.0.8が出ているようなのだけど、まだ安定していないようなのと、辞書形式が変わっているようなので、とりあえず様子見。 中国語辞書データ ベクターからダウンロード。 PDIC用中国語辞書 2.0 《お支払い》(1,155円) PDIC(Unicode版)用の中国語辞書ファイル (04.12.06公開 1,355K シェアウェア 文書作成:辞書) PDIC用日本語⇒中国語辞書 1.0
本日はWG 2東京会議の2日目、午前11時から昼食をはさんで午後4時まで、Emoji Ad-Hoc会議が開催され、その場でぼくたちが提出した「A Proposal to Revise a Part of Emoticons in PDAM 8」(N3711)が審議されました。 その冒頭で、趣旨説明をしたわけですが、その草稿を公開します。これは開会直後に趣旨説明が必要であることが分かり、会議の最中に即席で書いたものです。内容的にはN3711のサマリーになっています。 本来なら英語でスピーチするところですが、ぼくにはとても無理。そこで日本ナショナルボディのご好意により、関口委員長自ら通訳してくださいました。まだるっこしい日本語の話を辛抱強く聞いてくださった各国ナショナルボディの諸氏にも深く感謝。 私達は日本の携帯電話ユーザーとして、UCSが絵文字を収録することを支持します。 それは日本での絵文
日本地図が国際規格にふさわしくない理由 2009年4月21日、ここはアイルランドのダブリン・シティ大学です。ISO/IEC 10646を審議する第54回WG 2会議は、2日目の日程に入っていました。この日はいくつかの分科会に分かれテーマ別に審議が進められます。そのうちの一つ、Emojiアドホック会議では、GoogleとAppleによって提案された絵文字の審議がおこなわれていました。 開催前は激しい対立が予想されていましたが、いざフタを開けるとGoogleとAppleが一員であるアメリカ・ナショナルボディ(以下、ナショナルボディはNBと略)の大幅な妥協によって合意が成立していきます。残ったのは議長が後回しにしておいた「議論の余地のあるもの」だけになりました。 これは全部で3種類あります。まずは5文字の「日本の文化に依存したアイコン文字」です。どんな文字か確認してみましょう。 図1 日本の文化
blosxom関連の記事を辿っている時に、以下の記事を見つけました。 空繰再繰 - Perl で文字列を HTML Entities に変換する方法 まず述べなければならないのは、HTMLにおける日のような文字参照の形式は数値文字参照《numeric character reference》と呼ばれるものであって、実体参照《entity reference》ではない、ということ。(詳しくは一般実体参照と文字参照を参照) で、記事を拝見して、Unicode::Escapeも見てみたのですが、このモジュールは元々JavaScriptのUnicodeエスケープ形式を扱うものであるようで、それを更にHTMLの数値文字参照変換のために使うというのは、ややオーバースペックなような気がしました。 答えの1つは、記事が参照していたはてなでの質問でも既に述べられています。 $str = '日本
Acrobat 9に付属するKozMinPr6-Regular 6.004は、最新のcmap(「CMapのバージョンの違い」を参照)を採用しており、Unicode 5.1で追加された7文字の漢字が、新たにUnicodeの符号位置と対応付けられている(下図)。 これら7文字はもともとAdobe-Japan1をソースとしてISO/IEC 10646に提案されたものである。提案時には「この7文字がUnicodeに収録されれば、Adobe-Japan1の漢字はすべてUnicodeのIVS(異体字シーケンス)で表現することができる」と考えられていたのだろう。 しかしその後、Adobe-Japan1異体字シーケンス登録の1回目の公開レビュー(http://www.unicode.org/ivd/pri/pri98/index.html)を経て、下図グレー字の20文字(下に付した数字はCID)が「Uni
@檸檬の家 ブログ更新を停止しています 自己紹介 連絡先: 小川 創生 (motoyuki@bc4.so-net.ne.jp) このブログは個人的な「書きたいこと雑記帳」であり、現在または過去の所属の公式見解等を示すものではありません。 今年の1月の記事「MySQL 6.0 の Unicode 4バイト対応と新常用漢字」では、アルファ版ではあるものの MySQL 6.0 ならば Unicode の4バイト領域に対応しており、たとえ常用漢字として「叱」ではなく「𠮟」(口へんに七、U+20B9F)が追加されても MySQL としては対応可能だということを書いた。 ところが、その MySQL 6.0 は、今年5月の 6.0.11-alpha を最後に、開発を凍結してしまったそうだ。Sun Microsystems の奥野幹也さんのブログ記事「Good Bye MySQL 6.0」にいまさ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く