[B! Unicode] [5ページ] kenjiro_nのブックマーク

絵文字を「符号」として処理する難しさ～日本のモバイルウェブのカオスぶり　バイドゥ「絵文字の意味検索」ができるまで（1）

kenjiro_n 2010/07/08

リンク

Twitterで使える日本人には無い発想で作られた顔文字、絵文字 - 涙目で仕事しないSE

kenjiro_n 2010/04/12

いくつかはすでに見かけたけど。

AA
Unicode

リンク

グーグルが絵文字を世界標準に提案した理由--国際化エンジニアに聞くプロジェクトの舞台裏（前編）

はじめに 2008年11月27日、Googleは日本の携帯電話の絵文字をUnicodeに収録する計画を公表した。これまで7回にわたってお伝えしてきた連載「絵文字が開いてしまったパンドラの箱」は、この公表から後の動きを追ったものだ。では、それ以前の同社は何をしていたのか？　つまり、Googleはどんなプロセスを経て絵文字をUnicodeに提案すると決めたのだろう。今回ご報告するのはこのことだ。インタビューに答えてくれたのは桃井勝彦氏。氏は大学時代にスカラシップ（奨学金）で渡って以来米国に暮しつづけている。言語学・日本語学を専攻する大学院生、大学教員などの経歴も持ち、1996年に学術界からNetscape国際化部門に入社。2004年にMozilla Japanの設立にかかわった後、2005年にGoogleに移った経験豊かな国際化エンジニアだ。マウンテンビューにある米本社にあって、今回の符号

kenjiro_n 2010/02/26

リンク

KindleDX 関連 | okkyの日記 | スラド

be 耄碌 … じゃなくて備忘録 Unicode Font Hack for Kindle DX Font を Unicode 対応にして、Unicode ベースのPDFなら日本語でも表示できるようにするものらしい。あとで調査する。これがあると、持ち運べるPDFファイルが一気に増大してありがたい。 Kindle DX Screensaver Hack 痛Kindleを作る方法らしい。 Kindle DX到着。ZIP/JPGを中心にレビュー。 Kindle DX用代替ケーブル、Hack導入 USBコネクタは microUSB という奴らしい。2,3個買っておこう。会社とかでも使うし。なにより、ケーブルのために $19.99 払わなくて済むのはありがたい(コネクタが 2000円しない事を祈ろう)

kenjiro_n 2010/02/23

リンク

japanese font, charactor code / 日本語フォント、文字コード

書籍文字コードに関する入門文字コード超研究図解雑学文字コードインターネット時代の文字コード漢字問題と文字コード JIS規格 JISハンドブック情報基本 - JIS X 0201,0208,0213,0221等の規格が載っている(目次のpdf)。 PCやUNIXでの文字処理についてパソコンにおける日本語処理・文字コード - (サポートページ) UNIX System 5—リリース4国際化機能 CJKV日中韓越情報処理 - ((著者)Ken Lunde's Home Page) 各国の文字コード文字コードの世界 - 出版元のページ文字符号の歴史—欧米と日本編文字符号の歴史アジア編漢字について e康煕字典日本語版 [CD-ROM] - (出版元のページ) 日本の漢字知っておきたい漢字の知識メーリングリスト JIS X 0213 Mail Listの御案内 UTF-

kenjiro_n 2010/02/21

リンク

さぼてん: 【文字コード】UTF-8(BOM付)でファイル書き込み【PHP】

Webサイト制作。PHPとかMySQLとかプログラム寄り。symfony、CakePHP。Perlと和解交渉中。 PHPでテキストをUTF-8(BOM付)の文字コードでファイルに保存する。以下プログラム。 $filename = "./BlandList.xml"; $fp = @fopen($filename, "wb") or die("Error"); fwrite($fp, pack('C*',0xEF,0xBB,0xBF));//BOM書き込み fwrite($fp, $sdadata);//データ書き込み fclose($fp); fwrite($fp, pack('C*',0xEF,0xBB,0xBF))でファイルの先頭にBOFを書き込んで、それからテキストを書き込んでいる。 Windows環境ではバイナリがデフォルトらしいが、環境依存を避けるため"wb"としてバイナ

kenjiro_n 2010/02/21

PHP
Unicode

リンク

PHP で UTF-8 に付いている BOM を削除する方法

PHP で UTF-8 に付いている BOM を削除する方法 2006-06-05-1: [PHP] UTF-8 に BOM (Byte Order Mark) が付くのが良いのか，悪いのかは分からないけど，問題が多そうな気がする． Windows に付いているメモ帳はご丁寧に BOM をつけてくる． - When a BOM is used, is it only in 16-bit Unicode text? http://www.unicode.org/unicode/faq/utf_bom.html#25 上記の記事によると，ファイルの先頭 3 バイトに EF BB BF があれば，UTF-8 に付く BOM らしいので，これを判別して削除する方法． function delete_bom($str) { if (ord($str{0}) == 0xef && ord($str{1

kenjiro_n 2010/02/21

PHP
Unicode

リンク

れぶろぐ - [PHP] PHP スクリプトは BOM 付き UTF-8 で書いてはいけない

■ PHP スクリプトは BOM 付き UTF-8 で書いてはいけないここのところ、ずっと悩んでいたバグがあったのですが、ようやく原因が分かったので、その顛末を。 header() を使ってレスポンスヘッダを出力するコードを書いていたのですが、 Live HTTP headers なんかを使って見てみても、なぜか指定したレスポンスヘッダが出力されていません。よくある話として、header() の前になにかゴミを出力してしまっているのでは？と疑ったのですが、チェックしてみてもその気配は無し。原因が分からず、しばらく放置していたのですが、ふとひらめいて、バイナリエディタを使ってスクリプトのファイルを見てみました。あれ？なに、この先頭の EF BB BF って？いつのまにか BOM が付いているけど、もしかしてこれがまずいのか？（…考え中…）そうか！ BOM 付き U

kenjiro_n 2010/02/21

PHP
Unicode

リンク

2010-02-14 - 未来のいつか/hyoshiokの日記

例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe

kenjiro_n 2010/02/15

リンク

「名前」が「吊前」に？一部の字が文字化けする現象　||　Web制作の覚書　－　しぃの何でも置き場。

一部の文字だけが文字化けする現象があります。ほとんどの文字は正しく表示されているのに、「名前」の「名」など、特定の文字だけが文字化けしてしまうことがあります。同時に、ソースに入れたはずのない改行が入ります。このページは、その現象の原因と対策についてのメモメモです。どのような現象なのか？ HTML4.01を使い、以下の3行だけの記述をした簡単なHTMLファイルをある条件で保存・アップロードしました。 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"> <title>一部の文字が文字化けする現象のテスト</title> <p>私の名前は「しぃ」です。リンク先にジャンプすると、「名前」の「名」が「吊」に、閉じるカギ括弧が「《」に化けているのが確認できると思います。また、ソースの表示で確認すると、3行のソースのはずが改行が入って5行となって

kenjiro_n 2010/02/10

UTF-16の問題点。

リンク

PDIC用中国語辞書の詳細情報 : Vector ソフトを探す！

お支払いこのソフトは有料ソフトです。 ※消費税の増税に伴い、ソフト詳細説明や動作環境等に表示されている価格と、実際の価格が異なる場合がございます。ご購入前に必ずご確認ください。 ※送金前に「シェアウェアの送金について」をお読み下さい。シェアレジでのお支払いクレジットカード PDIC用中国語辞書価格: 1,210円(手数料・税込) お支払い手続きへ進むその他のお支払い銀行振り込み/郵便振替/その他送金方法あり ※詳細はソフトをダウンロード後、ご確認ください。

kenjiro_n 2010/02/07

リンク

英辞郎 on StarDict - nnn-isnt-nameの日記

CD-ROM版英辞郎第三版を購入した。なんだかんだでやっぱりWeb版より検索が速いし、いろいろ便利。 Amazonでは売り切れているみたいなので、書店にて購入。以前に、http://ubuntu.livedoor.biz/archives/64618276.htmlというのを見たときに便利だなぁと思った。でも俺はStarDictというのを使っていたので、こっちでも英辞郎使えたらなぁと考えた。検索してみると、このページにあたった。手順が記されていたので早速やってみた。まず、http://ubuntu.livedoor.biz/archives/54202558.htmlにしたがって「PDIC形式」である英辞郎辞書を「１行テキスト形式」に変換するこれは第三版でも一緒。「PDIC形式」である英辞郎辞書を「１行テキスト形式」に変換「Personal Dictionary」を起動「

kenjiro_n 2010/02/07

リンク

Dongle: 英辞郎第四版のPDIC形式をstardict形式に変換

PDIC(辞書ソフト)でPDIC形式の英辞郎を1行テキスト形式にエクスポートすることができる。テキスト形式であれば、stardict-tools等の変換ソフトで、stardict形式にしてStardict(無料の辞書ソフト）で活用できる。しかしながら、英辞郎第四版を1行テキスト形式にエクスポートしたところ、発音記号が変換されず消えてしまった。解決せねば。。。少し複雑だが、なんとか発音記号も変換に成功したので変換方法を記録する。１．PDICの辞書に英辞郎を設定する。２．発音記号のみの辞書を作成する。英辞郎の.dicを選択してから、辞書変換の設定ウインドウを立ち上げる。変換先ファイル形式 -> CSV形式変換先辞書 -> 適当な名前 (たとえば eijiro_stardict.csv) 登録項目 -> 発音記号部のみマークする。 OKをクリックして変換。３．変換後のeijiro_

kenjiro_n 2010/02/07

リンク

Hidekichi.net » EeePC (Windows XP)で中国語辞書 PDIC編

Eee PCを手に入れて、中国語の授業はこれでノートをとることにしたので、せっかくだから辞書も入れてみた。忘れないうちに手順をメモ。インストールしたもの PDIC/Unicode 「Personal Dictionary / Unicode版 Ver.0.70(β→α版） 2004/11/28 released (PDIC for Win32 Ver.4.72e base)」の安定版?をインストール。Ver.0.8が出ているようなのだけど、まだ安定していないようなのと、辞書形式が変わっているようなので、とりあえず様子見。中国語辞書データベクターからダウンロード。 PDIC用中国語辞書 2.0 《お支払い》(1,155円) PDIC(Unicode版)用の中国語辞書ファイル (04.12.06公開 1,355K シェアウェア文書作成:辞書) PDIC用日本語⇒中国語辞書 1.0

kenjiro_n 2010/02/07

リンク

1億人を代表して、皆さんにお願いします。 - もじのなまえ

本日はWG 2東京会議の2日目、午前11時から昼食をはさんで午後4時まで、Emoji Ad-Hoc会議が開催され、その場でぼくたちが提出した「A Proposal to Revise a Part of Emoticons in PDAM 8」（N3711）が審議されました。その冒頭で、趣旨説明をしたわけですが、その草稿を公開します。これは開会直後に趣旨説明が必要であることが分かり、会議の最中に即席で書いたものです。内容的にはN3711のサマリーになっています。本来なら英語でスピーチするところですが、ぼくにはとても無理。そこで日本ナショナルボディのご好意により、関口委員長自ら通訳してくださいました。まだるっこしい日本語の話を辛抱強く聞いてくださった各国ナショナルボディの諸氏にも深く感謝。私達は日本の携帯電話ユーザーとして、UCSが絵文字を収録することを支持します。それは日本での絵文

kenjiro_n 2010/02/05

リンク

絵文字が開いてしまった「パンドラの箱」第7回--そして舞台はダブリンから東京へ

日本地図が国際規格にふさわしくない理由 2009年4月21日、ここはアイルランドのダブリン・シティ大学です。ISO/IEC 10646を審議する第54回WG 2会議は、2日目の日程に入っていました。この日はいくつかの分科会に分かれテーマ別に審議が進められます。そのうちの一つ、Emojiアドホック会議では、GoogleとAppleによって提案された絵文字の審議がおこなわれていました。開催前は激しい対立が予想されていましたが、いざフタを開けるとGoogleとAppleが一員であるアメリカ・ナショナルボディ（以下、ナショナルボディはNBと略）の大幅な妥協によって合意が成立していきます。残ったのは議長が後回しにしておいた「議論の余地のあるもの」だけになりました。これは全部で3種類あります。まずは5文字の「日本の文化に依存したアイコン文字」です。どんな文字か確認してみましょう。図1 日本の文化

kenjiro_n 2010/02/05

グリフウィキの存在は忘れていた。突っ込んだ感想を書きたいが字数が足りないのでブックマークとスター付けをすることにより筆者への労いに代えておく。

リンク

Perlで文字列をHTML数値文字参照に変換 - 徒書

bl osxom関連の記事を辿っている時に、以下の記事を見つけました。空繰再繰 - Perl で文字列を HTML Entities に変換する方法まず述べなければならないのは、HTMLにおける日のような文字参照の形式は数値文字参照《numeric character reference》と呼ばれるものであって、実体参照《entity reference》ではない、ということ。(詳しくは一般実体参照と文字参照を参照) で、記事を拝見して、Unicode::Escapeも見てみたのですが、このモジュールは元々JavaScriptのUnicodeエスケープ形式を扱うものであるようで、それを更にHTMLの数値文字参照変換のために使うというのは、ややオーバースペックなような気がしました。答えの1つは、記事が参照していたはてなでの質問でも既に述べられています。 $str = '日本

kenjiro_n 2010/01/29

リンク

「Unicodeに入った漢字」と「まだUnicodeにない漢字」 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

Acrobat 9に付属するKozMinPr6-Regular 6.004は、最新のcmap（「CMapのバージョンの違い」を参照）を採用しており、Unicode 5.1で追加された7文字の漢字が、新たにUnicodeの符号位置と対応付けられている（下図）。これら7文字はもともとAdobe-Japan1をソースとしてISO/IEC 10646に提案されたものである。提案時には「この7文字がUnicodeに収録されれば、Adobe-Japan1の漢字はすべてUnicodeのIVS（異体字シーケンス）で表現することができる」と考えられていたのだろう。しかしその後、Adobe-Japan1異体字シーケンス登録の1回目の公開レビュー（http://www.unicode.org/ivd/pri/pri98/index.html）を経て、下図グレー字の20文字（下に付した数字はCID）が「Uni

kenjiro_n 2010/01/29

リンク

33466 – Conversion tables between KPS 9566-2003(N. Korean) & Unicode

kenjiro_n 2010/01/28

北朝鮮の文字コードをどうOOoで取り扱うかという話。結局担当者がいないため流れた様子。

リンク

＠檸檬の家: MySQLの改定常用漢字表対応が危うい件

＠檸檬の家ブログ更新を停止しています自己紹介連絡先: 小川創生 (motoyuki@bc4.so-net.ne.jp) このブログは個人的な「書きたいこと雑記帳」であり、現在または過去の所属の公式見解等を示すものではありません。今年の1月の記事「MySQL 6.0 の Unicode 4バイト対応と新常用漢字」では、アルファ版ではあるものの MySQL 6.0 ならば Unicode の4バイト領域に対応しており、たとえ常用漢字として「叱」ではなく「𠮟」（口へんに七、U+20B9F）が追加されても MySQL としては対応可能だということを書いた。ところが、その MySQL 6.0 は、今年5月の 6.0.11-alpha を最後に、開発を凍結してしまったそうだ。Sun Microsystems の奥野幹也さんのブログ記事「Good Bye MySQL 6.0」にいまさ

kenjiro_n 2010/01/21

リンク

はてなブックマーク

タグ

関連タグで絞り込む (91)

Unicodeに関するkenjiro_nのブックマーク (118)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス