[B! 文字コード] [3ページ] seuzoのブックマーク

Unicode CJK互換漢字 F900～FAFF - CyberLibrarian

範囲：F900～FAFF UnicodeのCJK互換漢字（The Unicode Standard CJK Compatibility Ideographs）を十六進数の数値文字参照で記述した表です。 Pronunciation variants from KS X 1001:1998（KS X 1001:1998（韓国）における発音重複に基づくもの） Unicode 表示名称日本韓国備考 F900

seuzo 2009/07/18

リンク

83pvと90pvの違い - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

83pvと90pvという用語についてのややこしい話は別の機会に譲ることとして、今回はとりあえず「どちらもMacのShift-JISのバリエーション」と大ざっぱに定義しておく。83pvと90pvでは、下図のように外字の割り当てが異なる。16進数はShift-JISの符号位置。 83pv外字は、PC98外字のサブセットである。0x86A2から0x879C（水色地）は漢字Talk 7.5以降に付属する細明朝体と中ゴシック体のスクリーン・フォントに含まれているもの。このうち0x8740から0x879CはCP932とほぼ共通（CP932では0x877Eに「平成」が追加されている）。0x8540から0x8690（ピンク地）の半角文字は、PostScriptプリンタで出力することが可能であるが細明朝体と中ゴシック体のスクリーン・フォントに含まれないもの。アクセス・ログで「83pv 90pv 違い」とい

seuzo 2009/06/08

リンク

絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

普通では考えられない優遇策--「Google提案」を振り返る皆さんこんにちは、毎度おなじみ（？）文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646（国際符号化文字集合）に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleがAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

seuzo 2009/06/05

リンク

そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(２００８年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日本語の文字コードの改正の委員会にいたんですね。その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日本IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

seuzo 2009/04/22

リンク

第4回　Ruby M17N 事始め：文字コード編 | gihyo.jp

はじめに今回は文字列を扱う際には忘れてはならない文字コードについて、日本人が知っておくべきエンコーディングを中心に解説していきます。 US-ASCII ASCIIは、ASA（American Standards Association、のちにUSASIを経てANSI）によって、1963年6月17日にASA X3.4-1963として制定され、1967年7月7日にUSASI（United States of America Standards Institute、ASAから1966年8月24日に改組）によってUSAS X3.4-1967へと改訂されてほぼ現在の形となりました。その後の多くの文字コードがASCIIのスーパーセットとして作られたため、ASCIIは共通のサブセットとして特別な位置に置かれるようになりました。RubyでもASCIIに含まれる文字のみで構成されるStringは、ASC

seuzo 2009/03/24

リンク

絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

前回までを振り返る--Unicodeコンソーシアムの影響力前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC（Unicode Technical Committee/Unicode技術委員会）で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

seuzo 2009/03/22

リンク

絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味

じつはコメントを送っていたNTTドコモ最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogleが絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。ところが前回の掲載後に、NTTドコモがGoogleの絵文字メーリングリストに投稿し

seuzo 2009/03/22

リンク

絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

Unicodeが携帯電話の絵文字を収録へ絵文字ってなに？そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな！　8割の女性は「恋人以外にも使う」』（RBB NAVI）なんていうニュースもありました。携帯電話の個人普及率が9割を上回る（平成20年内閣府消費動向調査）この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

seuzo 2009/03/22

リンク

文字コード入門

コンテンツ一覧インデックスページ←いまここコンピュータ上での数値の扱いコンピュータで文字を扱うには？ ASCIIとJISローマ字 JIS漢字コード：JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字中国の文字コード台湾の文字コード Unicode 大規模文字集合参考資料（書籍）本ページを作るにあたって参考にした書籍です。川俣晶『パソコンにおける日本語処理文字コードハンドブック』技術評論社芝野耕司編『JIS漢字字典』日本規格協会漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版小池和夫／府川充男／直井靖／永瀬唯／『漢字問題と文字コード』　太田出版　1999 安岡孝一／素子『文字コードの世界』　東京電気大学出版局　1999 ユニコード漢字情報辞典編纂委員会編　『ユニコード漢字情報辞典』　三省堂　2000 小林／安岡／戸村／三上編　bi

seuzo 2008/06/05

文字コード

リンク

Unicode版文字コード表

こちらで、ありそうでなかなか見つからないUnicode版文字コード表を作ってみました。当初作っていたものは65536文字表示するようにしていたので非常に重かったのですが、4096文字ずつ表示できるようにして多少は軽くなったと思います。ただし一覧性は損なわれてしまったのですが・・・。65536文字を一度に表示する場合は、こちらにお進みください。（表示が完了するまで少々時間がかかります。）なお、使い方はこちらをご覧ください。

seuzo 2008/05/17

文字コード

リンク

日本語を扱う（文字セットと16進数）

charcode 変換説明はどうでもいいから動くソースを出せという人は、後ろのほうへ… 文字コード? 日本語をはじめとする多くのアジア言語は、0〜255 までしか表せない char 型ではとても表現できません。そこで、複数の char 型を組み合わせて表現しています。ところが、日本語の場合この組み合わせ型に大きく3通りの方法があり、主に使用している OS によってその傾向が異なります。この複数によって表される文字の数値「文字コード」と呼び、文字コードの番号付け、というか組み合わせの体系ことを「文字符号化方法 (character encoding)」とか「文字セット (character set)」などと呼びます。伝統的に、Microsoft Windows や Apple Mac OS では Shift_JIS (内部的には Unicode ですが) が使用され、サーバーで用いられ

seuzo 2007/11/29

文字コード

リンク

Microsoft Virtual PC: Virtual PC 2007

毎日を、もっとシンプルにゲーム、学習、ビジネスの経営、家事。何であれ、Windows 11 がすべてをこなすお手伝いをします。あらゆる働き方、学び方、遊び方に合わせて合理化された新機能をご覧ください。

seuzo 2007/07/06

リンク

Unicode

ISO 10646-1:1993 アルファベット類 [2,499] 0000: 0010: 0020: !"#$%&'()*+,-./ 0030: 0123456789:;<=>? 0040: @ABCDEFGHIJKLMNO 0050: PQRSTUVWXYZ[\]^_ 0060: `abcdefghijklmno 0070: pqrstuvwxyz{|}~ 0080: �� 0090: �� 00a0: ¡¢£¤¥¦§¨©ª«¬®¯ 00b0: °±²³´µ¶·¸¹º»¼½¾¿ 00c0: ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ 00d0: ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß 00e0: àáâãäåæçèéêëìíîï 00f0: ðñòóôõö÷øùúûüýþÿ 0100: ĀāĂăĄąĆćĈĉĊċČčĎď 0110: ĐđĒēĔ

seuzo 2007/05/29

ISO 10646-1:1993

文字コード

リンク

404 Blog Not Found:ajax - 文字化け判定表

2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。結城浩のはてな日記以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました（←おい）。誰か作って…。というわけで、そっこーで作ったのが以下。をで表示漢字、カタカナ、ひらがなの入ったquery。これはUTF-8で書かれたテスト文字化けを解決することは鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー「Lightweight Languages」カテゴリの最新記事

seuzo 2007/04/14

リンク

Vistaで化ける字，化けない字

11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで，“文字化け”が起こるらしい。文字化けといっても，Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく，その多くは似た文字が表示される程度である。ここでは，本来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは，Windows 98日本語版の発売以来，Windows 2000，Windows Me，Windows XPまでCP932（本名はWindows Codepage 932，いわゆるMS漢字コード）とJIS X 0212をサポートしてきたが，最新のWindows VistaではJIS X 0213に乗り換えた。いや，乗り換えたというのは，ちょっと語弊がある。CP932とJIS X 0212に加えて，JIS X 0213もサ

seuzo 2006/12/30

リンク

An Unicode vendor-specific character table for japanese (日本語のUnicodeベンダ依存文字表)

seuzo 2006/12/30

リンク

文字列と UTF-8 バイト列の相互変換: Days on the Moon

やっていることは「高度な JavaScript 技集」の「UTF-8 <-> UTF16 変換」と同じ。 function toUTF8Octets(string) { return unescape(encodeURIComponent(string)); } function fromUTF8Octets(octets) { return decodeURIComponent(escape(octets)); } encodeURIComponent は encodeURI でもいい (むしろそのほうが処理する文字種が減って速くなりそう) が、decodeURIComponent は decodeURI にすると一部の文字 ("?"、"#" など) がデコードされなくなる。使いどころ Base64 エンコードする関数 (「高度な JavaScript 技集」の base64encod

seuzo 2006/10/24

リンク

Escape Codec Library: ecl.js

日頃より楽天のサービスをご利用いただきましてありがとうございます。サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。メンテナンスが終了次第、サービスを復旧いたしますので、今しばらくお待ちいただけますよう、お願い申し上げます。

seuzo 2006/10/22

リンク

ほら貝：文字コード

B案には 680 x 96（JIS風にいうと、680区96点）のB-1案と、256 x 256（256区256点）のB-2案がありました。いずれも制御文字、アルファベット等の非漢字、JIS X 0208の漢字部分、GB2312の漢字部分、9216字（= 96 x 96）分の保留領域４つ、最後に外字領域という構成です。ISO 2022を無視して16bitのスペースをフルに使っていますから、A案の倍近い文字が収録可能です。 B-1案の 680 x 96は半端な構造のように見えますが、運用実績のあるJIS X 0208とGB2312は 94 x 94の配列でできていましたし、提案の年に制定されるKSC5601は 96 x 96だったので、横を 96列とすると国内コードと国際コードの相互変換が簡単になるのです。投票では、圧倒的多数でISO 2022系の既存文字コードとの互換性を維持したA案が支持

seuzo 2006/08/28

文字コード

リンク

[psl]ASCIIコード一覧表

ログ last updated on 新着情報リストフォームデコードサービスV2 郵便番号検索文字コードチェックサポート掲示板 PSLブログこのサイトについてトップページのアイコンたちサポートについてプライバシーポリシー著作権表示の削除をしたい方へお問い合わせ/依頼/申請窓口フリープログラム利用規約設置代行等に関する規約登録事業者リスト特商法に基づく表示設置代行サービスカスタマイズサービスオーダーメイドサービス手数料・設定項目一覧表 CGI・SSIの基礎の基礎読むとためになる本の紹介(3) 読むとためになる本の紹介(4) CGI環境変数 UNIXの基礎の基礎基本認証の方法 ASCIIコード一覧表文字化けする文字一覧表 "^"(0x5e)を含む文字一覧表 "|"(0x7c)を含む文字一覧表 SMTP応答コード一覧表アクセスカウンタアクセス統計版 v

seuzo 2006/06/03

文字コード

リンク

はてなブックマーク

タグ

関連タグで絞り込む (42)

文字コードに関するseuzoのブックマーク (62)

お知らせ

月間はてなブックマーク数ランキング（2024年5月）

今週のはてなブックマーク数ランキング（2024年6月第1週）

今週のはてなブックマーク数ランキング（2024年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス