タグ

文字コードに関するseuzoのブックマーク (62)

  • Unicode CJK互換漢字 F900~FAFF - CyberLibrarian

    範囲:F900~FAFF UnicodeのCJK互換漢字(The Unicode Standard CJK Compatibility Ideographs)を十六進数の数値文字参照で記述した表です。 Pronunciation variants from KS X 1001:1998(KS X 1001:1998(韓国)における発音重複に基づくもの) Unicode 表示 名称 日 韓国 備考 F900

  • 83pvと90pvの違い - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    83pvと90pvという用語についてのややこしい話は別の機会に譲ることとして、今回はとりあえず「どちらもMacのShift-JISのバリエーション」と大ざっぱに定義しておく。83pvと90pvでは、下図のように外字の割り当てが異なる。16進数はShift-JISの符号位置。 83pv外字は、PC98外字のサブセットである。0x86A2から0x879C(水色地)は漢字Talk 7.5以降に付属する細明朝体と中ゴシック体のスクリーン・フォントに含まれているもの。このうち0x8740から0x879CはCP932とほぼ共通(CP932では0x877Eに「平成」が追加されている)。0x8540から0x8690(ピンク地)の半角文字は、PostScriptプリンタで出力することが可能であるが細明朝体と中ゴシック体のスクリーン・フォントに含まれないもの。 アクセス・ログで「83pv 90pv 違い」とい

    83pvと90pvの違い - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • 絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”

    普通では考えられない優遇策--「Google提案」を振り返る 皆さんこんにちは、毎度おなじみ(?)文字コード漫談の時間がやってまいりました。前回が3月の掲載ですから3カ月ぶりですか。今まで3回にわたって絵文字をUnicode及びISO/IEC 10646(国際符号化文字集合)に収録しようという提案の動きについてご説明してきましたが、今回から2回に分けて完結編をお届けします。どうぞよろしくお付き合いください。 ひさしぶりですから、ここまでのポイントを整理しておきましょう。前述した「提案」とは、もともとはUnicodeに収録するためにGoogleAppleと共同で作成したものです。以下、主唱者の名前をとり「Google提案」と呼ぶことにします。これはこの2月に開かれた最高議決機関、UTC会議で承認されてUnicodeコンソーシアムの総意となりました。ついでGoogle提案はISO/IEC 1

    絵文字が開いてしまった「パンドラの箱」第4回--絵文字が引き起こしたUnicode-MLの“祭り”
  • そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記

    文字コードの標準化について日記を書いたのだが、内容がいまいちだったのでボツにして気を取り直してUnicodeについて一言いっておくことにする。先日、といっても昨年(2008年)の10月なんだけど、その中でちょと文字コードの標準化について話をしている。*1 もう1つ自分の経験としてあるのが、漢字の文字コードがあるんですけど、番号で言うとJIS X 0208とか0212とか規格の番号で皆言うわけなんですけど、実は1988年にその日語の文字コードの改正の委員会にいたんですね。 その当時、私は 30歳ぐらいなんですけど、「富士通」とか「日立」とか「NEC」の部長さんぐらいの偉い人たちが来てて、私なんか外資系で且つ30前後のぺーぺーだから、全然格下なんですよ。 そういうところで議論の主軸を担ってるのは、「富士通」「日立」「NEC」「日IBM」「東芝」「沖」、外資でいえば「ユニシス」とかの錚々たる

    そろそろUnicodeについて一言いっておくか - 未来のいつか/hyoshiokの日記
  • 第4回 Ruby M17N 事始め:文字コード編 | gihyo.jp

    はじめに 今回は文字列を扱う際には忘れてはならない文字コードについて、日人が知っておくべきエンコーディングを中心に解説していきます。 US-ASCII ASCIIは、ASA(American Standards Association、のちにUSASIを経てANSI)によって、1963年6月17日にASA X3.4-1963として制定され、1967年7月7日にUSASI(United States of America Standards Institute、ASAから1966年8月24日に改組)によってUSAS X3.4-1967へと改訂されてほぼ現在の形となりました。 その後の多くの文字コードがASCIIのスーパーセットとして作られたため、ASCIIは共通のサブセットとして特別な位置に置かれるようになりました。RubyでもASCIIに含まれる文字のみで構成されるStringは、ASC

    第4回 Ruby M17N 事始め:文字コード編 | gihyo.jp
  • 絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット

    前回までを振り返る--Unicodeコンソーシアムの影響力 前回はどこまでお話ししましたっけ。世界中の文字の収録を目的とした文字コード規格、Unicodeは、米国のIT企業を中心に結成されたUnicodeコンソーシアムが制定するデファクト規格に過ぎないこと。しかし公的な国際機関が定めるデジュール規格ISO/IEC 10646と同期することで、WTO/TBT協定にもとづき世界中の国々に普及させられるメリットを得たこと。 また、Unicodeコンソーシアム自体はオープンな組織だけれど、意志決定を行うUTC(Unicode Technical Committee/Unicode技術委員会)で一票を投じる権利を持つのは一握りの団体に限られること。そしてUTCはISO/IEC 10646のアメリカ・ナショナルボディであるL2委員会と合同でしか開催されておらず、同時にL2委員会とUnicodeコンソー

    絵文字が開いてしまった「パンドラの箱」第3回--Unicode提案の限界とメリット
  • 絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味

    じつはコメントを送っていたNTTドコモ 最初に前回のおさらいをしておきましょう。スタート当初の携帯電話の絵文字には、キャリア間でメールのやり取りの中で文字化けしてしまう欠点があったこと、それを解決する仕組みをキャリア各社が作ったものの、その場しのぎの欠点の多いものであったこと、そして絵文字のUnicode符号化というのはそうした欠点を一挙に解決するはずであること。ついでにGoogle絵文字のUnicode符号化を進めることで、キャリア各社は今まで自分たちが育ててきた絵文字の主導権を奪われてしまうということも。 それから前回の最後では、キャリア各社に対してGoogleの提案についてどう思うか、パブリックレビューに参加する意向があるかを聞いてみました。そこでの回答は、各社そろって消極的と受け取れるものでした。 ところが前回の掲載後に、NTTドコモがGoogle絵文字メーリングリストに投稿し

    絵文字が開いてしまった「パンドラの箱」第2回--Googleの開けてしまった箱の中味
  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • 文字コード入門

    コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi

  • Unicode版 文字コード表

    こちらで、ありそうでなかなか見つからないUnicode版 文字コード表を作ってみました。 当初作っていたものは65536文字表示するようにしていたので非常に重かったのですが、4096文字ずつ表示できるようにして多少は軽くなったと思います。ただし一覧性は損なわれてしまったのですが・・・。65536文字を一度に表示する場合は、こちらにお進みください。(表示が完了するまで少々時間がかかります。) なお、使い方はこちらをご覧ください。

  • 日本語を扱う(文字セットと16進数)

    charcode 変換 説明はどうでもいいから動くソースを出せという人は、後ろのほうへ… 文字コード? 日語をはじめとする多くのアジア言語は、0〜255 までしか表せない char 型ではとても表現できません。そこで、複数の char 型を組み合わせて表現しています。ところが、日語の場合この組み合わせ型に大きく3通りの方法があり、主に使用している OS によってその傾向が異なります。 この複数によって表される文字の数値「文字コード」と呼び、文字コードの番号付け、というか組み合わせの体系ことを「文字符号化方法 (character encoding)」とか「文字セット (character set)」などと呼びます。 伝統的に、Microsoft WindowsApple Mac OS では Shift_JIS (内部的には Unicode ですが) が使用され、サーバーで用いられ

  • Microsoft Virtual PC: Virtual PC 2007

    毎日を、もっとシンプルに ゲーム、学習、ビジネスの経営、家事。何であれ、Windows 11 がすべてをこなすお手伝いをします。あらゆる働き方、学び方、遊び方に合わせて合理化された新機能をご覧ください。

    Microsoft Virtual PC: Virtual PC 2007
  • Unicode

    ISO 10646-1:1993 アルファベット類 [2,499] 0000: 0010: 0020: !"#$%&'()*+,-./ 0030: 0123456789:;<=>? 0040: @ABCDEFGHIJKLMNO 0050: PQRSTUVWXYZ[\]^_ 0060: `abcdefghijklmno 0070: pqrstuvwxyz{|}~ 0080: ���������������� 0090: ���������������� 00a0:  ¡¢£¤¥¦§¨©ª«¬­®¯ 00b0: °±²³´µ¶·¸¹º»¼½¾¿ 00c0: ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ 00d0: ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞß 00e0: àáâãäåæçèéêëìíîï 00f0: ðñòóôõö÷øùúûüýþÿ 0100: ĀāĂ㥹ĆćĈĉĊċČčĎď 0110: ĐđĒēĔ

    seuzo
    seuzo 2007/05/29
    ISO 10646-1:1993
  • 404 Blog Not Found:ajax - 文字化け判定表

    2007年04月14日01:20 カテゴリLightweight Languages ajax - 文字化け判定表 「誰か」という時にhyukiさんの視線を感じたのは気のせいかしらん。 結城浩のはてな日記 以下のような「文字化け判定表」があるといいなあと思って作り始めましたが、飽きちゃいました(←おい)。誰か作って…。というわけで、そっこーで作ったのが以下。 を で表示 漢字、カタカナ、ひらがなの入ったquery。 これはUTF-8で書かれたテスト 文字化けを解決することは 鯖側のソースはこちら倉側はお使いのブラウザーで「ソースを見て」下さい。 Enjoy! Dan the Man with too Many Mojibake to Fix See Also: 文字化けクイズ(解答編) - 西尾泰和のはてなダイアリー 「Lightweight Languages」カテゴリの最新記事

    404 Blog Not Found:ajax - 文字化け判定表
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
  • An Unicode vendor-specific character table for japanese (日本語のUnicodeベンダ依存文字表)

  • 文字列と UTF-8 バイト列の相互変換: Days on the Moon

    やっていることは「高度な JavaScript 技集」の「UTF-8 <-> UTF16 変換」と同じ。 function toUTF8Octets(string) { return unescape(encodeURIComponent(string)); } function fromUTF8Octets(octets) { return decodeURIComponent(escape(octets)); } encodeURIComponent は encodeURI でもいい (むしろそのほうが処理する文字種が減って速くなりそう) が、decodeURIComponent は decodeURI にすると一部の文字 ("?"、"#" など) がデコードされなくなる。 使いどころ Base64 エンコードする関数 (「高度な JavaScript 技集」の base64encod

  • Escape Codec Library: ecl.js

    日頃より楽天のサービスをご利用いただきましてありがとうございます。 サービスをご利用いただいておりますところ大変申し訳ございませんが、現在、緊急メンテナンスを行わせていただいております。 お客様には、緊急のメンテナンスにより、ご迷惑をおかけしており、誠に申し訳ございません。 メンテナンスが終了次第、サービスを復旧いたしますので、 今しばらくお待ちいただけますよう、お願い申し上げます。

  • ほら貝:文字コード

    B案には 680 x 96(JIS風にいうと、680区96点)のB-1案と、256 x 256(256区256点)のB-2案がありました。いずれも制御文字、アルファベット等の非漢字、JIS X 0208の漢字部分、GB2312の漢字部分、9216字(= 96 x 96)分の保留領域4つ、最後に外字領域という構成です。ISO 2022を無視して16bitのスペースをフルに使っていますから、A案の倍近い文字が収録可能です。 B-1案の 680 x 96は半端な構造のように見えますが、運用実績のあるJIS X 0208とGB2312は 94 x 94の配列でできていましたし、提案の年に制定されるKSC5601は 96 x 96だったので、横を 96列とすると国内コードと国際コードの相互変換が簡単になるのです。 投票では、圧倒的多数でISO 2022系の既存文字コードとの互換性を維持したA案が支持

  • [psl]ASCIIコード一覧表

    ログ last updated on 新着情報リスト フォームデコードサービスV2 郵便番号検索 文字コードチェック サポート掲示板 PSLブログ このサイトについて トップページのアイコンたち サポートについて プライバシーポリシー 著作権表示の削除をしたい方へ お問い合わせ/依頼/申請窓口 フリープログラム利用規約 設置代行等に関する規約 登録事業者リスト 特商法に基づく表示 設置代行サービス カスタマイズサービス オーダーメイドサービス 手数料・設定項目一覧表 CGI・SSIの基礎の基礎 読むとためになるの紹介(3) 読むとためになるの紹介(4) CGI環境変数 UNIXの基礎の基礎 基認証の方法 ASCIIコード一覧表 文字化けする文字一覧表 "^"(0x5e)を含む文字一覧表 "|"(0x7c)を含む文字一覧表 SMTP応答コード一覧表 アクセスカウンタ アクセス統計版 v