タグ

文字コードに関するseuzoのブックマーク (62)

  • 『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』と『文字コードの世界』 | yasuokaの日記 | スラド

    日付で、私たち(安岡孝一・安岡素子)の『日中国台湾・香港・韓国の常用漢字と漢字コード』(京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所、2017年3月)が、無事に発行された。まずは、めでたい。 実は、このは、私たちの『文字コードの世界』(東京電機大学出版局、1999年9月)の第5章「常用漢字と漢字コード」を、最新のものにアップデートしたい、という意図のもとに書かれた。なので、元々は「日中国台湾韓国」を予定していた。その後、執筆中に、香港を入れる必要性を感じたことから、いったんは「日中国台湾韓国・香港」としたのだが、どうも坐りが悪く、最終的に「日中国台湾・香港・韓国」としたものである。表組も、最初は日中台韓だったものを、いったん日中台韓香にして、最後は日中台香韓に組み直した。 はずだったのだが、まだp.81に日中台韓香が残っている、との御指摘を

    『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』と『文字コードの世界』 | yasuokaの日記 | スラド
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
  • C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ

    C#(.NET Framework)に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく 特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい 読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたい といった場面に出くわします。 ですが、C#(.NET Framework)標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、 自前で文字コード判定のロジックを実装する 出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ(mlang.dll)を利用する ※COMコンポーネント呼び出し要 のいずれかの方法を取ることになります。 HNXgrepと

    C#で高精度なテキストファイル文字コード自動判別(2014年版) - hnx8のブログ
  • 漢数字が数字順にソートされない理由を調べてみた - give IT a try

    はじめに:「なぜ漢数字は数字順に並ばない!?」 先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。(執筆時点で50件以上) 「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日 「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。 いや、もちろんそれはわかってるんです。 問題は「そもそもなんで数字順に文字コードを振らなかったの!?」ということです。 感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」

    漢数字が数字順にソートされない理由を調べてみた - give IT a try
  • 第1回 漢字コードの基礎、JISコード

    官庁や自治体における、いわゆる行政情報システムでは、一風変わった漢字コードが用いられている。人名や地名に必要な漢字を、それぞれの省庁が思い思いの形で、情報システムに搭載してきたためだ。特集では、これら行政情報処理用漢字コードのうち、現在かなり大きなシェアを持つ3つの漢字コードの現状をお伝えしようと思う。 その3つとは、総務省系の「住民基台帳ネットワーク統一文字」、法務省系の「戸籍統一文字」および「入国管理局正字」だ。さらに、これら3つの漢字コードを一体に統合すべく構築されつつある、経済産業省系の「文字情報基盤(IPAmj)」を最終回で扱う。 ただ、これら4つの漢字コードを理解するためには、JISで制定された漢字コードの理解が不可欠なことから、第1回の今回は、「JIS X 0213」と「JIS X 0212」について、行政情報処理の視点、特に異体字処理の視点から述べることにする。 マイナ

    第1回 漢字コードの基礎、JISコード
  • 【第619回】「1バイト文字」「2バイト文字」という死語? : イジハピ!

    2014年06月12日23:47 【第619回】「1バイト文字」「2バイト文字」という死語? カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) 一昨日ブログに書いた「スマートウォッチ」のことを調べていたら、「Pebbleというスマートウォッチは、英語のような1バイト文字しか表示できず、日語のような2バイト文字は表示できないので注意」と書かれたブログがあった。 この言葉はもうあまり使われていないと思っていたので、アレと思った。 昔のパソコンは、英語はASCII(7ビット)、フランス語やドイツ語のような西欧特殊文字はISO 8859-1(8ビット)を使っていた。 8ビットの情報(2進数8桁)は、最大0から255までの256種類の数値に割り当てられる。 これにASCIIではアルファベット小文字、大文字を合わせて52文字、アラビア数字が0から9で1

    【第619回】「1バイト文字」「2バイト文字」という死語? : イジハピ!
  • 2014.05.27 文字情報技術の最新動向 - JEPA

    現在、政府では、戸籍、住民基台帳、児童・生徒の名前などについて、大規模な文字情報技術の改革が推進されています。この最新動向をご紹介するとともに、出版分野に与える影響もご紹介しました。 日時: 2014年5月27日(火) 13:30-15:30(受付開始13:00) 場所: 飯田橋:研究社英語センター 地図 料金: 2000円(JEPAおよび文字情報技術促進協議会 会員社は無料) 主催; 日電子出版協会(JEPA) / 文字情報技術促進協議会 参加者: 119名 ■登壇者 内閣官房 政府CIO補佐官 平健二氏 IPA 独立行政法人 情報処理推進機構 技術部 国際標準推進センター長 田代秀一氏 文字情報技術促進協議会 理事 小林龍生氏 (JEPAフェロー) 文字情報技術促進協議会 字形共有基盤活用部会 部会長 田原恭二氏(凸版印刷) 文字情報技術促進協議会 事務局長 田丸健三郎氏 (日

  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

    文字コード地獄秘話 第1話:Unicodeにおける全角・半角 - ALBERT Engineering Blog
  • 丸数字の21がAdobe-Japan1でひとりぼっちな理由

    AJ1で丸数字の21(cid8091)がなぜかぽつんとひとりぼっち。 そんなDTPerの長年の謎が今あきらかにされる…!

    丸数字の21がAdobe-Japan1でひとりぼっちな理由
  • ものかの » UTF-8-MAC は文字コードかな…

    昨日の記事「UTF-8-MAC なんていう文字コードはありません」は言いすぎだったようです。一夜明けて思い直したので、ここで修正しておきます。 「文字コード」というは、各人各様でかなり...UTF-8-MAC は文字コードかな… 昨日の記事「UTF-8-MAC なんていう文字コードはありません」は言いすぎだったようです。一夜明けて思い直したので、ここで修正しておきます。 「文字コード」というは、各人各様でかなり広くて大雑把な言葉です。それなのに「文字コードではない」と断定的に言ったのはまずかった。 それから「テキストエンコーディング」。この言葉はただ単にエンコーディングとも呼ばれますが、符号化方式のことではありません。言ってみれば、名が体を表していない。たとえば、CP932 と MacJapanese。この2つはエンコーディング名として区別されていますが、符号化方式はまったく同じです。 エ

  • ものかの » UTF-8-MAC なんていう文字コードはありません

    「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。 状況を整理します。OS X のファイルシステムは HFS+。ここでいう文...UTF-8-MAC なんていう文字コードはありません 「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。 状況を整理します。OS X のファイルシステムは HFS+。ここでいう文字コードはテキストエンコーディング。したがって、主題を正確に表現すると「HFS+がファイル名などを管理するときのテキストエンコーディング」ということになりますが、実はこの主題の立て方そのものが間違っています。 彼らが問題にしているのは、ファイル名に結合文字列が混在してしま

  • もじもじカフェ 戸籍と住基とマイナンバーの文字コード - ちくちく日記

    もじもじカフェ第38回「戸籍と住基とマイナンバーの文字コード」に参加してきました。 もじもじカフェは「文字と印刷について市民と専門家・業界人がお茶を飲みながら気楽に話し合う」というイベント。 勉強会とかセミナーとは違って「お茶を飲みながら気楽に」というスタイルなので、会場もこぢんまりした喫茶店のようなところで、講師を中心に皆で大きなテーブルを囲んで話をするスタイル。 今回のテーマは「戸籍と住基とマイナンバーの文字コード」京都大学の安岡孝一氏を講師に現在策定が進められているマイナンバー制度などを文字コードの視点から説明してもらいました。 大変面白かったので、いつものようにレポートを。 このレポートは当日の安岡先生の話を私の手書きメモから書き起こしたものです。 聞き落とした部分もありますし、私が聞き間違えている可能性もあります。 大体こんな話だった程度の物と思ってお読みください。 もし何か間違

    もじもじカフェ 戸籍と住基とマイナンバーの文字コード - ちくちく日記
  • シフトJISの闇を訪ねる旅

    小形克宏 @ogwata 相変わらずシフトJISについて調べているわけだが、先日の文字の学校で狩野さんから「『CJKV』第2版ではシフトJIS関連がばっさり削られているんですよね」との情報を得て、ひょっとしたらと一番最初の版『日語情報処理』(1995年、ソフトバンク)を見てみたら、これが一番詳しい! 2013-05-23 22:08:51 小形克宏 @ogwata さすが1995年のだけあって、ベンダーごとの実装差は必要不可欠。新しい版が出たらかといって、古い版を捨てなくてよかった…と書いたところで、Facebook経由で安岡さん曰く「でもミスも多い!」だそうです。しょぼん。 2013-05-23 22:12:38 小形克宏 @ogwata そうか、EPSONの98互換機は単純にJIS83だと思っていたけど、符号化文字集合としては78JISにJIS83の追加分を加え、レパートリにJIS

    シフトJISの闇を訪ねる旅
  • 第1回 「個人番号」では串刺し検索ができない

    マイナンバー法案が、国会で審議中だ。システム調達は巨額で、特需が生じると分析する向きもあるが(関連記事)、システム調達費用が巨額になるのには、それなりに理由がある。マイナンバーはかなり複雑なシステムであり、要求要件が非常に難しいからだ。 連載では、マイナンバーのシステムが抱える複雑さや、システムを開発する上での難しさを解説する。連載第1回である今回は、マイナンバーがどのような設計原理に基づいているのか。以下に示した図を基に、例を挙げて説明しよう。 サーバーをまたいでの串刺し検索が許されていない マイナンバーの特徴は、「個人番号を使ったサーバーをまたいでの串刺し検索が、一切できない」という点にある。例として、「ある人物の年金加入記録を郵送したところ、転居先不明で日年金機構に戻ってきてしまった」という場合を考えてみよう。 マイナンバーを導入すると、日年金機構は以下の手順で、転居先を調べる

    第1回 「個人番号」では串刺し検索ができない
  • 電書時代の文字コードを考える(ための資料)

    自家製資料いろいろ 文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表 部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧 文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ 漢字これくしょん 康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日フォント一覧 Unicode変体仮名フォント **new** 実験ツール 文字コードチェッカー 青空UTF IVS異体字メーカー 顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま

  • 80〜90年代のシフトJISの諸方言について

    PCの黎明期には、各社がシフトJISにベンダ外字セットを独自に付け加えていたものでした。ついこの間のことだと思っていたら、今それらの機種依存文字の詳細を調べようと思うとなかなか骨なようです。

    80〜90年代のシフトJISの諸方言について
  • 漢字コードの歴史

    なんでやねんDTP/おぢん @works014 [IVS][安岡孝一氏] / “新しいIVDと互換漢字の人名用漢字 | yasuokaの日記 | スラッシュドット・ジャパン” http://t.co/hf8SUmy3 2012-03-05 09:27:16 K.Takata @k_takata 「Unicode文字列型が複数の内部表現をサポート」ってどういうこと?「Python 2系からの移植を容易にするため…Unicodeリテラルシンタックスも復活」これは良い。 http://t.co/LxkUP45x 2012-03-06 21:44:00

    漢字コードの歴史
  • British Airways Flight Attendant Turns the Tables on a Racist Passenger - CLARK LOG - Yahoo!ジオシティーズ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。 だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから(下図)。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。 その外字領域をまとめると、

    SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
  • ケータイの文字コードについて調べてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    ケータイ(ガラケー)の文字コードについて調べる機会があったので、基的なところをまとめておく。 ケータイ端末の内部コードは、docomo、au、SoftBankいずれもShift-JIS。Windows外字のうち、13区相当のNEC特殊文字については、各社ともサポートしている。その一方で、NEC選定IBM拡張文字とIBM拡張文字は、各社とも公式にはサポートしていない。ただし、機種によってはNEC選定IBM拡張文字またはIBM拡張文字を表示できることもある。 各社とも、0xEB40以降(85〜120区相当)に絵文字を収録している。下図は、Shift-JISの符号空間のうち、JIS X 0208の文字が入っていない部分への外字の割り当てを示したもの。紫地がWindows外字領域、黄色地が各キャリアの絵文字領域。グレーの数字はShift-JISの上2桁、黒の数字は区。 下図は、docomoの端末

    ケータイの文字コードについて調べてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ