[B! 文字コード] seuzoのブックマーク

『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』と『文字コードの世界』 | yasuokaの日記 | スラド

本日付で、私たち(安岡孝一・安岡素子)の『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』(京都大学未踏科学研究ユニット・学知創生ユニット・人文科学研究所、2017年3月)が、無事に発行された。まずは、めでたい。実は、この本は、私たちの『文字コードの世界』(東京電機大学出版局、1999年9月)の第5章「常用漢字と漢字コード」を、最新のものにアップデートしたい、という意図のもとに書かれた。なので、元々は「日本・中国・台湾・韓国」を予定していた。その後、執筆中に、香港を入れる必要性を感じたことから、いったんは「日本・中国・台湾・韓国・香港」としたのだが、どうも坐りが悪く、最終的に「日本・中国・台湾・香港・韓国」としたものである。表組も、最初は日中台韓だったものを、いったん日中台韓香にして、最後は日中台香韓に組み直した。はずだったのだが、まだp.81に日中台韓香が残っている、との御指摘を

seuzo 2017/03/12

リンク

JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

Intro textarea などに入力された文字数を、 JS で数えたい場合がある。ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

seuzo 2017/03/03

リンク

C#で高精度なテキストファイル文字コード自動判別（2014年版） - hnx8のブログ

C#（.NET Framework）に限ったことではありませんが、汎用的にテキストファイルを扱うようなアプリケーションを作っていると、よく特定の文字コードのファイルしか読み出せないのでは困る ⇒文字コードを自動判別し、テキストの内容を取り出したい読み出したファイルと同じ文字コードでファイルを書き出したい ⇒読み出したファイルの文字コードを知りたいといった場面に出くわします。ですが、C#（.NET Framework）標準のライブラリではそのような機能は提供されていないため、文字コードを判定するには、自前で文字コード判定のロジックを実装する出来合いの外部ライブラリ、Windows版NKF32.dll、ICU4Cなどを利用する IE用の文字コード判別ライブラリ（mlang.dll）を利用する ※COMコンポーネント呼び出し要のいずれかの方法を取ることになります。 HNXgrepと

seuzo 2015/01/04

リンク

漢数字が数字順にソートされない理由を調べてみた - give IT a try

はじめに：「なぜ漢数字は数字順に並ばない！？」先日、こんなツイートをしたところ、結構たくさんの人にリツイートされました。（執筆時点で50件以上）「漢数字はソートしても数字順に並ばない」という事実を生まれて初めて知った。まさかのサプライズ。 pic.twitter.com/Eqx3ltIfHs— Junichi Ito (伊藤淳一) (@jnchito) 2014年11月27日「なぜ漢数字は数字順に並ばないのか」という問いに対して、表面的な回答をするなら「数字順に並ばないのは、数字の大きさではなく文字コード順でソートされているから」ということになります。いや、もちろんそれはわかってるんです。問題は「そもそもなんで数字順に文字コードを振らなかったの！？」ということです。感覚的には「一郎、二郎、三郎」って並んでほしいじゃないですか。でも、プログラム上でソートすると「一郎、三郎、二郎」

seuzo 2014/12/04

リンク

第1回漢字コードの基礎、JISコード

官庁や自治体における、いわゆる行政情報システムでは、一風変わった漢字コードが用いられている。人名や地名に必要な漢字を、それぞれの省庁が思い思いの形で、情報システムに搭載してきたためだ。本特集では、これら行政情報処理用漢字コードのうち、現在かなり大きなシェアを持つ3つの漢字コードの現状をお伝えしようと思う。その3つとは、総務省系の「住民基本台帳ネットワーク統一文字」、法務省系の「戸籍統一文字」および「入国管理局正字」だ。さらに、これら3つの漢字コードを一体に統合すべく構築されつつある、経済産業省系の「文字情報基盤（IPAmj）」を最終回で扱う。ただ、これら4つの漢字コードを理解するためには、JISで制定された漢字コードの理解が不可欠なことから、第1回の今回は、「JIS X 0213」と「JIS X 0212」について、行政情報処理の視点、特に異体字処理の視点から述べることにする。マイナ

seuzo 2014/06/30

文字コード

リンク

【第619回】「1バイト文字」「2バイト文字」という死語？ : イジハピ！

2014年06月12日23:47 【第619回】「1バイト文字」「2バイト文字」という死語？カテゴリ文字コード【プチ】研究 query1000 Comment(0)Trackback(0) 一昨日ブログに書いた「スマートウォッチ」のことを調べていたら、「Pebbleというスマートウォッチは、英語のような1バイト文字しか表示できず、日本語のような2バイト文字は表示できないので注意」と書かれたブログがあった。この言葉はもうあまり使われていないと思っていたので、アレと思った。昔のパソコンは、英語はASCII（7ビット）、フランス語やドイツ語のような西欧特殊文字はISO 8859-1（8ビット）を使っていた。 8ビットの情報（2進数8桁）は、最大0から255までの256種類の数値に割り当てられる。これにASCIIではアルファベット小文字、大文字を合わせて52文字、アラビア数字が0から9で1

seuzo 2014/06/13

文字コード

リンク

2014.05.27 文字情報技術の最新動向 - JEPA

現在、政府では、戸籍、住民基本台帳、児童・生徒の名前などについて、大規模な文字情報技術の改革が推進されています。この最新動向をご紹介するとともに、出版分野に与える影響もご紹介しました。日時：　2014年5月27日(火)　13:30-15:30(受付開始13:00) 場所：　飯田橋：研究社英語センター　地図料金：　2000円(JEPAおよび文字情報技術促進協議会会員社は無料) 主催；　日本電子出版協会(JEPA) / 文字情報技術促進協議会参加者： 119名 ■登壇者内閣官房　政府CIO補佐官平本健二氏 IPA 独立行政法人情報処理推進機構　技術本部　国際標準推進センター長　田代秀一氏文字情報技術促進協議会理事　小林龍生氏 (JEPAフェロー) 文字情報技術促進協議会字形共有基盤活用部会　部会長　田原恭二氏（凸版印刷）文字情報技術促進協議会事務局長田丸健三郎氏 (日

seuzo 2014/05/28

リンク

文字コード地獄秘話第1話：Unicodeにおける全角・半角 - ALBERT Engineering Blog

ごあいさつ皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。固定観念を捨てよう「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。しか

seuzo 2014/04/21

リンク

丸数字の21がAdobe-Japan1でひとりぼっちな理由

AJ1で丸数字の21（cid8091）がなぜかぽつんとひとりぼっち。そんなDTPerの長年の謎が今あきらかにされる…！

seuzo 2013/10/25

リンク

ものかの » UTF-8-MAC は文字コードかな…

昨日の記事「UTF-8-MAC なんていう文字コードはありません」は言いすぎだったようです。一夜明けて思い直したので、ここで修正しておきます。「文字コード」というは、各人各様でかなり...UTF-8-MAC は文字コードかな… 昨日の記事「UTF-8-MAC なんていう文字コードはありません」は言いすぎだったようです。一夜明けて思い直したので、ここで修正しておきます。「文字コード」というは、各人各様でかなり広くて大雑把な言葉です。それなのに「文字コードではない」と断定的に言ったのはまずかった。それから「テキストエンコーディング」。この言葉はただ単にエンコーディングとも呼ばれますが、符号化方式のことではありません。言ってみれば、名が体を表していない。たとえば、CP932 と Mac Japanese。この２つはエンコーディング名として区別されていますが、符号化方式はまったく同じです。エ

seuzo 2013/07/13

リンク

ものかの » UTF-8-MAC なんていう文字コードはありません

「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。状況を整理します。OS X のファイルシステムは HFS+。ここでいう文...UTF-8-MAC なんていう文字コードはありません「OS X のファイルシステムの文字コードは UTF-8-MAC である」という完全に間違った情報があちこちで見られるので、ここで注意を促しておこうと思います。状況を整理します。OS X のファイルシステムは HFS+。ここでいう文字コードはテキストエンコーディング。したがって、主題を正確に表現すると「HFS+がファイル名などを管理するときのテキストエンコーディング」ということになりますが、実はこの主題の立て方そのものが間違っています。彼らが問題にしているのは、ファイル名に結合文字列が混在してしま

seuzo 2013/07/11

リンク

もじもじカフェ　戸籍と住基とマイナンバーの文字コード - ちくちく日記

もじもじカフェ第38回「戸籍と住基とマイナンバーの文字コード」に参加してきました。もじもじカフェは「文字と印刷について市民と専門家・業界人がお茶を飲みながら気楽に話し合う」というイベント。勉強会とかセミナーとは違って「お茶を飲みながら気楽に」というスタイルなので、会場もこぢんまりした喫茶店のようなところで、講師を中心に皆で大きなテーブルを囲んで話をするスタイル。今回のテーマは「戸籍と住基とマイナンバーの文字コード」京都大学の安岡孝一氏を講師に現在策定が進められているマイナンバー制度などを文字コードの視点から説明してもらいました。大変面白かったので、いつものようにレポートを。このレポートは当日の安岡先生の話を私の手書きメモから書き起こしたものです。聞き落とした部分もありますし、私が聞き間違えている可能性もあります。大体こんな話だった程度の物と思ってお読みください。もし何か間違

seuzo 2013/06/21

リンク

シフトJISの闇を訪ねる旅

小形克宏 @ogwata 相変わらずシフトJISについて調べているわけだが、先日の文字の学校で狩野さんから「『CJKV』第2版ではシフトJIS関連がばっさり削られているんですよね」との情報を得て、ひょっとしたらと一番最初の版『日本語情報処理』（1995年、ソフトバンク）を見てみたら、これが一番詳しい！ 2013-05-23 22:08:51 小形克宏 @ogwata さすが1995年の本だけあって、ベンダーごとの実装差は必要不可欠。新しい版が出たらかといって、古い版を捨てなくてよかった…と書いたところで、Facebook経由で安岡さん曰く「でもミスも多い！」だそうです。しょぼん。 2013-05-23 22:12:38 小形克宏 @ogwata そうか、EPSONの98互換機は単純にJIS83だと思っていたけど、符号化文字集合としては78JISにJIS83の追加分を加え、レパートリにJIS

seuzo 2013/05/31

リンク

第1回　「個人番号」では串刺し検索ができない

マイナンバー法案が、国会で審議中だ。システム調達は巨額で、特需が生じると分析する向きもあるが（関連記事）、システム調達費用が巨額になるのには、それなりに理由がある。マイナンバーはかなり複雑なシステムであり、要求要件が非常に難しいからだ。本連載では、マイナンバーのシステムが抱える複雑さや、システムを開発する上での難しさを解説する。連載第1回である今回は、マイナンバーがどのような設計原理に基づいているのか。以下に示した図を基に、例を挙げて説明しよう。サーバーをまたいでの串刺し検索が許されていないマイナンバーの特徴は、「個人番号を使ったサーバーをまたいでの串刺し検索が、一切できない」という点にある。例として、「ある人物の年金加入記録を郵送したところ、転居先不明で日本年金機構に戻ってきてしまった」という場合を考えてみよう。マイナンバーを導入すると、日本年金機構は以下の手順で、転居先を調べる

seuzo 2013/05/21

リンク

電書時代の文字コードを考える(ための資料)

自家製資料いろいろ文字コード体系(サマリ) JIS文字コード表 JIS X 0213全漢字一覧(1-4水準 10050文字) UTF文字コード表部首別漢字コード表 Adobe-Japan1のJIS外Unicodeマッピング文字一覧文字テストEPUB Adobe-Japan1 IVS異体字一覧 Source Han Sansフォント特設ページ漢字これくしょん康熙字典EPUB版 Google Notoフォントグリフ一覧(CJK以外) macOS Sierra で最初から入ってる日本語フォント一覧 Unicode変体仮名フォント **new** 実験ツール文字コードチェッカー青空UTF IVS異体字メーカー顔文字デコーダ Unicodeデコーダ (文字列からUnicodeコードポイントを表示) Unicodeマップ (全Unicodeのマップ。表示できるグリフはフォントに依存しま

seuzo 2013/05/21

リンク

80〜90年代のシフトJISの諸方言について

日本のPCの黎明期には、各社がシフトJISにベンダ外字セットを独自に付け加えていたものでした。ついこの間のことだと思っていたら、今それらの機種依存文字の詳細を調べようと思うとなかなか骨なようです。

seuzo 2013/05/15

リンク

漢字コードの歴史

なんでやねんDTP/おぢん @works014 [IVS][安岡孝一氏] / “新しいIVDと互換漢字の人名用漢字 | yasuokaの日記 | スラッシュドット・ジャパン” http://t.co/hf8SUmy3 2012-03-05 09:27:16 K.Takata @k_takata 「Unicode文字列型が複数の内部表現をサポート」ってどういうこと？「Python 2系からの移植を容易にするため…Unicodeリテラルシンタックスも復活」これは良い。 http://t.co/LxkUP45x 2012-03-06 21:44:00

seuzo 2013/03/30

リンク

British Airways Flight Attendant Turns the Tables on a Racist Passenger - CLARK LOG - Yahoo!ジオシティーズ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

seuzo 2013/03/21

リンク

SoftBank iPhoneのShift_JISがすごいことになっている件 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

下図は、SoftBank iPhoneのMailが用いるShift_JISのIBM拡張文字領域*1。どうだ、驚いたろう。 SoftBank iPhoneのMailは、charset=Shift_JISをよく使う。髙村薫の「髙」や宮﨑あおいの「﨑」などのWindows外字もShift_JISで送るし、絵文字もShift_JISで送る。しかし、WindowsのIBM拡張文字領域とSoftBankの絵文字領域は、もともと衝突しており、共存できない。なので、SoftBank iPhoneのShift_JISでは、IBM拡張文字のうち下図ピンク部分が使えない。だったらその分は、NEC選定IBM拡張文字のほうを使えばいいじゃないですか、どうせダブってるんだから（下図）。というのが、大ざっぱに言えば、SoftBank iPhoneのMailが用いるShift_JISである。その外字領域をまとめると、

seuzo 2012/04/24

リンク

ケータイの文字コードについて調べてみた - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

ケータイ（ガラケー）の文字コードについて調べる機会があったので、基本的なところをまとめておく。ケータイ端末の内部コードは、docomo、au、SoftBankいずれもShift-JIS。Windows外字のうち、13区相当のNEC特殊文字については、各社ともサポートしている。その一方で、NEC選定IBM拡張文字とIBM拡張文字は、各社とも公式にはサポートしていない。ただし、機種によってはNEC選定IBM拡張文字またはIBM拡張文字を表示できることもある。各社とも、0xEB40以降（85〜120区相当）に絵文字を収録している。下図は、Shift-JISの符号空間のうち、JIS X 0208の文字が入っていない部分への外字の割り当てを示したもの。紫地がWindows外字領域、黄色地が各キャリアの絵文字領域。グレーの数字はShift-JISの上2桁、黒の数字は区。下図は、docomoの端末

seuzo 2012/01/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (42)

文字コードに関するseuzoのブックマーク (62)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス