タグ

文字コードに関するNOV1975のブックマーク (10)

  • 第2部第5回が公開 - もじのなまえ

    INTERNET Watchの連載の新しい原稿が、日公開されたようです。 なぜUnicode正規化は生まれたか このあたり、もう2ヵ月くらい前に書いていたので、今読むと懐かしいなあ。 ※追記 書き忘れてました。今回の分は全部で6回分です。つまり来週の水曜日までつづくということかな。また、バックナンバーのサイトが以下に出来ています。 “情報化時代”に追いつけるか? 審議が進む「新常用漢字表(仮)」一覧(2008年)

    第2部第5回が公開 - もじのなまえ
    NOV1975
    NOV1975 2008/09/10
    コメント欄が盛り上がり。
  • UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ

    UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ 2008-05-01-3 [Programming] UTF-8 の全角ハイフン(便宜上こう呼びます)を Perl の正規表現でマッチさせようとしてはまりました。 全角ハイフンってのは「−」です。 やろうとしたことは、テキストファイル(UTF-8)を読み込んで、 その中の全角ハイフンを半角ハイフンに変換するという作業。 Perl スクリプトはこんな感じ。 use utf8; use open ':utf8'; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; while (<>) { s/\p{Hyphen}/-/g; # または s/−/-/g; print; } 入力「12−234−5」に対して、 出力「12-234-5」を想定。 しかし一部の全角ハイフンだけが半角

    UTF-8 の全角ハイフンが Perl の正規表現にマッチしなくて悩んだ
    NOV1975
    NOV1975 2008/05/02
    全角ハイフンに限らずこの辺の混乱している文字コードは何とかして欲しい。
  • これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ

    NetBeansの中の人経由でこれを発見した。 Without default value for source encoding, platform encoding is used, which is bad for build reproducibility. Then setting a default value consistently across every Maven plugin will improve build reproducibility. Proposed default value: ISO-8859-1, which must be supported by every JVM (see java.nio.Charset) and is already the default value for some plugins (the majority of

    これだから世の中にはiso-8859-1しかないと思ってる奴らは... - 川口耕介のブログ
    NOV1975
    NOV1975 2008/04/29
    こうしてMavenの世界制覇計画が終わりを告げたのであった。
  • 安岡孝一の日記: 鴎と鷗と朝日字体

    「表外漢字字体表」の答申をうけて、新聞業界も続々と表外漢字を伝統的字体に戻しはじめた。平成16年にはJIS規格も国語審議会の答申を生かすべく改正され、「かもめ」のコードは朝日字体に譲って、あらたに「かもめの正字体」に対応するコードが作られた。 違う。JIS規格において「鴎」と「鷗」の文字コードが分離されたのは、1990年10月1日のJIS X 0212制定の時点だ。JIS X 0212の76区31点に「鷗」が収録されたことで、JIS X 0208の18区10点の「鴎」との分離がおこなわれた、と考えるべきだ。この結果、1995年1月1日制定のJIS X 0221においても「鴎」と「鷗」は異なる文字コードとなっており、Windows 98ですら「鴎」と「鷗」の両方を表示できた。あるいは、JIS X 0213に限ったとしても、2000年1月20日の制定時点で「鴎」と「鷗」には別の文字コードが付与

    NOV1975
    NOV1975 2007/03/21
    ある主題に対する反証として持ち出された事実に対して、別の事実を持ち出したて語ろうとも先の事実がひっくり返るわけではない、と途中の人に言っておこう。
  • EUC-UTF8の可能性 : 404 Blog Not Found

    2007年03月18日06:00 カテゴリCodeLightweight Languages EUC-UTF8の可能性 404 Blog Not Found:シフトJISを残すべきか?のコメント欄の、UTFCPのLightConeさんとMatzさんの会話をぼ〜っと眺めているうちに、ひらめきました。 EUCとUTF-8って、マッシュアップできなくね? 鍵は\xFFにあります。このバイト、EUCにもUTF-8にも絶対あらわれないのです。 さすれば、あとはこう定義するだけです。 EUC-UTF8-CHAR = EUC-CHAR | \xFF + UTF-8-CHAR LightConeさん曰く、 UTFCP2の特徴として,日中国の漢字の主要部分が二バイトで現せる 特徴もありますが.他に, 後ろのバイトから正確に一文字づつ逆戻りできるという事があるのを知ってますか. 正確に逆戻り出来るのは,プ

    EUC-UTF8の可能性 : 404 Blog Not Found
    NOV1975
    NOV1975 2007/03/18
    なんだかFFってのが微妙な気がする。
  • http://openblog.meblog.biz/article/61959.html

    NOV1975
    NOV1975 2007/03/18
    ちょっと面白い。コメントする人をずいぶん素人呼ばわりしているけどどうだろう。自分の見解で無いわりには強弁しているし。ところで他人へのUnicodeの強制って何?単に嫌いだから近寄るなってことかなあ。
  • シフトJISを捨てられるか? - 記者のつぶやき:ITpro

    これまで,Windows Vistaの文字の扱いに関する事柄を何度か取り上げてきた。同じキャラクタ・コードで,Windows XPのときと文字の形が変わったり,Unicodeでしか扱えない文字があったりするという話題だ。今回は,エンコーディングについて考えてみたい。 これまでの記事でも書いてきたが,文字処理とエンコーディングに関する問題は,何もWindows Vistaに始まったわけではない。Windows XPやWindows 2000など,既存のWindowsでも同様だ。例えば,「鴎」の旧字である「シナカモメ」は,Unicodeでしか扱えない文字だが,Windows XP以前のMS-IMEでも入力できる。石鹸の「鹸」の旧字もそうである。これらの文字を扱うには,アプリケーション・ソフトが,文字列をUnicodeで処理しなればならない。シフトJISに変換した瞬間に,文字情報が無くなってしま

    シフトJISを捨てられるか? - 記者のつぶやき:ITpro
    NOV1975
    NOV1975 2007/03/05
    捨てられない理由が全く納得できません!
  • J-CAST ニュース : 「Vista」の文字化け 編集者に深刻な事態

    いよいよ一般向けの発売が迫った次世代OSの「Windows Vista」。2007年1月15日に行われた報道機関向けの発表会では、PCメーカー18社がVistaに対応した新製品を発表した。その一方で、従来のOSで作成した文字が、Vistaでは違った字体で表示される、という問題を指摘する声も挙がっている。マイクロソフト社も、対応するフォントを提供するなどの対策を講じてはいるが、細かい字体の違いを重視するユーザーは、注意が必要だ。 Vistaのフォントは新規格に対応したのだが 製品には「地デジ対応チューナー」を搭載するなど「家電」としての機能を大幅に強化、セキュリティー面が向上するなど、様々な面が刷新されたVistaだが、刷新されたポイントのひとつが、日語のフォント環境だ。従来は文字コードの制約のため、「印刷物で使われている漢字とPC上に表示される漢字が異なる」、つまり、「略字」の使用を余儀

    J-CAST ニュース : 「Vista」の文字化け 編集者に深刻な事態
    NOV1975
    NOV1975 2007/01/17
    DTP業界もWindows使うところが増えてきたってことかな。いや、入稿するほうの問題か。MSも自爆する気がないならもう少しちゃんとアナウンスしたほうがよいよ。
  • Vistaで化ける字,化けない字

    11月30日に企業向けには出荷が始まったWindows Vista。そのVistaで,“文字化け”が起こるらしい。文字化けといっても,Webアクセス中にたまに見かける全く読めない文字の羅列になることはほとんどなく,その多くは似た文字が表示される程度である。ここでは,来表示されるべき文字の形が少し違ったものが表示されるケースも“文字化け”として扱う。 Microsoftは,Windows 98日語版の発売以来,Windows 2000,Windows Me,Windows XPまでCP932(名はWindows Codepage 932,いわゆるMS漢字コード)とJIS X 0212をサポートしてきたが,最新のWindows VistaではJIS X 0213に乗り換えた。いや,乗り換えたというのは,ちょっと語弊がある。CP932とJIS X 0212に加えて,JIS X 0213もサ

    Vistaで化ける字,化けない字
    NOV1975
    NOV1975 2006/12/15
    化けるという表現が適切かは微妙だな。で、第一水準で116字ってのは多いな。わざわざ見比べなくてもJIS規格見ればわかるんじゃないのと思いつつ、JISの規格変えた奴は死んでもいいと思った(だいぶ前にね)。
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

    NOV1975
    NOV1975 2006/12/13
    面白い。こういうのは素人では対処が難しいからアプリ側がちゃんとやってくれないとね。
  • 1