タグ

unicodeに関するcavoriteのブックマーク (8)

  • Route 477(2010-07-10)

    ■ [ruby] Ruby 1.9と波ダッシュ問題に関するメモ ややこしすぎるのでメモ 参考資料: http://gihyo.jp/dev/serial/01/ruby/0004 http://mkosaki.blog46.fc2.com/blog-entry-130.html http://blog.livedoor.jp/dankogai/archives/50488765.html 超参考書: 477414164X UnicodeにはWAVE DASH(U+301C)という文字がある(波ダッシュ) 波ダッシュは、「0時から6時」みたいなときに使われるアレ UnicodeにはFULLWIDTH TILDE(U+FF5E)という文字もある(全角チルダ) チルダは、ダイアクリティカルマーク*1の一種。スペイン語でnの上に付いたりするやつ 見た目はだいたい同じ フォントによっては、波打ち方が

    Route 477(2010-07-10)
  • emacs 21 で UTF-8 - dak ブログ

    rubyUTF-8 のデータを処理する必要があって、プログラム自体を UTF-8 で書きたかったので、emacs 21 で UTF-8 を読み書きする方法を調べてみました。 emacs 21 で UTF-8 を扱うには、Mule-UCS をインストールします。 でも Mule-UCS を単体でインストールしただけでは、emacs の起動が遅くなるとのことですので、patch をあててからインストールします。 ・Mule-UCS-0.84.tar.gz http://unit.aist.go.jp/itri/itri-gist/ftp.m17n.org/ ・mule-ucs-emacs-21.2.patch http://pop-club.hp.infoseek.co.jp/unix/mule-ucs-emacs-21.2.patch インストールは以下のように行います。 まず Mul

    emacs 21 で UTF-8 - dak ブログ
  • WindowsでPerlを使うもんじゃない

     WindowsPerl 5.8/5.10を使うモンじゃない 2008.01.17 3008.02.13改版  長い間に,私はPerlを使うときに次のようなテンプレートを使うようになっていた。 #!perl # utf8でセーブ # --------------------------------------------------- # @ARGV = map { decode('cp932',$_) } @ARGV ; # --------------------------------------------------- # opendir(D,encode('cp932',"表")) ; # @nodes = map { decode('cp932',$_) } readdir(D) ; # closedir(D) ; # -----

  • 図解: Perl と Unicode 文字列 - daily dayflower

    id:tomi-ru さんが [http://e8y.net/mag/015-encode/:title] というとてもプラクティカルな [http://search.cpan.org/perldoc?Encode:title=Encode] 入門をお書きになったので,わたしも違う切り口で書いてみたくなりました。 いちおうの基礎(読み飛ばし可) 文字セット, キャラクタセット, 文字集合, 文字集合 - Wikipedia エンコーディング, 符号化方式, 文字符号化方式 - Wikipedia この2つは異なります。とくに知らなくても下記の文書を読むことはできますが,理解しているとためになります。くわしく知りたい人は自習してください。 文字セットの例 Unicode JIS X 0208 ひらがなとかカタカナとか漢字とか ASCII 文字 エンコーディングの例 UTF-8 ISO-202

    図解: Perl と Unicode 文字列 - daily dayflower
  • yasuokaの日記: WAVE DASH問題縁起

    Encode - 規格のバグまでは直せませんにコメントしながら思ったのだが、JIS X 0208の1区33点「波ダッシュ」をUnicodeに変換する際、U+FF5EのFULLWIDTH TILDEに変換するのは明らかに間違いだ。この件に関して、私が知る限りのことを、ここに記しておこうと思う。 平成5年度のUCS調査研究委員会WG1において問題となったものの一つが、既存のJISの文字コードとISO/IEC 10646との対応をどうするかだった。JIS X 0208-1990の1区33点「波ダッシュ」に対しては、U+223C、U+223D、U+223E、U+223F、U+301Cが候補となったが、結局U+301Cと対応させることとなった。U+301Cの名前がWAVE DASHだったからである。ただし、ISO/IEC 10646-1:1993のU+301Cの例示字形は、JIS X 0208の「波

  • MFSA 2006-42: UTF-8 ページで BOM を使ったクロスサイトスクリプティング

    Mozilla Foundation セキュリティアドバイザリ 2006-42 タイトルUTF-8 ページで BOM を使ったクロスサイトスクリプティング 重要度高 公開日2006/06/01 報告者Masatoshi Kimura 影響を受ける製品FirefoxThunderbirdSeaMonkey 修正済みのバージョンFirefox 1.5.0.4Thunderbird 1.5.0.4SeaMonkey 1.0.2 概要 Web ページがパーサによって解析される前に、Unicode への変換過程で UTF-8 のページからバイトオーダーマーク (BOM) が欠落してしまうことが、Masatoshi Kimura 氏によって報告されました。その結果、パーサがスクリプトタグを解析すると、Web ページのコメントモードに含まれる「scr[BOM]ipt」のように見えることか

    cavorite
    cavorite 2006/06/20
    BOMは諸悪の根源だなあ
  • iTunesあるいはSoundJAMのID3タグにおける日本語の扱いの混乱について

    おくればせながら、この件に関する情報はかなり不正確なものが多いようなので。 1. 問題の質 端的に表現すればID3v1.0/v1.1のタイトル名、アルバム名、アーティスト名に使う文字コードに何を使うかの問題です。現実として、Windows向けのツールは全てAPIネイティブな文字コードをそのまま入れています。ほとんどのツールは欧米で作成されているため、事実上そこに入っている文字コードはWindows-1252(Windows西欧、Code Page 1252、Windows ANSI文字コード表)と想定されます。 iTunesはMacintoshのソフトなので、欧米ではMacRomanと呼ばれるApple拡張ASCIIコードがAPIネイティブな文字コードであり、それをLatin-1(ISO-8859-1)に変換してID3タグを作成します。 Windows-1252はISO-8859-1のス

  • http://www.anecs.net/comp/develop/data/utf.htm

  • 1