タグ

文字コードに関するPhinlodaのブックマーク (20)

  • POM Element for Source File Encoding - Maven User - Codehaus

    Currently, the character encoding for source files needs to be configured individually for each and every plugin that processes source files. In this context, source file refers to some plain text file that - unlike an XML file - lacks intrinsic means to specify the employed file encoding. The Java source files are the most promiment example of such text files. Velocity templates, BeanShell script

    Phinloda
    Phinloda 2009/06/29
    (English) +1 on (a). 力こそパワー、みたいな
  • DEZZ Networks » iPhoneでauメールが文字化け!

    2008/9/12にiPhone用のファームウェアVer.2.1が公開されました。 コピー&ペーストが実装される、高速化・安定化する、日本語入力が快適になる、など、色々と期待はされていたものの、実装が確認できたのは一部の機能に留まりました。 しかし、超モッサリだった日本語入力がかなり改善され、普通のいわゆる「ケータイ」並みの日本語入力機能が実装されたのは大きなポイントと言えるでしょう。これだけでも2.1を導入する価値は十分にあると言えます。 が、しかし。 2.1をインストールすると、メールクライアントもアップデートされるようで、今までと多少動きが変わってしまいました。 どうやら、今まではContent-typeのcharsetを重視していたようですが、2.1からは、charsetと合わない文字が見つかった時点で、UTF-8として見てしまうようです。 結果的に、それによって問題が発生してしま

  • auからのメールをiPhoneで受信すると文字化け

    au(ezweb)からのメールをiPhoneで受信すると文字化けする現象がでてまして... なぜか実家の家族がauが多いんですよね。 とはいえ、またもや携帯メールはGmailのメルアドに送って...って言い直すのも、あまり機械になれていない家族...特に父親...に言うのは気が引けて。 絵文字が入っていると文字化けするのは何となく経験上思ったいたんですが、iPhoneのファームウェアのバージョンアップをするとなんか現象も変わったような感じですが、やっぱり文字化けは発生してる。 で、調べてみると、auは文字コードをiso-2022-jpで処理しているのに対し、iPhoneではUTF8で処理しているために文字化けが発生しているとのこと。 au、UTF8に対応してくれよー まぁーいずれにしても、送り直してもらうのもなんですしぃ文字化けメールを見たい訳ですよ。 で、見る事ができたのでその方法を一応

  • 【インフォシーク】Infoseek : 楽天が運営するポータルサイト

  • JIS X 0212 (1990) to Unicode 陬懷勧貍「蟄励さ繝シ繝芽。ィ

    unicode縺ョ螟画鋤陦ィ縺ッ繝ヲ繝九さ繝シ繝峨さ繝ウ繧ス繝シ繧キ繧「繝縺ョ繧ゅ�ョ繧剃スソ逕ィ縺励※縺�縺セ縺� JIS X 0212 (1990) to Unicode JIS X 0212 陬懷勧貍「蟄励�ッ螳溯」�縺輔l縺ヲ縺�縺ェ縺�迺ー蠅�繧ょ、壹>縺ィ縺翫b縺�縺セ縺� Shift-JIS縺ッ諡。蠑オ諤ァ縺後↑縺�縺ョ縺ァJIS X 0212 縺ッ螳溯」�縺ァ縺阪∪縺帙s Windows荳翫〒縺ッunicode(UTF-8縲ゞTF-16)縺ォ螳溯」�縺輔l縺ヲ縺�繧九′縲゛IS縺ォ縺ッ螳溯」�縺輔l縺ヲ縺�縺ェ縺�遲峨�ョ髯仙ョ夂噪縺ェ繧ゅ�ョ縺ィ縺ェ縺」縺ヲ縺�縺セ縺� JIS X 0212 (1990) to Unicode 陬懷勧貍「蟄励さ繝シ繝芽。ィ 蛹コ 轤ケ JIS UTF-8 UTF-16 螳滉ス�(UTF-8) -32 -32 0000 実体(UTF-8)

  • CJKという妄想 (#1298915) | MS IMEの変換効率悪化は開発が中国にシフトしたのが原因? | スラド

    まぁ、どうせ嫌中がうようよ出て来てまともな議論ができなくなりかねないので、先に前提をいくつかはっきりさせておきたい。 この件に関しては、中国側には全く責任なし、というか、中国人開発者も全く関係ない言語の開発させられていい迷惑というか、気の毒というか。 つか、犯人はアメリカ社の経営陣だよね。日支社も中国支社も蚊帳の外。 結局、あいつら、アルファベット言語以外に全く無関心で、「どうせ同じ漢字使ってるんだから開発は一緒でいいんじゃね? だったら市場規模のでかい中国で開発した方が効率が上がってコスト削減。出世早くなりそ。うはwwwオレ頭いいわwww」って経過が見え見え。 グローバル化の弊害、文化の淘汰ってまさにこれだよね。 #とはいえ、そのMS IMEですらLinuxのおぷそなFEPよかマシだと思う。問題は深刻だよ。 日支社の非開発系の社員も犯人グループの中に混じっている気がする。日人の中

  • Servlet Garden » Unicode and Character Sets (Translation)

    勉強を兼ねての勝手に翻訳シリーズ第3弾です。今回はJoel Spolsky氏のブログに掲載されていたThe Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)です。掲載されたのは2003年10月と、5年近く前のことなので、現状にそぐわないところもあるかもしれませんが、とても参考になる解説です。 ソフトウェ開発者なら絶対に最低限知っていなければならないユニコードと文字セットについて(言い訳はなしですよ!) 不可解なContent-Typeタグについてかつて疑問に思ったことはないでしょうか?おそらくHTMLファイルに書き込むものということは知ってるでしょうが、なんのためにそれなければいけないのかまでは知ら

  • Character Code Chronology

    1837年 Samuel Finley Breese Morseが、ニューヨーク大学で電信実験に成功。(9月4日) 1840年 Samuel Finley Breese Morseが、初期のモールス符号を含む特許United States Patent No.1647を取得。(6月20日) 1844年 Samuel Finley Breese MorseとAlfred Vailが、ワシントン〜バルチモアで電信実験に成功。(5月24日) 1848年 Friedrich Clemens Gerkeが、ハンブルグ〜クックスハーフェンでモールス電信を運用開始。(10月4日) 1849年 Carl August von Steinheilが、新たなモールス符号を提案。(4月) 1851年 Deutch-Österreichischer Telegraphenvereinが、モールス符号を決定。(10

  • UTF-8 - Wikipedia

    * 第1バイトがE0のときに第2バイトが80-9Fの範囲を、または同F0のときに80-8Fの範囲を取るものは冗長な符号化となるため許されない。第1バイトがEDのときに第2バイトがA0以上となるものはサロゲートペアのための符号位置にあたり、また同F4のときに90以上となるものはUnicodeの範囲外となるため、UTF-8ではやはり許されない。 Unicodeの符号位置を2進表記したものを、上のビットパターンのx, yに右詰めに格納する(最少のバイト数で表現するため、yの部分には最低1回は1が出現する)。符号化されたバイト列は、バイト順に関わらず左から順に出力する。 1バイト目の先頭の連続するビット "1"(その後にビット "0" が1つ付く)の個数で、その文字のバイト数がわかるようになっている。また、2バイト目以降はビットパターン "10" で始まり、1バイト目と2バイト目以降では値の範囲が

  • 機種依存文字劇場

    特定機種にのみ存在する文字のこと。 有名なものとしては98文字(PC-9801外字)などが該当する。これは丸付き数字、ローマ数字、98罫線などがそれである。 また98拡張漢字のもととなったIBM拡張漢字などもある。 これらはすべてWindowsでも表示可能なため、外字であることに気付かずに使用してしまう事例が増えてしまい、問題を起こすことが多い。また、Macintoshにも機種依存文字は存在する。 機種依存文字は特定の機種や環境(OS)に依存する文字であり、同一環境以外で表示させた場合、機器の誤動作(突如フロッピーディスクをアクセスする等)や、全く異なった文字に化けたりするため、使った場所には往々にして論争が起こる。また汎用的な文書の流通を目的とする場合には、当然ながら使用する事はできない。

  • 使えない文字

    #PCDATA #PCDATA(parsed character data)は解析の対象になるので、「<」, 「>」はそれぞれタグの開始, 終了と解釈されてしまいます。よって、直接記すのではなく文字を参照しなければならなりません。&は文字実体参照の開始記号として使われるので、それ以外の用途なら文字を参照します。HTML 4では1114111までISO 10646の文字コード位置で参照可能ですが、HTML 3.2は255までです。一覧表 ※HTML 4では10進数だけでなく16進数でも良いことになってはいますが、10進数の方が無難です。実体参照では大文字小文字が区別されます。 < → < (<) > → > (>) & → & (&) Å → Å (Å) å → å (å) CDATA CDATA(character data) は、文字データの終りを示す区切り子「</」の他にはマーク

  • Charset=Windows-1252 - 西ヨーロッパ一覧表(文字入力可能)

    Charset=Windows-1252(西ヨーロッパ文字) Western European アイスランド語、アフリカーンス語、イタリア語、インドネシア語、オランダ語、カタラン語、ガリシア語、スウェーデン語、スペイン語、スワヒリ語、デンマーク語、ドイツ語、ノルウェー語、バスク語、フィリピノ語、フィンランド語、フェロー語、フランス語、フリージア語、ポルトガル語、マレー語 Charset=Windows-1252 文字一覧表(入力Web検索)

  • character-sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

  • http://www.ingrid.org/java/i18n/encoding/shift_jis.html

  • ハイフンマイナス - Wikipedia

    ハイフンマイナス (hyphen-minus) あるいはアスキーハイフン (ASCII hyphen) は、ラテン文字とともに使われる記号 (-) であり、通常は半角幅の横棒である。約物のハイフン (‐) や演算記号のマイナス (−) の意味で使われる記号である[1]。ASCII、JIS X 0201などのISO/IEC 646系の文字コードや、ISO-8859-1などのISO/IEC 8859系の文字コード、UTF-8などのUnicode系の文字コードにおいて0x2Dの符号位置を持つ文字である。 概要[編集] ハイフンマイナスはタイプライター等の記号として入力が可能であった横棒の意味として、演算等で用いる(二項および単項)演算子のマイナスの用途と、欧文等で単語区切りに使用する約物のハイフン、単語途中での改行時に使用するソフトハイフン、区切りを表すダッシュなどの複数の意味で使用されていた。

  • JIS漢字とUCS (Unicode)の文字の対応・変換について

    セント記号 JIS漢字のセント記号(¢)はCENT SIGNである。対応するUCSのコードポイン トはU+00A2である。 ところが、これをUCSのFULLWIDTH CENT SIGNに変換するものがある。ASCII にもJIS X 0201にもセント記号はないので、これが「FULLWIDTH」になる理由 はない。従ってこの変換は不適切である。 ポンド記号 JIS漢字のポンド記号(£)はPOUND SIGNである。対応するUCSのコードポ イントはU+00A3である。 ところが、これをUCSのFULLWIDTH POUND SIGNに変換するものがある。 ASCIIにもJIS X 0201にもポンド記号はないので、これが「FULLWIDTH」になる 理由はない。従ってこの変換は不適切である。 否定記号 JIS漢字の否定記号(¬)はNOT SIGNである。対応するUCSのコードポイント は

  • PHPの文字化けを本気で解決する - ぎじゅっやさん

  • JIS X 0213とUCS-Unicodeとの対応について

    JIS X 0213からUCS/Unicodeへの変換 JIS X 0213:2004に規定されたもののうち、以下の25個の面区点位置はUCS/Unicodeにすでに収録済み(2文字からなる文字列で表すべきもの)であるため、UCS/Unicodeの一符号位置に対応づけることができません。このため、JIS X 0213:2004では、これらの面区点位置を2つの符号位置からなるUCS列に対応付けるよう規定しています(附属書4)。これは、UCS/Unicodeとの国際的な整合性の上に立てば、このとおり変換すべきと考えられます。 JIS X 0213 UCS/Unicode # [informal name for USI (cf. JIS X 0213:2004, 5.3, note 1)] 1-04-87 <304B, 309A> # [HIRAGANA LETTER BIDAKUON NGA

  • UTF FAQ

    Last update: 2014/08/09 (c)2000-2003,2007,2013-2014 seclan. All rights reserved. Homepage: http://seclan.dll.jp/ E-mail: seclan[ここはアトマークに置き換えてください]dll.jp Q. UTF って何? Unicode (または UCS) Transformation Format の略語です。今のところ、UTF-1, UTF-2, UTF-5, UTF-6, UTF-7, UTF-8, UTF-9, UTF-16, UTF-17, UTF-18, UTF-32 があります。しかし、実際使用されているのは、UTF-8, UTF-16, UTF-32 です。 Q. UCS って何? Universal Character Set の略語です。ISO 10646 の文

  • rails:1319

    From: SAITO Masaru <daisaito@l...> Date: Sat, 08 Jul 2006 22:53:25 +0900 Subject: [rails:1319] Re: FORMから送られてくる日語処理について 齋藤@横浜です。 >fujiokaです。 > >> そこまでというか、普通に今までPHPで開発をしていたときに >> フォームの文字コードとは違う文字コードでフォームデータが >> 送信されてくることはよくありましたので、開発する際の前提条件 >> として現在検証しているところです。 >> >> なので、想定する場面というのは、ほとんどの場面と言えると思います。 >> >お聞きしたいのですが、UTF-8でフォームを作った場合に、 >どうやったらUTF-8以外でデータをPOSTできるのですか? euc-jpでフォームを作ったときにshift_jisやut

  • 1