タグ

文字コードに関するwushiのブックマーク (18)

  • 新たな元号はJIS X 0213に入るのか | yasuokaの日記 | スラド

    いつか遠い未来に新たな元号が決まったとして、それはJIS X 0213に収録されるのか、という趣旨の質問をいただいた。現在、1-13-77「㍾」、1-13-78「㍽」、1-13-79「㍼」、1-13-63「㍻」がJIS X 0213に収録されているので、これに新たな元号が追加されうるのか、という疑問である。私(安岡孝一)個人の意見としては、かなり難しそうだと思う。というのも、これらの『国内実装互換文字』は、以下のような経緯で選定されたからだ(JIS X 0213:2000解説p.511)。 4.4.12 国内実装互換文字 この規格では,過去の資産との互換性を維持するため,国内のパーソナルコンピュータなどで広範に実装されていた1面13区のJIS外字については,非漢字の選定の規準の適用を除外することととし,JIS X 0208と重複しているものを除いた73文字を,面区点位置を保存して採録するこ

    新たな元号はJIS X 0213に入るのか | yasuokaの日記 | スラド
  • Unicodeの基本から解説。新元号「令和」の「令」がUnicodeに2つある理由 – cod-log

    はじめに 新元号発表 日4/1お昼ごろ、新元号が「令和」と発表されました。 さて、この新元号に含まれる「令」という文字ですが、これは「CJK互換漢字」といわれるUnicodeにおける特定のグループに含まれる文字のひとつであり、Unicodeに同一の「令」という文字が、ふたつ含まれているのです。 記事は、 Unicodeについての基知識 CJK互換文字とは何か? 「令」がなぜ、CJK互換文字に含まれるのか? アプリケーション開発への影響 について調査してまとめたものです。 Unicodeについて CJK互換漢字について理解するためには、まずUnicodeの理念およびUnicodeのラウンドトリップ変換互換性の原則についてを理解する必要があります。 Unicodeとは Unicode(ユニコード)は、16ビットの整数値で表した符号位置と、文字とを対応付ける規格のことです。 「符号位置」と

    Unicodeの基本から解説。新元号「令和」の「令」がUnicodeに2つある理由 – cod-log
  • 新元号「令和」と文字コード(主にUnicode)の問題

    境 真良@iU/GLOCOM/IPA(あーりん推し/芸能人スキャンダルネタ要らない) @sakaima 「令和」ですが、「令」はUnicode「U+4EE4」、UTF-8だと「E4 BB A4」、シフトJISだと「97DF」、また「和」はUnicode「U+548C」、UTF-8で「E5 92 8C」、シフトJISだと「9861」です。とりあえずご参考まで。 #さてお仕事ですよ 2019-04-01 11:46:49

    新元号「令和」と文字コード(主にUnicode)の問題
  • Maildirでの日本語フォルダの扱い(procmailで日本語フォルダへ振り分ける) - hylom's

    最近procmailでメールの振り分けをしているのだが、日語のフォルダへの振り分けってどうするの? と悩んだので調べた。 命名規則自体はRFC2060に記載されているとおり、UTF-7の修正版が用いられている(UTF-7についてはIT用語辞典を参照のこと)。 Maildir以下のサブフォルダはこの規則に従って作成されるので、目的となる日語フォルダ名を修正版UTF-7(IMAP-UTF7などとも呼ばれる)に変換し、それを振り分け先として指定すれば良い。 IMAP-UTF7への変換は文字コード変換ツールがあるので、こちらを使えばお手軽。たとえば「登録関係」というフォルダなら、「.�dnuTMpWiT8I-」というフォルダ名となる。

  • HTMLの文字コードをどうするべきか、あるいはHTMLとは何かという話 | なすびブログ

    HTML文書は文字エンコーディングUTF-8でなければなりませんという記事があり、混乱があるようなのでHTMLについてHTML5とHTML Living Standard(以下HTML LSと省略)について、そしてHTMLファイルの文字コードをどうするかについて、まとめておきます。 TL;DR HTMLファイルの文字コードはHTML Living Standardに従ってUTF-8にする 古いSJISやEUC-JPのHTMLファイルをUTF-8に変換する必要はない What is "HTML" ? 一般にHTMLと呼ばれる規格には複数あります。 HTML4.01を含むそれ以前のHTML (W3C) XHTML1.1 (W3C) HTML5.1 (W3C) HTML Living Standard (WHATWG) まず一旦古い話は置いておいて、HTML5とHTML LSについて考えることに

    wushi
    wushi 2017/10/10
    こういうのほんとありがたい
  • 「Unicode 10.0」で変体仮名285文字や縦書きレイアウト仕様を追加 CJK統合漢字拡張Fの7473文字、絵文字56種類も

    「Unicode 10.0」で変体仮名285文字や縦書きレイアウト仕様を追加 CJK統合漢字拡張Fの7473文字、絵文字56種類も
  • 文字コードの判別

    [vim] viでの文字コードはset encodingにて指定できる。設定ファイルに以下のように記述しておけばよい。 set encoding=euc-jp set fileencodings=iso-2022-jp,sjis,utf-8 現在の設定を確認するには以下のようにします。 #文字コードの確認 :set enc? #ファイルエンコードの確認 :set fenc? #自動判別の設定確認 :set fencs? « viエディターでの画面分割 | | コピー & ペースト »

    wushi
    wushi 2012/07/09
    encodingで画面の入出力、fileencodingでファイルの文字コードを設定する。ファイルを開いてからfileencodingをsetした場合はファイルの再読み込みが必要。Ctrl-l(再描画)では反映されないので注意
  • HTML Document Representation (ja)

    この章では、HTML文書がコンピュータ内部やインターネット上でどのように表現されるかを記す。 文書文字集合の節では、どんな抽象文字がHTML文書を構成し得るかという話題を示す。ここで扱う文字には、ラテン文字の「A」やキリル文字の「И」、漢字の「水」などが含まれる。 文字符号化方法の節では、これらの文字が、ファイル中にある際やインターネット上を転送される際にどのように表現されるかという話題を示す。文字符号化方法の中には、著者が文書に含めたい文字のすべてを直接表現できないようなものもあるため、HTMLでは文字符号化方法とは異なる文字参照という機構を用いてあらゆる文字を参照できるようになっている。 人類の言語全体では膨大な数の文字が存在し、この文字を表現する方法も非常に多様であるため、世界中のユーザエージェントが文書を理解できるよう、細心の注意を払う必要がある。 5.1 文書文字集合 相互運用性

    wushi
    wushi 2011/06/15
    5.2.2 文字符号化方法の指定に文字コード指定の優先順位の記述がある
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
  • KDDI/AUでutf-8のHTMLフォームから送られてくる絵文字コード - Bulknews::Subtech - subtech

    はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

    KDDI/AUでutf-8のHTMLフォームから送られてくる絵文字コード - Bulknews::Subtech - subtech
  • びぼうろく―JIS2004日本語文字セット規格参加者は全員、頭を丸めて土下座せよ (コメント欄)

    この日の私の心無い投稿により、関係者の皆様にたいへん不愉快な思いをさせました事、深くお詫びします。 今日のネタは工学の話でも文学の話もない。 今日のネタを私がどのカテゴリに分類したのかを意識して読んで欲しい。 私は、JIS2004日語文字セットの規格(JIS X 0213:2004)は廃棄すべきであり、JIS2004で追加・変更された文字は、既存の文字コードに割り当てられた文字の字形を変えるべきではなく、Unicodeに追加するだけでお茶を濁すべきだと進言します。 サロゲートペアの問題を取り沙汰す人もいるが、これだけITの処理能力・情報量・伝達速度が伸びている中で、文字長が長くなる事に何を抵抗してるんだか。 ややこしいと思ったら全ての文字をサロゲートペアにしろよ、バカ(笑) 人の名前は人格を表します。 なので、その真名を勝手に変更するような規格の改悪は人格を否定する

  • Outlook Express

    wushi
    wushi 2007/07/13
    Outlook Expressの「送信」設定で何を選ぶとSubjectとMessage bodyがどうなるか。わかりやすい
  • JIS漢字コード表の改正について−報道発表−経済産業省

    漢字コードに関するJIS規格であるJISX0213(7ビット及び8ビットの2バイト情報交換用符合化拡張漢字集合)が2月20日に改正される。この改正のポイントに関する資料を配付する。

    wushi
    wushi 2007/07/10
    よく使う漢字だとしんにょうが二つ点になってる
  • 「私のために争わないで」文字コードのUTF8さん、自殺 - bogusnews

    文字コード・エンコーディング体系として知られるUnicode UTF8さん(9歳)が11日、都内で自殺していたことがわかった。関係者によれば、このところ周囲で論争や誹謗中傷が絶えないのを苦にふさぎこむことが多かったという。葬儀は故人の遺志により密葬となる予定。 UTF8さんはエリートで有名なUnicode家の末妹。ここ数年、「I18Nでラクできる」「なんかカッコイイ」と勘違いしたプログラマのあいだで採用が進んだことから華やかなセレブ生活を送っていたが、 カネ(特に円)に弱い 波打ちぎわをダッシュすると右左もわからなくなる低脳 天然キャラの演出のつもりか、いつもデカい辞書を抱えていてウザい 実の親ではなく、サロゲート夫婦に産んでもらったらしい 古いワーキングブラウザに冷たい、格差社会の象徴 などの批判や中傷にさらされるようになり、最近は落ち込みがちに。親しかったBOMさんによれば心療内科に通

    「私のために争わないで」文字コードのUTF8さん、自殺 - bogusnews
    wushi
    wushi 2007/05/14
    文字は死にますか?なんというマニアックな
  • http://www.tietew.jp/articles/2007/02/07/misunderstood-html-escaping

  • yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

    (Last Updated On: 2016年3月3日)最近PostgreSQLMySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。 参考:セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQLMySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト~6バイト必要なのか

    yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
  • http://blog.livedoor.jp/yutakakn/archives/50307700.html

    wushi
    wushi 2005/12/05
    面白そう
  • 2004 JIS をめぐる混乱

    2004 JIS ( JIS2004 )について、問題となる混乱を解説します。 [ 2005.08.12. ] ※ この文書の目的は、誰かを非難または攻撃することではなくて、 世間にある誤解または錯覚をほどくことです。 ★ 「個々の文字をどう使えばいいのか」という 実用的な結論については、 下記のページをご覧ください。 → Open ブログ 「文字使用の指針・まとめ」 このページには、「指針1」「指針2」「指針3」というリンクもあります。 ★ 文書では、学術的 ・理念的 ・原理的 な 話題 を主に扱います。 文書を公開したあとの新しい情報ついては、次のページをご覧ください。 → Open ブログ 「文字規格」 ここには、細々とした話題がいろいろとあります。 「2004 JIS をめぐる混乱」について語ろう。 新しい漢字規格の問題については、2005年7月末にマイクロソフトが方針を示して

    wushi
    wushi 2005/08/17
    なんでいまごろこの記事が注目エントリーに……?
  • 1