タグ

文字コードに関するtwainyのブックマーク (4)

  • ホワット・ア・ワンダフル・ワールド プログラミング言語の構文にチルダを使ってはいけない !

    チルダは ASCII の標準文字じゃありませんから ! 残念 ! ASCII の範囲の文字列や文字 (パーサやエラーメッセージの表示など) は,面倒なのでそのままリテラルとしてソースコード中に埋め込んでいたのですが… 実は,ET 言語の情報付き変数に使われるチルダ (~) ,こいつは環境によって 0x7E (ASCII) だったり,0x203E (UCS4) だったりと,思いっきり機種依存文字らしいです. まんまとハマりました… orz もうイヤン(;´д`)ノ とりあえず,0x203E とかお茶を濁しているけど,良くないよねぇ. なんで今まで一応動いていた (?) んだろう.ファイルの保存時のエンコードとか ? テストとか,当にテキトーなのがバレバレですなぁ (;^_^A えーっと、それを言い出したらバックスラッシュもまずいですがな。 とりあえず、チルダはUnicodeでも U+007

  • yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須

    (Last Updated On: 2016年3月3日)最近PostgreSQLMySQL両方にSJISエンコーディングを利用している際のエスケープ方法の問題を修正がリリースされています。この件は単純に「データベースシステムにセキュリティ上の脆弱性があった」と言う問題ではなく「アプリケーションの作り方を変える必要性」を提起した問題です。 参考:セキュアなアプリケーションのアーキテクチャ – sandbox化 PostgreSQLMySQLの脆弱性は特にSJIS等、マルチバイト文字に\が含まれる文字エンコーディングが大きな影響を受けますが、同類の不正な文字エンコーディングを利用した攻撃方法が他の文字エンコーディングでも可能です。例えば、UTF-8エンコーディングは1文字を構成するバイト列の最初のバイトの何ビット目までが1であるか、を取得してUTF-8文字として1バイト~6バイト必要なのか

    yohgaki's blog - これからのプログラムの作り方 - 文字エンコーディング検証は必須
    twainy
    twainy 2006/06/14
    mb_check_encoding関数、壊れた文字は削除しない
  • 2006-04-17

    パソコンで最もよく利用されているエンコーディングの一つがシフトJISなのだが、その誕生については、なかなかまとまった資料がない。当時の関係者の証言を断片的にまとめたものしかない。 まづ小形さんの以下のBLOGとコメントを読む。当時の当事者が証言をしている。 http://d.hatena.ne.jp/ogwata/20051228/p1 シフトJISを発明したのは誰か? http://d.hatena.ne.jp/ogwata/20051229/p1 シフトJISを発明したのは誰か?(2) http://d.hatena.ne.jp/ogwata/20051230/p1 「BASIC80を漢字化した経理専用マシン」のこと http://d.hatena.ne.jp/ogwata/20060102/p1 たくさんのコメント、ありがとうございます 安岡さんの日記も参考になる。 http://s

    2006-04-17
  • 日本の文字コードとUnicodeとの変換

    の文字コードとUnicodeとの変換についての標準化検討 Discussion on standardization of the conversion between Japanese coded character sets and Unicode 情報交換記述言語調査研究委員会(DDFD) WG1 編集: 村田 真、風間 一洋 $Date: 2003/10/04 04:51:15 $ 日国内で使われている文字コードとUnicode の変換規則について、次世 代コンテンツ調査研究委員会WG2 で検討し、 情報交換記述言語調査研究委員会(DDFD) WG1はこれを引き継いでさらに検討した。現実にいくつかの相異なる変 換規則が使われており、Unicodeを国際化の基としたOS, アプリケーション, フォーマットにおいて,国内文字コードにある文字が意図したとおりに表示又 は変換されな

  • 1