タグ

文字コードに依存に関するFTTHのブックマーク (10)

  • 絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道

    Unicodeが携帯電話の絵文字を収録へ 絵文字ってなに?そう聞かれても多くの人は、ああ、それはと答えられるはず。そう言えばちょっと前に『メールのハートマークにだまされるな! 8割の女性は「恋人以外にも使う」』(RBB NAVI)なんていうニュースもありました。携帯電話の個人普及率が9割を上回る(平成20年内閣府消費動向調査)この国において、絵文字はごくありふれたものになっている現実があります。 2008年の11月27日、Googleが携帯電話で使われる絵文字を国際的な文字コード規格、Unicodeに収録しようというプロジェクト進行中であることを発表しました。では、このニュースは何を意味するのでしょう。そして私たちに何をもたらすのでしょう。今回から3回に分けて考えてみようと思います。 まず歴史を振り返ってみましょう。じつは絵文字を使ったのは携帯電話が最初というわけでありません。先行するもの

    絵文字が開いてしまった「パンドラの箱」第1回--日本の携帯電話キャリアが選んだ道
  • 眉毛いろいろ - しろもじメモランダム

    キモすぎなんだけどマジ!誰こいつを流行らそうとしている奴は! 誰だよこいつを面白いって言った奴は出てこいよ!ぶっころしてやるよ俺が! きーめーなまじキモカワイイとか言ってまじで! その顔文字、俺の顔にクリソツなんだよ!そういうタグ要らねぇからこれ! [( ・ิω・ิ)]ってタグは付けるな! [( ・ิω・ิ)]ってタグは付けるな! はてなブックマーク - [( ・ิω・ิ)]ってタグは付けるな! はてなブックマーク - はてなブックマーク - [( ・ิω・ิ)]ってタグは付けるな! え? 別にかわいいと思うんだけど……( ・ิω・ิ) ちなみに眉毛【 ิ】の正体は、U+0E34 の “THAI CHARACTER SARA I”。前にある子音字にくっつき、短母音 [i] を表すらしい。これが半角中黒(U+FF65; HALFWIDTH KATAKANA MIDDLE DOT)の眼【・】と

    眉毛いろいろ - しろもじメモランダム
  • PHPにおけるUnicode文字列の正規化:CodeZine

    はじめに 与えられた文字列を含む文書を返す検索機能を実装しているところを想像してください。 検索語として「ページ」が与えられれば、「ページ」という文字列を含む文書を返します。これは特に難しいことではありません。 半角の「ページ」が与えられたらどうでしょう。「ページ」と「ページ」を区別する必要がないような、一般的な文書検索においては、「ページ」という文字列を含む文書を返すのが望ましいはずです(もちろん、この2つは常に同一視できるわけではありません。同一視できない例として稿があります)。 もしかしたら、「㌻」で検索しようとする人がいるかもしれませんし、日語を母国語としない人が、「ぺ」(「ヘ」と半角の半濁点「゚」)や「ヘ゜」(半角カナ「ヘ」と半濁点「゜」)を使うかもしれません。 人間なら簡単に対応できることですが、コンピュータで対応するには特別な処理が必要になります。例えばUnic

  • 続: そろそろUTF-7について一言いっとくか - 葉っぱ日記

    史上空前のEUC-JPブームはとりあえずおいておいて、今日も最強の文字コードであるUTF-7について。 これまで私の中では、UTF-7によるXSSを避けるためには、Shift_JISやUTF-8といった、IEが受け入れ可能なcharsetをHTTPレスポンスヘッダまたは<meta>で明記してやればよいという理解でした。 具体的には、HTTPレスポンスヘッダで Content-Type: text/html; charset=Shift_JIS とするか、生成するHTML内で <meta http=equiv="Content-Type" content="text/html; charset=Shift_JIS"> とすれば、UTF-7によるXSSは防げると思っていました。ところが、後者の<meta>によるcharsetの指定では、条件によってXSSが防げないことがあるということに気付きま

    続: そろそろUTF-7について一言いっとくか - 葉っぱ日記
  • ブラウザによって異なる画像を表示する - 葉っぱ日記

    世間では史上空前の参考文献記述ブームだそうですが、そんなことは気にせずにとりあえずhoshikuzuさんの出題された『詰めHTML』で遊んでみました。 ちょっと思い出したのでクイズを書いてみます。 以下の条件で、IEでは、imgie.gif、 Firefoxでは、imgfx.gif、その他多くののブラウザでは、imgother.gif ノミを表示するHTMLを作ってください。 JavaScriptなどのスクリプトは使わない CSSを通じてハックしない HTMLの書き方のみで勝負するが、validでなくても良い 書いてみたのはこれ。 http://openmya.hacker.jp/hasegawa/test/hoshikuzu20070925.html IEだとモヒカンの人が、Firefoxだと今夜わかる人が、それ以外のブラウザだと危険文字メタ文字の中の人が表示されると思います。「それ以外

    ブラウザによって異なる画像を表示する - 葉っぱ日記
  • Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記

    「それ Unicode で」などで紹介されている、Unicode の U+202E (RIGHT-TO-LEFT OVERRIDE; RLO)を使って拡張子を偽装された exe ファイルの実行を抑止する方法を思いついた。 メモ帳を開いて、"**"と入力する(前後の引用符は不要)。 "*"と"*"の間にキャレット(カーソル)を移動させる 右クリックで「Unicode 制御文字の挿入」から「RLO Start to right-to-left override」「RLO Start of right-to-left override」を選択 Ctrl-A で全て選択、Ctrl-C でクリップボードにコピー。 ローカルセキュリティポリシーを開く 画面左側の「追加の規則」を右クリック 「新しいパスの規則」を選択 「パス」欄で Ctrl-V をして、メモ帳の内容を貼り付ける。 セキュリティレベルが「

    Unicodeで拡張子を偽装された実行ファイルの防御方法 - 葉っぱ日記
  • それ Unicode で

    UTF-7 を使ってスクリプトを記述 +ADw-SCRIPT+AD4-alert(\'XSS\');+ADw-+AC8-SCRIPT+AD4- IE は、文字エンコーディングが不明で UTF-7 っぽい文字列があれば、自動判別で UTF-7 となる。

  • htmlspecialchars/htmlentitiesの正しい使い方 - Do You PHP はてブロ

    ENT_COMPATのオプション名からも分かるように、最初の実装では'をエンティティ変換しない危険性を知らなかったため"のみをエンティティ変換(エスケープ)するように実装してしまった、と思われます。 : 不正な文字エンコーディングを利用した攻撃を防ぐためにも3つ目の引数も指定する方が良いです。正しい(安全な)htmlspecialchars/htmlentiesの使い方は htmlspecialchars($str, ENT_QUOTES, 'UTF-8'); 等とするべきです。 : 参考になれば幸いです。 参考になります:-)

    htmlspecialchars/htmlentitiesの正しい使い方 - Do You PHP はてブロ
  • Firefox urlエンコード機能をUTF-8化する方法。

    「url に日語が含まれている場合の Firefox と IE の挙動の違い。」 というポストに対し,mac上のfirefoxやsafariだと大丈夫というコメントをhitさんからいただきました。で,挙動の差についていろいろ調べてみたんですが,参考になる情報がなかったので,もじら組の掲示板に「Firefoxのurlエンコード機能について」という記事を投稿してみました。 いろいろ参考になる意見や情報を得られました。多謝。 で,結論的には,現在のFirefoxはソースの文字コードをベースにurlエンコードしています。ですので,こちらのページのようにshift-jisで構成しているページからUTF-8で構成されているページへのアクセスにマルチバイトを含むと正常に文字として認識(復元)されません。 Firefox1.1(現在公開されているDeer Park alphaでも)ではUTF-8でurl

    Firefox urlエンコード機能をUTF-8化する方法。
  • FirefoxのEUCの独自拡張のセンスが最低な件について

    前回の記事について、説明が不足していたようで、404 Blog Not Found様からmultipart/form-data を忘れている とお叱りを頂いてしまいました。 えっと、誤解です。 multipart/form-dataを使っても状況はまったく変わらないことが分かったので説明を省略しただけです。 誤解をとくために前回の調査結果を簡単にまとめさせてください。 ・Webの世界でEUCといったらCP51932がデファクトスタンダードである ・これは来のEUCから補助漢字をなくして、かわりにWindows機種依存文字を 追加したものである。 ・しかし、FirefoxだけはCP51932+補助漢字という独自拡張EUCを採用している。 ・これはURL Encoding の%エスケープを解いたあとのデータが補助漢字に ついて生EUCとするか、数値文字参照とするか、という違いとして現れてくる

  • 1