タグ

資料と文字コードに関するiwwのブックマーク (8)

  • RFC 3492: Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA)

    [RFC Home] [TEXT|PDF|HTML] [Tracker] [IPR] [Errata] [Info page] PROPOSED STANDARD Updated by: 5891 Errata ExistNetwork Working Group A. Costello Request for Comments: 3492 Univ. of California, Berkeley Category: Standards Track March 2003 Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA) Status of this Memo This document specifies an Internet stan

  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++語リファレンス 追記 全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
  • StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita

    Original article:https://dev.to/dotnetsafer/rip-copy-and-paste-from-stackoverflow-trojan-source-solution-4p8f その昔コピペできない文章というものがありました。 実際は単にフォントを変えているだけというものですが、人間の目に見える文字と実際の文字が異なることを利用した攻撃の一種と見ることもできます。 さて、最近になって似たような攻撃に関する論文が公開されました。 人間には見えない文字を織り交ぜることによって、一見問題ないコードが実は脆弱になってしまうというものです。 ただ論文は堅苦しいうえに長くて読むのがつらいので、具体的に何がどうなのかよくわかりません。 平易に解説している記事があったので紹介してみます。 以下はDotnetsafer( Twitter / GitHub / Web

    StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita
  • ASCIIコードの秘密 - ザリガニが見ていた...。

    当はエスケープシーケンスのことを調べていたのだが、その前にASCIIコードについて調べることになってしまった...。文字コードの基として知っているつもりだったASCIIコードについて、あらためて見直してみると、実は当の意味をよく分かっていなかったことに気づいた。 ASCIIコード表 ASCIIコードは、7ビット(2進数7桁)の文字コードであり、全部で128のコードが定義されている。 最も基的な文字コードであり、その他多くの文字コードはこのASCIIコードと互換性を維持している。 00 10 20 30 40 50 60 70 00 NUL DLE SP 0 @ P ` p 01 SOH DC1 ! 1 A Q a q 02 STX DC2 " 2 B R b r 03 ETX DC3 # 3 C S c s 04 EOT DC4 $ 4 D T d t 05 ENQ NAK % 5

  • 文字コード表 シフトJIS(Shift_JIS)

    シフトJISの1バイトコード(半角文字)のエリア 0x00~0x1f、0x7f は制御コードです 0x20~0x7e はASCII文字です 0xa1~0xdf は半角カタカナです シフトJISの2バイトコード(全角文字)のエリア(JIS X 0208の漢字エリア) 上位1バイト  0x81~0x9f、 0xe0~0xef 下位1バイト  0x40~0x7e、 0x80~0xfc ですが機種に依存しない観点より、HTMLで以下の水色エリアは使用しないのが無難です 水色エリアはJIS X 0208 (1990) to Unicode 漢字コード表に存在しないコードです 0x8540~ 0x889e は機種依存文字の主なエリアです 0xeb40~ 0xeffc はMacOS では縦書用文字、Windows では特殊な外字エリアです 0xf040~ は外字エリアです(記載していません) perl

  • 〇(漢数字のゼロ)について

    まえがき 俗字の字典で、「〇:漢数字のゼロ」について触れました。しかし他の用事で資料をあさっているうちに、いろいろ面白いネタが集まってしまいました。もったいないので、稿にまとめておきます(貧乏性ですな)。 歴史的な考察 基的なトコだけ押さえておきます。 数字の「0」自体も、インドで7世紀ごろに成立したもの。それ以前には存在しない文字。 漢字の「零」は、『玉篇』・『説文解字』にもある古い字で、7世紀以前から存在する。意味としては「しずかに降る雨」とか。これを、いつから数字の「レイ、ゼロ」に当てたのかについては未調査。『諸橋大漢和』は「邦訓」とするが、中国でも例えば『漢語大字典』に新しい用例ではあるが数字のゼロの意で載っている。『大漢林』は「現代の用法」として数字のゼロの意をあげる。 和算など東洋の数学史関係を調べれば多分わかるのだろうけど、パラパラ立ち読みした限りでは見出せなかった。 日

  • 文字化け解説・文字化けパターンサンプル - instant tools

    目次 文字化け解説・文字化けとは 概説 「文字コード違い」によって発生する文字化けの仕組み 文字化け解説・「文字化けテスター」で復元率を高めるコツ クエスチョンマークに置き換えられている部分 単独で安全な文字 単独で復元できない文字 句読点 QuizKnockのYouTube動画の補足 文字化け解説・文字化けパターンサンプル 元のファイルがUTF-8の場合 元のファイルがSJISの場合 元のファイルがEUC-JPの場合 文字化けのパターンのサンプルです。 このページでは、HTMLファイルのヘッダの文字コード指定が間違っている場合などに ブラウザで開いた際に発生する文字化けについて、それぞれの文字化けを閲覧者のブラウザで実際に発生させる事ができるサンプルを用意しました。 対象の文字コードは、UTF-8・Shift_JIS・EUC-JPの3つとしました (2015年3月現在で、日語文字を表示

  • Shift JIS 2バイト目が0x5C等に成りうることによる問題 - Wikipedia

    Shift_JIS(シフトジス)は、コンピュータ上で日語を含む文字列を表現するために用いられる文字コードの一つ。シフトJIS(シフトジス)と表記されることもある[1]。 かつてはベンダーによる独自拡張を含む文字コード群を指した曖昧な名称であったが、1997年にJIS X 0208で標準化された。

    iww
    iww 2009/07/03
    よく使うだめ文字―ソⅨ噂欺圭構蚕十申箪貼能表暴予禄
  • 1