タグ

エスケープと文字コードに関するiwwのブックマーク (6)

  • fudist - Shift_JISのダメ文字

    Shift_JIS(SJIS, cp932) の文字コードで、2byte目が0x5c の \ になっているものの俗称(だめ文字、駄目文字) 0x5cの \ は使用するフォントやロケールによりバックスラッシュまたは¥記号で表示されます。 ダメ文字を含む文字列やパス、ファイル名を処理する場合には文字化け、検索不可など様々な不具合が起きることがあります。 ダメ文字には ー ソ 十 表 など、使用頻度の高いものもあるので cp932を扱う場合には注意が必要です。 また広義には2byte目が 0x7c のパイプ文字 | になっている文字や、2byte目が正規表現などのメタ文字と重なる文字も含む場合もあります。 ダメ文字問題は正規表現をはじめとする様々な言語、システムで制御用のメタ文字として扱われる文字と同じバイト列が、SJISの漢字の2byte目に含まれていることにより起こります。 特に 0x5c

  • URLエンコードとURLデコード webzoit.net

    URLエンコード・URLデコードとは CGIスクリプトなどでデータを送受信する際に使用されるもので、極力、文字化けを回避してどんな環境でも同じ結果を得るための手法です。 特に多バイト文字(マルチバイト文字、日語、韓国語、中国語等)を0と1からなる数字の並び(ビット・ビットパターン)で様々なことを処理する事ができるコンピュータが理解するにはいくつかの段階が必要です。 この時、データを送信する側、仲介する側、受け取る側などそれぞれウェブサーバやOSを含め様々な環境に対応する事から一般に文字コードと言われるEUC、ASCII、JISなどの標準規格で定められた文字体系もそれらの環境で基として使われるものも共通とは限りません。 ※URLはURIに含まれる定義でURIが公式の呼び方です(IRI/URI/URL/URN) こうした事からHTML、XHTMLからscript(スクリプト)に送信する際な

    URLエンコードとURLデコード webzoit.net
    iww
    iww 2013/12/04
  • CGI.pmに起因するHTMLの文字化け - すぎゃーんメモ

    CGIで掲示板を作ってみた。 http://www.sugyan.dynalias.com/~sugi/cgi-bin/cheapbbs.cgi どうも送信後にフォームの文字が化ける。おかしいなぁ。 ・・・と思ってググってみると、やっぱり情報があった!! CGI.pmtextfield(), popup_menu(), checkbox_group() などを使ったときに HTML が文字化けするときの対処方法 - 刺身☆ブーメランのはてなダイアリー これは、 CGI::escapeHTML() のエスケープ処理が原因 (textfield() などは内部で escapeHTML() を呼んでいるため、影響を受ける)。 いろいろなパターンを検証したわけではないが、 ソースコードの文字エンコーディングは UTF-8 出力する文字エンコーディングも UTF-8 のときに、文字化けがおこっ

    CGI.pmに起因するHTMLの文字化け - すぎゃーんメモ
    iww
    iww 2013/11/09
    $cgi->charset("utf-8");
  • Perl で url エンコードと url デコード

    Landscape トップページ | < 前の日 2003-08-30 2003-08-31 次の日 2003-09-01 > Landscape - エンジニアのメモ 2003-08-31 Perl で url エンコードと url デコード 当サイト内を Google 検索できます * Perl で url エンコードと url デコードこの記事の直リンクURL: Permlink | この記事が属するカテゴリ: [Perl] いろんなところで使いそうなのでメモ。 大崎さんの perl メモの URIエスケープ・アンエスケープする に詳しい。 http://www.din.or.jp/~ohzaki/perl.htm#JP_Escape - url encodesub url_encode($) { my $str = shift; $str =~ s/([^\w ])/'%'.unp

  • Text Escaping and Unescaping in JavaScript(Unicode の文字列をエスケープする JavaScript)

    Notes No data is sent to the server (i.e. everything is done in JavaScript). Conversion from Unicode to other encodings such as Shift_JIS can be slow first time as it needs to initialize internal conversion tables. Surrogate pairs in UTF-16 are supported. Try inserting \uD840\uDC0B in the second form. Three-byte characters in EUC-JP are not supported. Links JavaScript Unicode Charts Try GNU Libidn

  • エスケープシーケンスについて

    注) ESC[mと数値を省略するとESC[0mと同じ意味になる。(デフォルト値) ESC[a;b;...;xmとして複数指定が可能。 赤い文字を点滅させる場合、ESC[5;31mとする。 ESC[0mはメーカーの規定した初期値。 ESC[1mは強調でハイライトもしくは太字になる。 ESC[5mは点滅すなわちブリンクとなる。 ESC[7mはリバースすなわち反転となる。 ESC[8mは非表示で文字を見せないため、シークレットともいう。 色は、黄色を黄、マゼンダを紫、水色を水と表記した。 さらに、~地とすることによって、背景が~色であることを示している。 ③カーソル移動 a.移動, ESC[Y;XH または ESC[Y;Xf  カーソルをY行目のX桁目に移動する。 b.上, ESC[YA  カーソルをY行上へ移動する。 c.下, ESC[YB  カーソルをY行下へ移動する。 d.右, ESC[X

  • 1