タグ

文字コードに関するseiunskyのブックマーク (20)

  • MySQLと「令和」その2 - tmtms のメモ

    MySQLでは異なる字が等しいと見なされることがあるということを書きました。 tmtms.hatenablog.com この動きはMySQLが独自に変なことをしているわけではなく、Unicodeの規則に従っています。 MySQL 8.0 のデフォルトのCollationは Unicode 9.0.0のUnicode Collation Algorithm(UCA) に従っています。 文字にはそれぞれ Weight という値が設定されていてソートに使用されています。この値が同じなら等しい文字とみなされます。 Collation utf8mb4 のデフォルトの Collation は utf8mb4_0900_ai_ci という名前ですが、これは次のような意味です。 名前の要素 意味 utf8mb4 charset名 0900 Unicodeバージョン9.0.0 ai アクセントの違いを無視

    MySQLと「令和」その2 - tmtms のメモ
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • 「文字列」について - 2014-11-07 - はてなるせだいあり

    序 「文字列を文字の列とみなす単純化」について議論がありますが、前提が抜け落ちてるように思うので書くことにします。 そもそもこの話はどのような文脈の上にあるかというと、テキスト処理 (wikipedia:en:Text_processing) の文脈になります。ここでいう「テキスト処理」とは plain text (wikipedia:プレーンテキスト) の検索・加工のことで、ここでは特に UNIX Text Processing の系譜が念頭に置かれています。つまり、複雑な装飾を含むリッチテキストではなく、処理の対象を ASCII 文字列といくつかの制御文字へと抽象化することで、正規表現のような強力な道具を用いた処理を可能とした世界です。UNIX でのお話ですから、ここでの具体的な処理の単位は char であり、全体としては char[] になります。この char の中身は上で述べたと

    「文字列」について - 2014-11-07 - はてなるせだいあり
    seiunsky
    seiunsky 2014/11/09
    はてブしてなかった
  • 文字コードに起因する脆弱性とその対策

    PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less

    文字コードに起因する脆弱性とその対策
  • 文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。

    「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。 それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。 間違いなどあればコメントなど頂けるとありがたいです。 それぞれの文字コードはどう違うのか? 日語の文字コードは大きく以下の2つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。 上で挙げた「文字コード」とは正確には「エンコーディング(文字符号化方式)」の事を指す。 文字符号化方式 文字集合って? 読んでそのまんま”文字の種類の集まり”。「キャラ

    文字コード(UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP)についての俺的まとめ - 今日もスミマセン。
  • 携帯の文字コードと絵文字の基礎知識 Mobile/Encoding - CodeRepos::Share - Trac

    携帯の文字コードと絵文字の基礎知識 説明 これは日の携帯電話の文字コードと絵文字まわりの仕様をまとめた資料です。Encode::JP::Mobile の開発の中で作成されました。 記述に関してはできるだけ公式資料の URL を併記していますので合わせて参照してください。公式資料に言及されていない内容については [unofficial] を併記してあります。 修正・追記歓迎です。 DoCoMo 絵文字リスト: 基 http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/basic/index.html 拡張 http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/extention/index.html DoCoMo Web 表示できる c

  • 2010-02-14 - 未来のいつか/hyoshiokの日記

    例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。 例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe

    2010-02-14 - 未来のいつか/hyoshiokの日記
  • ActionScript3.0を極める | readMultiByte

    ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ sat (07/23) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ (06/29) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ sat (08/28) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ zonoz (08/28) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ zonoz (08/28) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ sat (08/28)

  • 日本語文字コード

    フォームメール(mb_send_mail)php ジェネレーター オープンフォトライブラリー自由に画像を登録・紹介できます 文字コード(日語漢字コード表) 日語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、 ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。 その解決に少しでもお役に立てれば幸いです 文字コード表(実体) シフトJISコード表 Shift-JIS による一覧表 EUCコード表 EUC-JP による一覧表 JISコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり

    seiunsky
    seiunsky 2009/08/19
    おぉ、すごい。これは昨年くらいに知っていれば有効活用できたのにな・・・><
  • 入力文字数チェック | _level0 - KAYAC Front Engineer Blog

    Flex で入力文字数は maxChars で制限できる。 <?xml version="1.0" encoding="utf-8"?> <mx:Application xmlns:mx="http://www.adobe.com/2006/mxml" layout="vertical"> <mx:Text text="入力制限チェック"/> <mx:TextInput id="aTextInput" styleName="aTextInput" width="200" height="21" maxChars="10" /> </mx:Application> でもこれでは、半角全角関係なく 10 文字で制限される。 半角20字以内、全角10字以内で制限したいとき ByteArray を使ってチェックします。 <?xml version="1.0" encoding="utf-8"?>

    入力文字数チェック | _level0 - KAYAC Front Engineer Blog
    seiunsky
    seiunsky 2009/08/13
    Flash ってクライアントに関わらず 入力文字コードは SJIS なん?
  • Web上の日本語EUCデータに指定すべきエンコーディングは何か - なるせにっき

    語EUCは当初、G0にUS-ASCII、G1にJIS X0208-1990、G2にHalf Width Katakana、G3にユーザ定義文字が定義されていました。その後、これを拡張しつつ多くの亜種が作られました。まずはこの亜種のうちの主要なものを挙げます。 まず、日語EUCの国家標準は結局作られませんでしたが*1、IANA Character Set Registry*2に登録されているEUC-JP*3(以下、この仕様をeucJPと呼ぶ)は「標準」にかなり近いものということができるでしょう。これはG0にUS-ASCII、G1にJIS X0208-1990、G2にHalf Width Katakana、G3にJIS X0212-1990を指定しています。つまり、このエンコーディングはJIS X 0212を収録しているのが特徴です。 次に、eucJP-open系があります。このエンコー

    Web上の日本語EUCデータに指定すべきエンコーディングは何か - なるせにっき
  • utf-8 の代わりに iso-2022-jp-2

    テキストに複数言語を含めたい。そう思う人は多いと思う。ドイツ語のウムラウト、フランス語のセディーユ、スペイン語のひっくり返ったクエスチョン・マーク、ギリシア文字にキリル文字、そして朝鮮のハングルに中国の簡体字。世界には色んな言葉と文字が溢れていて、数えるだけでも一苦労。そんな沢山ある文字を一つの文字コード系で扱おう、という取り組みが Unicode で、そのエンコーディング・スキームの一つ utf-8 は耳にすることも多いと思う。今回は、有名な utf-8 ではなくて、iso-2022-jp-2 という耳なれないエンコーディング・スキームもあるよ、というお話。 具体的には何ができる? iso-2022-jp-2 は RFC 1554 で定義されていて、英語と日語の他に次の文字集合を扱うことができる。 ISO-8859-1 ラテン文字 1 (ドイツ語、フランス語、スペイン語などのアクセント

    seiunsky
    seiunsky 2009/08/05
    ISO2022-JPとISO2022-JP2の違い
  • 第4回 Ruby M17N 事始め:文字コード編 | gihyo.jp

    はじめに 今回は文字列を扱う際には忘れてはならない文字コードについて、日人が知っておくべきエンコーディングを中心に解説していきます。 US-ASCII ASCIIは、ASA(American Standards Association、のちにUSASIを経てANSI)によって、1963年6月17日にASA X3.4-1963として制定され、1967年7月7日にUSASI(United States of America Standards Institute、ASAから1966年8月24日に改組)によってUSAS X3.4-1967へと改訂されてほぼ現在の形となりました。 その後の多くの文字コードがASCIIのスーパーセットとして作られたため、ASCIIは共通のサブセットとして特別な位置に置かれるようになりました。RubyでもASCIIに含まれる文字のみで構成されるStringは、ASC

    第4回 Ruby M17N 事始め:文字コード編 | gihyo.jp
    seiunsky
    seiunsky 2009/08/03
    ISO-2022-JP の説明が意味わかんねー。。。ステートフルだからダミーってどういうことですか><
  • ActionScript3.0を極める | URLLoaderで取得したデータをutf-8にデコードする

    フィードがshift-jis, euc-jpの場合文字化けするとかはサーバ側で処理してるから、私は関係ないが AIRで開発で困ったので以下覚え書き readMultiByteで文字コードを指定→ Stringオブジェクトに変換 で対応できる #shift-jis → utf-8 var byteArray:ByteArray = event.target.data as ByteArray; var html:String = byteArray.readMultiByte(byteArray.length, "shift-jis"); #euc-jp → utf-8 var byteArray:ByteArray = event.target.data as ByteArray; var html:String = byteArray.readMultiB

    seiunsky
    seiunsky 2009/06/18
    UTF-8 への文字コード変換
  • 第7回■文字エンコーディングが生み出すぜい弱性を知る

    文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。 文字エンコーディングに依存する問題をさらに分類すると2種類ある。(1)文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と,(2)文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。 不正な文字エンコーディング(1)――冗長なUTF-8符号化問題 まず,(1)の不正な文字エンコーディングの代表として,冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン(表1に再掲)を見ると,コード・ポイントの範囲ごとにビット・パターンが割り当てられているが,ビット・パターン上は,より多くのバイト数を使っても同じコー

    第7回■文字エンコーディングが生み出すぜい弱性を知る
    seiunsky
    seiunsky 2009/03/08
    文字コードによる脆弱性
  • へぼへぼCTO日記 - libmysqlclientを使うプログラムはset namesをutf8であっても使ってはいけない

    mysql_enable_utf8 => 1 で DBIC::UTF8Columns 要らなくなるっぽいComments 上記の記事のブクマに set namesを直接実行しちゃうのはutf8であってもコンパイルオプションによっては問題起こるのでお勧めできない http://b.hatena.ne.jp/nihen/20090204#bookmark-11950629 ってことを書かせてもらったんだけど、この最後のset namesはutf8でも使っちゃダメという話を軽く説明します。 まずは、基的なことはMySQL5開拓団 - 日語処理の鉄則 / KLab株式会社を読んでください。mysqlの日語処理についてのドキュメントとしては、私は今一番信頼できるドキュメントだと思っています。 さて、上記のページのを、勝手ながらすべて引用させていただくことにする。(手抜きもいいところだな) ■

  • Japanese Filename|RFC2231の誤り

    目次 はじめに MIME ヘッダ ファイル名の記述方法 現状の Windows のメイラーにおける日語ファイル名の取り扱い RFC 2231 RFC 2231 の誤り はじめに Windows のメイラーでは日語のファイル名の付いた添付ファイルを扱えるものがほとんどであるが、その実装は正しいのであろうか? 実はほどんどが誤りである。しかし、誤りではあるが同じ方法を実装していれば相互間の運用にはそれほど不都合はないため、Windows しか使っていないユーザーは誤りであることに気が付かないことが多い。定義されていない実装であるから当然のことながら、正しい実装をしている IMAP サーバやメイラーではそのファイル名を認識できない。末転倒である。そこで、ここでは添付ファイルにおける日語のファイル名について考察を行っていくことにする。 MIME ヘッダ まず、この文書を理解するために必要な

    seiunsky
    seiunsky 2008/12/05
    RFC2231の資料って少ないんだよな。Thunderbird だと RFC2231 なフォーマットで来る
  • character-sets

    Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or

    seiunsky
    seiunsky 2008/12/01
    文字コードのおそらく、正式名称
  • OSDIR

    seiunsky
    seiunsky 2008/08/13
    glibcへの文字コードパッチ
  • 文字化け - BugbearR's Wiki

    2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ 日記 2016-11-17 当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時 バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25

  • 1