[B! 文字コード] seiunskyのブックマーク

seiunsky id:seiunsky

文字コードに関するseiunskyのブックマーク (20)

MySQLと「令和」その２ - tmtms のメモ
MySQLでは異なる字が等しいと見なされることがあるということを書きました。 tmtms.hatena blog.com この動きはMySQLが独自に変なことをしているわけではなく、Unicodeの規則に従っています。 MySQL 8.0 のデフォルトのCollationは Unicode 9.0.0のUnicode Collation Algorithm(UCA) に従っています。文字にはそれぞれ Weight という値が設定されていてソートに使用されています。この値が同じなら等しい文字とみなされます。 Collation utf8mb4 のデフォルトの Collation は utf8mb4_0900_ai_ci という名前ですが、これは次のような意味です。名前の要素意味 utf8mb4 charset名 0900 Unicodeバージョン9.0.0 ai アクセントの違いを無視
seiunsky 2019/04/09
mysql

文字コード
リンク
「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。意味論的に等価な異なる字形の集合同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ
seiunsky 2017/03/13
ふええ

moriyoshi

文字コード
リンク
「文字列」について - 2014-11-07 - はてなるせだいあり
序「文字列を文字の列とみなす単純化」について議論がありますが、前提が抜け落ちてるように思うので書くことにします。そもそもこの話はどのような文脈の上にあるかというと、テキスト処理 (wikipedia:en:Text_processing) の文脈になります。ここでいう「テキスト処理」とは plain text (wikipedia:プレーンテキスト) の検索・加工のことで、ここでは特に UNIX Text Processing の系譜が念頭に置かれています。つまり、複雑な装飾を含むリッチテキストではなく、処理の対象を ASCII 文字列といくつかの制御文字へと抽象化することで、正規表現のような強力な道具を用いた処理を可能とした世界です。UNIX でのお話ですから、ここでの具体的な処理の単位は char であり、全体としては char[] になります。この char の中身は上で述べたと
seiunsky 2014/11/09
はてブしてなかった

文字コード

i18n
リンク
文字コードに起因する脆弱性とその対策
PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less
seiunsky 2010/09/26
文字コード

セキュリティ

security
リンク
文字コード（UTF-8,Shift_JIS,EUC-JP,ISO-2022-JP）についての俺的まとめ - 今日もスミマセン。
「プログラマのための文字コード技術入門」を読んで自分なりに理解した点をザックリとまとめてみる。それほど正確性を求めて書いているわけではないので、間違ってる可能性大です。間違いなどあればコメントなど頂けるとありがたいです。それぞれの文字コードはどう違うのか？日本語の文字コードは大きく以下の２つに分けられる JIS X 0208 文字集合をベースにしたもの Unicode文字集合をベースにしたもの JIS X 0208 文字集合をベースにした文字コードには、EUC-JP, Shift_JIS, ISO-2022-JP がある。 Unicode文字集合をベースにした文字コードには、UTF-8, UTF-16 などがある。上で挙げた「文字コード」とは正確には「エンコーディング（文字符号化方式）」の事を指す。文字符号化方式文字集合って？読んでそのまんま”文字の種類の集まり”。「キャラ
seiunsky 2010/07/12
文字コード

unicode
リンク
携帯の文字コードと絵文字の基礎知識 Mobile/Encoding - CodeRepos::Share - Trac
携帯の文字コードと絵文字の基礎知識説明これは日本の携帯電話の文字コードと絵文字まわりの仕様をまとめた資料です。Encode::JP::Mobile の開発の中で作成されました。記述に関してはできるだけ公式資料の URL を併記していますので合わせて参照してください。公式資料に言及されていない内容については [unofficial] を併記してあります。修正・追記歓迎です。 DoCoMo 絵文字リスト: 基本 http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/basic/index.html 拡張 http://www.nttdocomo.co.jp/service/imode/make/content/pictograph/extention/index.html DoCoMo Web 表示できる c
seiunsky 2010/04/20
携帯

資料

文字コード

モバイル
リンク
2010-02-14 - 未来のいつか/hyoshiokの日記
例えば、次の言葉の意味を知りたい、聞いたことがあるけどよく分かっていないプログラマにとって、お勧めの書籍だ。Unicode/UTF-8/UTF-16/USC-2/JIS X0208/JIS X0212/JIS X0213/SJIS/EUC-JP/CP932/ISO-2022-JP/ASCII/Latin-1/ISO 10646/ISO 8859-1/サロゲートペア/文字化け/機種依存文字/半角カナ/絵文字… JIS X0208やJIS X0213の解説などは圧巻である。書籍にはWebにない利点がある。Webには即時性があるが、文字コードの解説においては、即時性はそれほど求められない。字体ないし字形の差異についてWebではその字体ないし字形がなければ表現しようがないが、書籍であれば細部までこだわって表現できる。例えば、包摂された「辻」という字の一点しんにょうと二点しんにょうの字体の差はWe
seiunsky 2010/02/15
文字コード

プログラマ

本
リンク
ActionScript3.0を極める | readMultiByte
ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ sat (07/23) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ (06/29) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ sat (08/28) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ zonoz (08/28) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ zonoz (08/28) ムービークリップシンボルをライブラリから複製してステージに並べる ⇒ sat (08/28)
seiunsky 2009/12/09
air

文字コード
リンク
日本語文字コード
フォームメール(mb_send_mail)php ジェネレーターオープンフォトライブラリー自由に画像を登録・紹介できます文字コード（日本語漢字コード表）日本語漢字コード表が、Shift-JIS、EUC-JP、JIS、UTF-8と複数存在する事から、ホームページ作成・維持管理、データ収集をする上で、文字コードについての多くの諸問題が発生します。その解決に少しでもお役に立てれば幸いです文字コード表（実体）シフトＪＩＳコード表 Shift-JIS による一覧表ＥＵＣコード表 EUC-JP による一覧表ＪＩＳコード表 JIS による一覧表 JIS X 0201 (1976) to Unicode 文字コード表 Shift-JIS による一覧表 JIS X 0208 (1990) to Unicode 漢字コード表 Shift-JIS による一覧表(UTF-8のコードはこちらにあり
seiunsky 2009/08/19
おぉ、すごい。これは昨年くらいに知っていれば有効活用できたのにな・・・＞＜

encoding

charset

資料

文字コード
リンク
入力文字数チェック | _level0 - KAYAC Front Engineer Blog
Flex で入力文字数は maxChars で制限できる。 <?xml version="1.0" encoding="utf-8"?> <mx:Application xmlns:mx="http://www.adobe.com/2006/mxml" layout="vertical"> <mx:Text text="入力制限チェック"/> <mx:TextInput id="aTextInput" styleName="aTextInput" width="200" height="21" maxChars="10" /> </mx:Application> でもこれでは、半角全角関係なく 10 文字で制限される。半角20字以内、全角10字以内で制限したいとき ByteArray を使ってチェックします。 <?xml version="1.0" encoding="utf-8"?>
seiunsky 2009/08/13
Flash ってクライアントに関わらず入力文字コードは SJIS なん？

flash

as3

文字コード
リンク
Web上の日本語EUCデータに指定すべきエンコーディングは何か - なるせにっき
日本語EUCは当初、G0にUS-ASCII、G1にJIS X0208-1990、G2にHalf Width Katakana、G3にユーザ定義文字が定義されていました。その後、これを拡張しつつ多くの亜種が作られました。まずはこの亜種のうちの主要なものを挙げます。まず、日本語EUCの国家標準は結局作られませんでしたが*1、IANA Character Set Registry*2に登録されているEUC-JP*3(以下、この仕様をeucJPと呼ぶ)は「標準」にかなり近いものということができるでしょう。これはG0にUS-ASCII、G1にJIS X0208-1990、G2にHalf Width Katakana、G3にJIS X0212-1990を指定しています。つまり、このエンコーディングはJIS X 0212を収録しているのが特徴です。次に、eucJP-open系があります。このエンコー
seiunsky 2009/08/12
文字コード

charset
リンク
utf-8 の代わりに iso-2022-jp-2
テキストに複数言語を含めたい。そう思う人は多いと思う。ドイツ語のウムラウト、フランス語のセディーユ、スペイン語のひっくり返ったクエスチョン・マーク、ギリシア文字にキリル文字、そして朝鮮のハングルに中国の簡体字。世界には色んな言葉と文字が溢れていて、数えるだけでも一苦労。そんな沢山ある文字を一つの文字コード系で扱おう、という取り組みが Unicode で、そのエンコーディング・スキームの一つ utf-8 は耳にすることも多いと思う。今回は、有名な utf-8 ではなくて、iso-2022-jp-2 という耳なれないエンコーディング・スキームもあるよ、というお話。具体的には何ができる? iso-2022-jp-2 は RFC 1554 で定義されていて、英語と日本語の他に次の文字集合を扱うことができる。 ISO-8859-1 ラテン文字 1 (ドイツ語、フランス語、スペイン語などのアクセント
seiunsky 2009/08/05
ISO2022-JPとISO2022-JP2の違い

文字コード
リンク
第4回　Ruby M17N 事始め：文字コード編 | gihyo.jp
はじめに今回は文字列を扱う際には忘れてはならない文字コードについて、日本人が知っておくべきエンコーディングを中心に解説していきます。 US-ASCII ASCIIは、ASA（American Standards Association、のちにUSASIを経てANSI）によって、1963年6月17日にASA X3.4-1963として制定され、1967年7月7日にUSASI（United States of America Standards Institute、ASAから1966年8月24日に改組）によってUSAS X3.4-1967へと改訂されてほぼ現在の形となりました。その後の多くの文字コードがASCIIのスーパーセットとして作られたため、ASCIIは共通のサブセットとして特別な位置に置かれるようになりました。RubyでもASCIIに含まれる文字のみで構成されるStringは、ASC
seiunsky 2009/08/03
ISO-2022-JP の説明が意味わかんねー。。。ステートフルだからダミーってどういうことですか＞＜

ruby

encoding

文字コード
リンク
ActionScript3.0を極める | URLLoaderで取得したデータをutf-8にデコードする
フィードがshift-jis, euc-jpの場合文字化けするとかはサーバ側で処理してるから、私は関係ないが AIRで開発で困ったので以下覚え書き readMultiByteで文字コードを指定→　Stringオブジェクトに変換で対応できる #shift-jis → utf-8 var byteArray:ByteArray = event.target.data as　ByteArray; var html:String = byteArray.readMultiByte(byteArray.length, "shift-jis"); #euc-jp → utf-8 var byteArray:ByteArray = event.target.data as　ByteArray; var html:String = byteArray.readMultiB
seiunsky 2009/06/18
UTF-8 への文字コード変換

as3

flash

文字コード
リンク
第7回■文字エンコーディングが生み出すぜい弱性を知る
文字コードに関する問題は大別すると文字集合の問題と文字エンコーディングの問題に分類できる。前回は文字集合の取り扱いに起因するぜい弱性について説明したので、今回は文字エンコーディングに起因するぜい弱性について説明しよう。文字エンコーディングに依存する問題をさらに分類すると2種類ある。（1）文字エンコーディングとして不正なデータを用いると攻撃が成立してしまう点と，（2）文字エンコーディングの処理が不十分なためにぜい弱性が生じることがある点だ。不正な文字エンコーディング（1）――冗長なUTF-8符号化問題まず，（1）の不正な文字エンコーディングの代表として，冗長なUTF-8符号化問題から説明しよう。前々回に解説したUTF-8のビット・パターン（表1に再掲）を見ると，コード・ポイントの範囲ごとにビット・パターンが割り当てられているが，ビット・パターン上は，より多くのバイト数を使っても同じコー
seiunsky 2009/03/08
文字コードによる脆弱性

文字コード

xss

資料

security
リンク
へぼへぼCTO日記 - libmysqlclientを使うプログラムはset namesをutf8であっても使ってはいけない
mysql_enable_utf8 => 1 で DBIC::UTF8Columns 要らなくなるっぽいComments 上記の記事のブクマに set namesを直接実行しちゃうのはutf8であってもコンパイルオプションによっては問題起こるのでお勧めできない http://b.hatena.ne.jp/nihen/20090204#bookmark-11950629 ってことを書かせてもらったんだけど、この最後のset namesはutf8でも使っちゃダメという話を軽く説明します。まずは、基本的なことはMySQL5開拓団 - 日本語処理の鉄則 / KLab株式会社を読んでください。mysqlの日本語処理についてのドキュメントとしては、私は今一番信頼できるドキュメントだと思っています。さて、上記のページのを、勝手ながらすべて引用させていただくことにする。(手抜きもいいところだな） ■
seiunsky 2009/02/07
mysql

文字コード

文字化け

dbi
リンク
Japanese Filename｜RFC2231の誤り
目次はじめに MIME ヘッダファイル名の記述方法現状の Windows のメイラーにおける日本語ファイル名の取り扱い RFC 2231 RFC 2231 の誤りはじめに Windows のメイラーでは日本語のファイル名の付いた添付ファイルを扱えるものがほとんどであるが、その実装は正しいのであろうか？実はほどんどが誤りである。しかし、誤りではあるが同じ方法を実装していれば相互間の運用にはそれほど不都合はないため、Windows しか使っていないユーザーは誤りであることに気が付かないことが多い。定義されていない実装であるから当然のことながら、正しい実装をしている IMAP サーバやメイラーではそのファイル名を認識できない。本末転倒である。そこで、ここでは添付ファイルにおける日本語のファイル名について考察を行っていくことにする。 MIME ヘッダまず、この文書を理解するために必要な
seiunsky 2008/12/05
RFC2231の資料って少ないんだよな。Thunderbird だと RFC2231 なフォーマットで来る

rfc

mail

文字コード
リンク
character-sets
Last Updated 2022-07-14 Available Formats XML HTML Plain text Registry included below Character Sets Registration Procedure(s) Expert Review Expert(s) Martin Dürst Reference [RFC2978] Note These are the official names for character sets that may be used in the Internet and may be referred to in Internet documentation. These names are expressed in ANSI_X3.4-1968 which is commonly called US-ASCII or
seiunsky 2008/12/01
文字コードのおそらく、正式名称

iana

資料

charset

文字コード
リンク
OSDIR
seiunsky 2008/08/13
glibcへの文字コードパッチ

文字コード

glibc
リンク
文字化け - BugbearR's Wiki
2017-04-16 FreeBSD/mpd 2016-12-23 RecentDeleted Blogアプリ日記 2016-11-17 本当にあった怖いコード/1 2016-05-16 .NET 2015-07-06 書きたいこと 2015-07-05 postgres Java/変数の初期化に安易に空オブジェクトを代入しない 2015-06-30 PukiWiki/1.4/マニュアル/プラグイン/u 本当にあった怖いコード/15 2014-10-01 日記/2014-10-01 2014-09-09 日記/2014-09-09 2014-08-13 日記/2014-08-10 2014-05-28 バグパターン/日時バグパターン 2014-04-13 IPv6 2014-03-20 パスワード問題 2014-01-27 DNS/ルートサーバーは13台という神話 2014-01-25
seiunsky 2008/08/13
これはすごい

charset

文字コード

まとめ
リンク
1