[B! 文字コード] advblogのブックマーク

advblog id:advblog

文字コードに関するadvblogのブックマーク (14)

GlyphWiki:日本の行政用の統一文字コードについて - GlyphWiki
日本では、さまざまな行政用「統一文字コード」があります。このページは、その統一文字コードについて解説しています。戸籍統一文字戸籍統一文字は、法務省の戸籍システムで取り扱われている文字集合です。各文字には10進数6桁の戸籍統一文字番号が付与されます。UnicodeやJISコードで包摂される字形の違いも区別して、別の番号が与えられます(例：koseki-352760 vs. koseki-349920)。住基ネット統一文字との互換性はありません。文字の情報は法務省の公式サイトで確認できます。グリフウィキでの戸籍統一文字の命名はkoseki-######です。グリフウィキの戸籍統一文字の一覧はグループ:CodeChart-戸籍統一文字を参考してください。住基ネット統一文字住基ネット統一文字は、住民基本台帳ネットワークで使われている文字集合です。住基ネット統一文字の具体的な仕様は
advblog 2013/04/04
文字コード

行政
リンク
Perlによる日本語コード変換のメモ（第二版）
Perlによる日本語コード変換のメモ（第二版） hikoboshi.home / Perlによる日本語コード変換のメモ（第二版）前に書いたときと時代背景も知識も大幅に違うので、書き直してみることにしました。Perl 5.8以降を前提として考えます。この文章で書く（つもりの）こと use utf8環境での、文字セットの考え方発生しがちな文字化けとその原因解決のヒント jcode.pl時代の文字セットの扱いまずは、jcode.plなどが全盛だった時代を思い出してみます。jcode.plの時代は、Unicodeはほぼ使われておらず、JIS, Shift_JIS, EUC_JPあたりの変換を行う事が主でした。実際のコードを見て、扱われ方を考察してみましょう。 #!/usr/bin/perl # jcode.plを用いたコード変換 require 'jcode.pl'; open my $
advblog 2012/11/21
perl

文字コード
リンク
Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜
Perl › モジュール › here 日本語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日本語を扱うことができます。外部から入力された文字列はEncodeモジュールのdecode関数でデコードする外部へ出力する文字列はEncodeモジュールのencode関数でエンコードするソースコードはUTF-8で保存しutf8プラグマを有効にするこの解説での用語この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。プログラミングで日本語を扱う場合にその文字列がバイト文字
advblog 2012/11/05
基本大事

Perl

encode

文字コード
リンク
#perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由駄目です。 [を] Perl の utf8 まわりのおまじない最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u
advblog 2012/11/05
Perl

encode

文字コード
リンク
Jcode.pmを使って文字コードを変換する
2006年2月12日(日) 22時23分43秒 [Perl/CGI, Web関連] Jcode.pmを使って文字コードを変換する日本語文字コードの変換がとっても楽チンにできるPerlモジュールが「Jcode.pm」。これが活用されているフリーCGIは結構あります。 Perl 5.8.0以降では、Encodeモジュールが標準搭載されて、文字コードの変換が標準でできるようになったので、Jcode.pmを使う必要はなかったりするんですけども、フリーCGIの場合、Perl 5.8.0未満の環境で実行されるかも知れない可能性を考えて、（もしくは最初に作った時期がPerl 5.8.0リリース以前だったかで）Jcode.pmが使われてるCGIはたくさんあります。 # もっと古いCGIだと、jcode.pl が使われてるかも知れません。jcode.pl はJcode.pmの前のもので、Perl 4でも動
advblog 2012/11/02
perl

文字コード
リンク
Perl の多言語処理 -- Perl ヒント集 (ja)
エンコードの処理の基本 Perl 5.8 以降，テキストの処理が UTF-8 (Unicode の変換形式のひとつ) を軸におこなわれるようになりました。Shift JIS や EUC-JP での処理が一般的な日本語を Perl で扱う場合，エンコードを意識したプログラミングをおこなうことが必要になります。具体的には，Perl でエンコードを意識する必要のあるのは以下の箇所です。スクリプト自体のエンコードファイルの入出力標準入出力標準エラー出力データベース，CGIなどプロセス間のインターフェース Perl 5.8 では内部処理が UTF-8 で行われますが，特にエンコードの指定がされない場合，テキストは文字単位ではなく，バイト単位で処理されます。バイト単位で Shift JIS などのテキストを処理することもある程度可能ですが，2バイトの文字が文字として認識されていませんから，正
advblog 2012/09/07
Perl

文字コード
リンク
Shift-JISテキストを正しく扱う　perl 日本語パターンマッチ正規表現　の問題と落とし穴
最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日本語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う日本語文字列を並び替えるの書き換え。最初に日本語の文字コードにはいくつかのものが使われています。ある
advblog 2012/08/11
Perl

文字コード
リンク
FuelPHPでフィーチャフォン（ガラケー）対応について考えてみた - bossatama
FuelPHP Advent Calendar 2011 の 25日目です。昨日は、@Kenji_s さんの「FuelPHP でのセキュリティ対策(3)Add Star」でした。実は24日に記事を書かなければならないことを知り、かなり無謀ですが、執筆してしまったことを冒頭で謝らせてください。しかも FuelPHP のことをよく知りません。知らないことだらけです。CodeIgniter 使いが違和感なく使えるとの噂を信じて今回色々触ってみました。文中でも CodeIgniter との比較が出てくると思います。今回は「 FuelPHP でフィーチャフォン（ガラケー）対応について考えてみた」というタイトルです。周知の事実としてただ今スマートフォンがブームですね。iOS や AndroidOS を搭載した端末です。東京なんかだと携帯電話の新規購入や乗り換えの方々のほとんどがこれらのスマート
advblog 2012/06/09
codeigniter

文字コード

フィーチャーフォン
リンク
文字コードに起因する脆弱性とその対策
PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less
advblog 2010/09/27
セキュリティ

文字コード
リンク
ビット、バイト
＜２進数＞コンピューターは「通電する、しない」「磁化されている、いない」等の判断しかできません。したがって「演算」にしろ、「判断」にしろ「２進数」で行っています。＜ビット＞よく「ビット」と言う言葉を耳にしますが、これは２進数の１桁のことです。１６ビットマシン＝２進数を１６桁単位で処理するマシン２８．８ｋビットモデム＝１秒間に２進数２８８００桁送るモデム＜１６進数＞人間が理解しやすくするために２進数４桁を「０～Ｆ」の１桁で表現した数えかたです。＜バイト＞１６進数２桁（８ビット＝１０進数で０～２５５）の単位のことでキーボードの文字や制御コードを割り付けに「００～ＦＦ」が使われているのでこう呼ばれる１６Ｍ（メガ）のメモリー＝１６，０００，０００バイト（文字）記憶できるメモリー１Ｇ（ギガ）のハードデイスク＝１，０００，０００，０００バイト（文字）記憶できるハードデイスク
advblog 2009/06/22
文字コード

プログラミング

バイナリ
リンク
Table for Working Draft Proposal for Encoding Emoji Symbols
The images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart. Symbol ID Symbol Name & Annotations DoCoMo KDDI SoftBank Google
advblog 2008/11/29
Unicode

文字コード

絵文字
リンク
JIS X 0208 の文字コード表
JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区～08区各種記号、英数字、かな 09区～15区未定義（機種依存） (13区 NEC拡張外字) 16区～47区 JIS第一水準漢字 48区～84区 JIS第二水準漢字 85区～94区未定義（機種依存） (89区～92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●ＪＩＳ漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0 　、。，．・：；？！゛゜ ´ ｀ ¨ 01区 2130 814F A1B0 ＾￣＿ヽヾゝゞ
advblog 2007/11/14
文字コード

プログラミング
リンク
UCS-2とUTF-8
最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき，文字コードの方式が２種類，あるいはそれ以上あることに気が付かれるかもしれません。例えば，一つはUnicodeとあるのに対し，もう一つはUnicode (UTF-8)と表記されているかもしれません。この２つは，また，その違いは何でしょうか（前者はUTF-16の一形態なのですが…）。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット，ISO-10846-1は，16ビット（16桁の二進数）でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets，「２つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット（8桁の二進数）のことです。ユニコードの特定の文字は，例
advblog 2007/11/01
文字コード

プログラミング

UTF-8

Unicode

フォント

バイト
リンク
文字コードについて
文字コードについての実用的な説明です。このページの仕様にもとづいて作成した文字コード表や、16進ダンプを使った解説のページもあります。文字の種類 1バイト・2バイト文字は、ローマ字、カナ、記号などのJIS非漢字と、第1・第2・第3・第4水準のJIS漢字に分類され、JIS規格によって決められています。この他に、制御コードと呼ばれるデータがあり、文字と同様に扱っています。また漢字は、94×94の領域に1字づつ配置されています。この横の行を区、縦の列を点と呼び、区点番号で表すこともあります。これに対して、UCS（Universal Coded Character Set）のマルチバイト文字では、全世界の文字を扱えるようにISO/IECで決められた国際規格です。
advblog 2006/08/06
文字コード

HTML
リンク
1