タグ

文字コードに関するadvblogのブックマーク (14)

  • GlyphWiki:日本の行政用の統一文字コードについて - GlyphWiki

    では、さまざまな行政用「統一文字コード」があります。このページは、その統一文字コードについて解説しています。 戸籍統一文字 戸籍統一文字は、法務省の戸籍システムで取り扱われている文字集合です。各文字には10進数6桁の戸籍統一文字番号が付与されます。UnicodeやJISコードで包摂される字形の違いも区別して、別の番号が与えられます(例:koseki-352760 vs. koseki-349920)。住基ネット統一文字との互換性はありません。 文字の情報は法務省の公式サイト で確認できます。 グリフウィキでの戸籍統一文字の命名はkoseki-######です。 グリフウィキの戸籍統一文字の一覧はグループ:CodeChart-戸籍統一文字を参考してください。 住基ネット統一文字 住基ネット統一文字は、住民基台帳ネットワークで使われている文字集合です。 住基ネット統一文字の具体的な仕様は

  • Perlによる日本語コード変換のメモ(第二版)

    Perlによる日語コード変換のメモ(第二版) hikoboshi.home / Perlによる日語コード変換のメモ(第二版) 前に書いたときと時代背景も知識も大幅に違うので、書き直してみることにしました。Perl 5.8以降を前提として考えます。 この文章で書く(つもりの)こと use utf8環境での、文字セットの考え方 発生しがちな文字化けとその原因 解決のヒント jcode.pl時代の文字セットの扱い まずは、jcode.plなどが全盛だった時代を思い出してみます。jcode.plの時代は、Unicodeはほぼ使われておらず、JIS, Shift_JIS, EUC_JPあたりの変換を行う事が主でした。実際のコードを見て、扱われ方を考察してみましょう。 #!/usr/bin/perl # jcode.plを用いたコード変換 require 'jcode.pl'; open my $

  • Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜

    Perl › モジュール › here 日語などのマルチバイト文字をPerlで適切に扱うにはEncodeモジュールを使用します。次の3つのことを覚えておけば多くの場合適切に日語を扱うことができます。 外部から入力された文字列はEncodeモジュールのdecode関数でデコードする 外部へ出力する文字列はEncodeモジュールのencode関数でエンコードする ソースコードはUTF-8で保存しutf8プラグマを有効にする この解説での用語 この解説では外部から入力された文字列のことを「バイト文字列」と呼ぶことにします。Perlの内部表現に変換された文字列を「内部文字列」と呼ぶことにします。また「バイト文字列」が特定の文字コードで記述されている場合は「UTF-8バイト文字列」「Shift_JISバイト文字列」などと呼ぶことにします。 プログラミングで日語を扱う場合にその文字列がバイト文字

    Encode 日本語などのマルチバイト文字列を適切に処理する - Perl入門〜サンプルコードによるPerl入門〜
    advblog
    advblog 2012/11/05
    基本大事
  • #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found

    2009年09月13日13:00 カテゴリLightweight Languages #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 駄目です。 [を] Perl の utf8 まわりのおまじない 最近良く使うおまじない、というかイディオム。 utf8::decode($text) unless utf8::is_utf8($text); こういう場合は、Encode::decode_utf8()でないと。 以下をごらんください。 #!/usr/bin/perl use strict; use warnings; use Encode; use Devel::Peek; for my $bytes ( "\x2F", "\xC0\xAF", "\xE0\x80\xAF", "\xF0\x80\x80\xAF" ) { my $u

    #perl - utf8::decode()ではなくEncode::decode_utf8()を使うべき理由 : 404 Blog Not Found
  • Jcode.pmを使って文字コードを変換する

    2006年2月12日(日) 22時23分43秒 [Perl/CGI, Web関連] Jcode.pmを使って文字コードを変換する 日語文字コードの変換がとっても楽チンにできるPerlモジュールが「Jcode.pm」。これが活用されているフリーCGIは結構あります。 Perl 5.8.0以降では、Encodeモジュールが標準搭載されて、文字コードの変換が標準でできるようになったので、Jcode.pmを使う必要はなかったりするんですけども、フリーCGIの場合、Perl 5.8.0未満の環境で実行されるかも知れない可能性を考えて、(もしくは最初に作った時期がPerl 5.8.0リリース以前だったかで)Jcode.pmが使われてるCGIはたくさんあります。 # もっと古いCGIだと、jcode.pl が使われてるかも知れません。jcode.pl はJcode.pmの前のもので、Perl 4でも動

    Jcode.pmを使って文字コードを変換する
  • Perl の多言語処理 -- Perl ヒント集 (ja)

    エンコードの処理の基 Perl 5.8 以降,テキストの処理が UTF-8 (Unicode の変換形式のひとつ) を軸におこなわれるようになりました。Shift JIS や EUC-JP での処理が一般的な日語を Perl で扱う場合,エンコードを意識したプログラミングをおこなうことが必要になります。具体的には,Perl でエンコードを意識する必要のあるのは以下の箇所です。 スクリプト自体のエンコード ファイルの入出力 標準入出力 標準エラー出力 データベース,CGIなどプロセス間のインターフェース Perl 5.8 では内部処理が UTF-8 で行われますが,特にエンコードの指定がされない場合,テキストは文字単位ではなく,バイト単位で処理されます。バイト単位で Shift JIS などのテキストを処理することもある程度可能ですが,2バイトの文字が文字として認識されていませんから,正

  • Shift-JISテキストを正しく扱う perl 日本語パターンマッチ正規表現 の問題と落とし穴

    最近の更新履歴 2006-10-28: 「Shift-JISの漢字を含むファイル名/パス名」について若干追記。 2005-03-26: 「最初に」中、XML日語プロファイル第2版に基づき、若干追記。 2005-03-09: 「最初に」中、文章を若干修正。 2003-06-24: Shift-JISの漢字を含むファイル名/パス名 2003-05-31: 「最初に」中、「シフトJIS」などの表記について。 2003-05-24: CP932重複定義文字の変換 2002-08-30: Perl 5.8.0 について。 2002-01-17: 長い文字列に対する正規表現検索 2001-12-15: ShiftJIS::Collate が overrideCJK パラメータを廃止したことに伴う 日語文字列を並び替えるの書き換え。 最初に 日語の文字コードにはいくつかのものが使われています。ある

  • FuelPHPでフィーチャフォン(ガラケー)対応について考えてみた - bossatama

    FuelPHP Advent Calendar 2011 の 25日目です。 昨日は、@Kenji_s さんの「FuelPHP でのセキュリティ対策(3)Add Star」でした。 実は24日に記事を書かなければならないことを知り、かなり無謀ですが、執筆してしまったことを冒頭で謝らせてください。しかも FuelPHP のことをよく知りません。知らないことだらけです。CodeIgniter 使いが違和感なく使えるとの噂を信じて今回色々触ってみました。文中でも CodeIgniter との比較が出てくると思います。 今回は「 FuelPHP でフィーチャフォン(ガラケー)対応について考えてみた」というタイトルです。 周知の事実としてただ今スマートフォンがブームですね。iOS や AndroidOS を搭載した端末です。東京なんかだと携帯電話の新規購入や乗り換えの方々のほとんどがこれらのスマート

    FuelPHPでフィーチャフォン(ガラケー)対応について考えてみた - bossatama
  • 文字コードに起因する脆弱性とその対策

    PHPカンファレンス2010テックデイでの講演資料 PDFダウンロードは http://www.hash-c.co.jp/archive/phpconf2010.htmlRead less

    文字コードに起因する脆弱性とその対策
  • ビット、バイト

    <2進数> コンピューターは「通電する、しない」「磁化されている、いない」等の判断しかできません。 したがって「演算」にしろ、「判断」にしろ「2進数」で行っています。 <ビット> よく「ビット」と言う言葉を耳にしますが、これは2進数の1桁のことです。 16ビットマシン=2進数を16桁単位で処理するマシン 28.8kビットモデム=1秒間に2進数28800桁送るモデム <16進数> 人間が理解しやすくするために2進数4桁を「0~F」の1桁で表現した数えかたです。 <バイト> 16進数2桁(8ビット=10進数で0~255)の単位のことで キーボードの文字や制御コードを割り付けに「00~FF」が使われているのでこう呼ばれる 16M(メガ)のメモリー=16,000,000バイト(文字)記憶できるメモリー 1G(ギガ)のハードデイスク=1,000,000,000バイト(文字)記憶できるハードデイスク

  • Table for Working Draft Proposal for Encoding Emoji Symbols

    The images in this file point to images on other sites. The images are only for comparison and may change. See the chart legend for an explanation of the data presentation in this chart. Symbol ID Symbol Name & Annotations DoCoMo KDDI SoftBank Google

  • JIS X 0208 の文字コード表

    JIS X 0208 の文字コード表です。 JIS X 0208 文字コード表 01区~08区 各種記号、英数字、かな 09区~15区 未定義(機種依存) (13区 NEC拡張外字) 16区~47区 JIS第一水準漢字 48区~84区 JIS第二水準漢字 85区~94区 未定義(機種依存) (89区~92区 NEC拡張外字) JIS コードの場合、エスケープシーケンスは、表示していません。 このページは、以下のページにあるPerl スクリプトにより自動作成しています。 ASHのプログラムソース ●JIS漢字 JIS SJIS EUC +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F 01区 2120 813F A1A0   、 。 , . ・ : ; ? ! ゛ ゜ ´ ` ¨ 01区 2130 814F A1B0 ^  ̄ _ ヽ ヾ ゝ ゞ

  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • 文字コードについて

    文字コードについての実用的な説明です。 このページの仕様にもとづいて作成した文字コード表や、16進ダンプを使った解説のページもあります。 文字の種類 1バイト・2バイト文字は、ローマ字、カナ、記号などのJIS非漢字と、第1・第2・第3・第4水準のJIS漢字に分類され、JIS規格によって決められています。 この他に、制御コードと呼ばれるデータがあり、文字と同様に扱っています。 また漢字は、94×94の領域に1字づつ配置されています。 この横の行を区、縦の列を点と呼び、区点番号で表すこともあります。 これに対して、UCS(Universal Coded Character Set)のマルチバイト文字では、全世界の文字を扱えるようにISO/IECで決められた国際規格です。

  • 1