タグ

文字コードに関するtohokuaikiのブックマーク (11)

  • 山﨑髙島問題 - マイノート

    山﨑髙島問題とは、コード変換によって、 髙島が→?島 山﨑が→山? と表示されるなどの問題である。(勝手に定義) そして、コード変換によって文字が正しく表示されることを確認するテストを 山﨑髙島テストと呼び、リリース前に実施しよう。 それぞれの文字の俗称 髙・・・はしごだか 﨑・・・たつさき [文字化けが発生するケース] ■■システムの構成■■ ブラウザ(charset=euc-jp) ↓write  ↑read Oracle(NLS_LANG=Japanese_Japan.JA16EUC) ↓read  ↑write Windowsアプリ(CP932?) Windowsアプリが、Oracleに書き込んだデータをブラウザで参照したときに、文字化けが発生しています。 ブラウザ, Oracle間では、髙の読み書きは正常だったので、OracleWindowsアプリの間で正しくコード変換がされて

    山﨑髙島問題 - マイノート
    tohokuaiki
    tohokuaiki 2017/08/07
    そして、はてなはEUCなので当然このブログタイトルのありさま
  • コードポイントから UTF-8 の文字を生成する - Qiita

    バリデーションの際に想定外の文字が通っていないか調べるには Unicode で定義されるすべての文字を試すことが必要です。UTF-8 の場合、コードポイントの範囲は U+0000 から U+7FFF、U+E000 から U+10FFFF までです。 PHP 5 の標準関数である chr は U+0080 よりも大きいコードポイントの範囲には対応しておらず、主要な拡張モジュールにも該当する関数は皆無なので、自分で関数を定義する必要があります。ベンチマークの結果から html_entity_decode や chr を使った方法がもっとよいと考えられます。 ワンライナー Ruby を利用する場合、次のようなコードになります。

    コードポイントから UTF-8 の文字を生成する - Qiita
  • Javaでの文字コードの扱い - MyMemoWikiOld

    仕様では、String クラスはUnicode文字の並びを表す String クラスのソースコード(%JAVA_HOME%/src.zip)を見ると、Unicode文字の並びをchar型の配列として保持している。 char型は、Unicode文字を表す16ビット符号無し整数で、'\u0000'〜'\uffff' すなわち 0〜65535を表現できる Javaで扱うUnicodeは、1文字を16ビット(2バイト)UCS-2である。 現在はUnicode全体は4バイトで定義(UCS-4)されている。 ソースコードの変換 ソースコードのコンパイル時、プラットフォームの文字コードやファイルの文字コードに依存してしまう。 Windowsでソースを書いてLinuxでコンパイルを行ったりするような場合には、プラットフォームとソースコードの文字コードの不一致によって文字化けが発生する。 native2as

    tohokuaiki
    tohokuaiki 2014/05/28
    zipとか使う際にも。
  • Java zipファイルの日本語を文字化けなしで表示(Commons Compress)

    結構前から困っていた問題が解決できたっぽいのでメモ。 多分、Windows固有の問題なんだと思うのですが、 Windows端末でzip圧縮したファイルの中に、 日語のファイル名を含んでいる場合、Java標準の モジュールを使用して解凍しようとすると文字化けします。 たとえば、圧縮前の構成がこんな感じだとして、 フォルダをzip圧縮。 以下のサイトを参考に、java.util.zipを使用して、 圧縮ファイル中のファイル名を取得するサンプルを 作成し、試してみます。 ZIP解凍サンプル 作ったサンプル package com.fc2.blog68.symfoware.sample; import java.io.File; import java.util.Enumeration; import java.util.zip.ZipEntry; import java.util.zip.Zi

    Java zipファイルの日本語を文字化けなしで表示(Commons Compress)
  • Windowsの標準文字コードについて - BIGLOBEなんでも相談室

    Windowsの標準文字コードについて 標準文字コードはシフトJISとされていますが、 例えば、windowsでメモ帳を使って文字を書いて、保存をした時。 保存する時の文字コードは自由に選択できますよね。 この時点だと、どこにシフトJISコードが使われているのかはサッパリ分かりません。 それで考えたのですが、 文章を保存する時では無く、 メモ帳に書いている時に使われている文字が、 シフトJISなのでしょうか?(その文字を16進数としてみた時にシフトJISの文字コードになっている) つまり、 もともと、windows上でwebページのフォームに文字を入力するとか、 メモ帳で文章を書くと、 シフトJISとして書いている事になるのでしょうか?(シフトJISコードに対応した16進数で書いている) それを、例えばメモ帳ならシフトJISコードを違うコードに変換して保存する機能が付いている ブラウザには

  • UnicodeによるXSSと�SQLインジェクションの可能性

    SecurityとValidationの奇妙な関係、あるいはDrupalはなぜValidationをしたがらないのかHiroshi Tokumaru

    UnicodeによるXSSと�SQLインジェクションの可能性
    tohokuaiki
    tohokuaiki 2009/09/18
    文字集合を変換すると、多対1になるときどーするの?って話。
  • ウノウラボ Unoh Labs: 文字コードと携帯絵文字

    ウノウでは特に最近、積極的にエンジニアを採用しています。 ご興味のある方はFind Job !から、ぜひご応募ください!! 今年は早くも花粉が舞っているようですね。花粉症にはなりたくないなぁと毎年おびえるyukiです。 さて今回は、社内の勉強回で発表した「文字コードと携帯絵文字」のスライドを公開したいと思います。文字コードとは何か、とか、文字集合とは何か、というところから、各キャリアの対応状況や、最近Googleの提唱している「emoji4unicode」について、基礎の部分をさらっと触れている感じです。もしよろしければご覧下さい。 文字コードと携帯絵文字

  • Unicode対応 JIS X 0208 文字コード表

    Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。 文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区~08区 JIS非漢字(各種記号、英数字、かな) 13区~13区 NEC特殊文字(機種依存) 16区~47区 JIS第1水準漢字 48区~84区 JIS第2水準漢字 文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字 文字コード表 区 点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001

  • データベースの文字コードを調べる - MySQL 逆引きリファレンス

    SHOW CREATE DATABASE データベース名 test という名前のデータベースの文字コードを調べる場合は次の通りです。 mysql> SHOW CREATE DATABASE test; +----------+----------------------------------------------------------------+ | Database | Create Database | +----------+----------------------------------------------------------------+ | test | CREATE DATABASE `test` /*!40100 DEFAULT CHARACTER SET cp932 */ | +----------+--------------------------

  • ASCII文字コード : IT用語辞典

    当サイト「IT用語辞典 e-Wordsイーワーズ」はIT(Information Technology:情報技術)用語のオンライン辞典です。コンピュータ・情報・通信などを中心とする各分野の用語について、キーワード検索や五十音索引から調べることができます。用語の意味や定義、概要や要約、略語や別表記、英語表記や綴り、フルスペル、読み方や発音、仕組みや役割、歴史や由来、語源、構造や構成、要素、特徴、機能や性能、諸元、規格や仕様、標準、原因や要因、手法や方法、方式、種類や分類、利点やメリット、欠点やデメリット、問題点、対義語や類義語との違い、用例や事例、具体例、画像や図表、関連用語、外部資料や別の辞典による解説へのリンクなどを掲載しています。

  • Unicode 15.1 Character Code Charts

    European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin

  • 1