[B! 文字コード] tohokuaikiのブックマーク

tohokuaiki id:tohokuaiki

文字コードに関するtohokuaikiのブックマーク (11)

山﨑髙島問題 - マイノート
山﨑髙島問題とは、コード変換によって、髙島が→？島山﨑が→山？と表示されるなどの問題である。(勝手に定義) そして、コード変換によって文字が正しく表示されることを確認するテストを山﨑髙島テストと呼び、リリース前に実施しよう。それぞれの文字の俗称髙・・・はしごだか﨑・・・たつさき [文字化けが発生するケース] ■■システムの構成■■ ブラウザ(charset=euc-jp) ↓write　　↑read Oracle(NLS_LANG=Japanese_Japan.JA16EUC) ↓read　　↑write Windowsアプリ(CP932？) Windowsアプリが、Oracleに書き込んだデータをブラウザで参照したときに、文字化けが発生しています。ブラウザ, Oracle間では、髙の読み書きは正常だったので、OracleとWindowsアプリの間で正しくコード変換がされて
tohokuaiki 2017/08/07
そして、はてなはEUCなので当然このブログタイトルのありさま

文字コード
リンク
コードポイントから UTF-8 の文字を生成する - Qiita
バリデーションの際に想定外の文字が通っていないか調べるには Unicode で定義されるすべての文字を試すことが必要です。UTF-8 の場合、コードポイントの範囲は U+0000 から U+7FFF、U+E000 から U+10FFFF までです。 PHP 5 の標準関数である chr は U+0080 よりも大きいコードポイントの範囲には対応しておらず、主要な拡張モジュールにも該当する関数は皆無なので、自分で関数を定義する必要があります。ベンチマークの結果から html_entity_decode や chr を使った方法がもっとよいと考えられます。ワンライナー Ruby を利用する場合、次のようなコードになります。
tohokuaiki 2015/07/09
php

文字コード
リンク
Javaでの文字コードの扱い - MyMemoWikiOld
仕様では、String クラスはUnicode文字の並びを表す String クラスのソースコード(%JAVA_HOME%/src.zip)を見ると、Unicode文字の並びをchar型の配列として保持している。 char型は、Unicode文字を表す16ビット符号無し整数で、'\u0000'〜'\uffff' すなわち 0〜65535を表現できる Javaで扱うUnicodeは、1文字を16ビット(2バイト)UCS-2である。現在はUnicode全体は4バイトで定義(UCS-4)されている。ソースコードの変換ソースコードのコンパイル時、プラットフォームの文字コードやファイルの文字コードに依存してしまう。 Windowsでソースを書いてLinuxでコンパイルを行ったりするような場合には、プラットフォームとソースコードの文字コードの不一致によって文字化けが発生する。 native2as
tohokuaiki 2014/05/28
zipとか使う際にも。

java

文字コード
リンク
Java zipファイルの日本語を文字化けなしで表示(Commons Compress)
結構前から困っていた問題が解決できたっぽいのでメモ。多分、Windows固有の問題なんだと思うのですが、 Windows端末でzip圧縮したファイルの中に、日本語のファイル名を含んでいる場合、Java標準のモジュールを使用して解凍しようとすると文字化けします。たとえば、圧縮前の構成がこんな感じだとして、フォルダをzip圧縮。以下のサイトを参考に、java.util.zipを使用して、圧縮ファイル中のファイル名を取得するサンプルを作成し、試してみます。 ZIP解凍サンプル作ったサンプル package com.fc2.blog68.symfoware.sample; import java.io.File; import java.util.Enumeration; import java.util.zip.ZipEntry; import java.util.zip.Zi
tohokuaiki 2014/05/28
java

zip

文字コード
リンク
Windowsの標準文字コードについて - BIGLOBEなんでも相談室
Windowsの標準文字コードについて標準文字コードはシフトJISとされていますが、例えば、windowsでメモ帳を使って文字を書いて、保存をした時。保存する時の文字コードは自由に選択できますよね。この時点だと、どこにシフトJISコードが使われているのかはサッパリ分かりません。それで考えたのですが、文章を保存する時では無く、メモ帳に書いている時に使われている文字が、シフトJISなのでしょうか？（その文字を１６進数としてみた時にシフトJISの文字コードになっている）つまり、もともと、windows上でwebページのフォームに文字を入力するとか、メモ帳で文章を書くと、シフトJISとして書いている事になるのでしょうか？（シフトJISコードに対応した１６進数で書いている）それを、例えばメモ帳ならシフトJISコードを違うコードに変換して保存する機能が付いているブラウザには
tohokuaiki 2012/08/14
windows

文字コード
リンク
UnicodeによるXSSと�SQLインジェクションの可能性
SecurityとValidationの奇妙な関係、あるいはDrupalはなぜValidationをしたがらないのかHiroshi Tokumaru
tohokuaiki 2009/09/18
文字集合を変換すると、多対1になるときどーするの？って話。

文字コード

3へぇ
リンク
ウノウラボ Unoh Labs: 文字コードと携帯絵文字
ウノウでは特に最近、積極的にエンジニアを採用しています。ご興味のある方はFind Job !から、ぜひご応募ください！！今年は早くも花粉が舞っているようですね。花粉症にはなりたくないなぁと毎年おびえるyukiです。さて今回は、社内の勉強回で発表した「文字コードと携帯絵文字」のスライドを公開したいと思います。文字コードとは何か、とか、文字集合とは何か、というところから、各キャリアの対応状況や、最近Googleの提唱している「emoji4unicode」について、基礎の部分をさらっと触れている感じです。もしよろしければご覧下さい。文字コードと携帯絵文字
tohokuaiki 2009/02/18
ケータイ

文字コード
リンク
Unicode対応 JIS X 0208 文字コード表
Unicode対応 JIS X 0208 文字コード一覧 JIS X 0208 の区点番号、JISコード、シフトJISコード、EUCコード、Unicode(UTF-8, UTF-16)の文字コード対応一覧です。文字コードとその文字を順に出力しているだけですので、表示される文字はフォントによって決まります。 01区～08区　JIS非漢字（各種記号、英数字、かな） 13区～13区　NEC特殊文字（機種依存） 16区～47区　JIS第1水準漢字 48区～84区　JIS第2水準漢字文字コードについてのページや、文字コード一覧についての説明もあります。 JIS X 0208 JIS非漢字文字コード表区点 JIS SJIS EUC UTF-8 UTF-16 字 01 01 2121 8140 A1A1 E38080 3000 01 02 2122 8141 A1A2 E38081 3001
tohokuaiki 2008/12/14
資料

文字コード

unicode
リンク
データベースの文字コードを調べる - MySQL 逆引きリファレンス
SHOW CREATE DATABASE データベース名 test という名前のデータベースの文字コードを調べる場合は次の通りです。 mysql> SHOW CREATE DATABASE test; +----------+----------------------------------------------------------------+ | Database | Create Database | +----------+----------------------------------------------------------------+ | test | CREATE DATABASE `test` /*!40100 DEFAULT CHARACTER SET cp932 */ | +----------+--------------------------
tohokuaiki 2008/09/07
mysql

文字コード
リンク
ASCII文字コード： IT用語辞典
当サイト「IT用語辞典 e-Wordsイーワーズ」はIT（Information Techno logy：情報技術）用語のオンライン辞典です。コンピュータ・情報・通信などを中心とする各分野の用語について、キーワード検索や五十音索引から調べることができます。用語の意味や定義、概要や要約、略語や別表記、英語表記や綴り、フルスペル、読み方や発音、仕組みや役割、歴史や由来、語源、構造や構成、要素、特徴、機能や性能、諸元、規格や仕様、標準、原因や要因、手法や方法、方式、種類や分類、利点やメリット、欠点やデメリット、問題点、対義語や類義語との違い、用例や事例、具体例、画像や図表、関連用語、外部資料や別の辞典による解説へのリンクなどを掲載しています。
tohokuaiki 2008/02/06
文字コード

制御文字
リンク
Unicode 15.1 Character Code Charts
European Scripts Armenian Armenian Ligatures Carian Caucasian Albanian Cypriot Syllabary Cypro-Minoan Cyrillic Cyrillic Supplement Cyrillic Extended-A Cyrillic Extended-B Cyrillic Extended-C Cyrillic Extended-D Elbasan Georgian Georgian Extended Georgian Supplement Glagolitic Glagolitic Supplement Gothic Greek Greek Extended Ancient Greek Numbers Latin Basic Latin (ASCII) Latin-1 Supplement Latin
tohokuaiki 2007/11/22
unicode

文字コード
リンク
1