タグ

文字コードに関するorenonihongogayabaiのブックマーク (18)

  • trimやstripが全角スペースをトリミングしない理由で盛り上がったのでまとめてみた - Qiita

    はじめに RubyのString#stripが全角スペースをトリミングしてくれないことにこの間初めて気づきました。 そこでフィヨルドブートキャンプのSlackで質問してみたところ、結構盛り上がったので記事にまとめます。 編 自分で調べたこと まず自力で調査したことをまとめます。 Javaのtrimメソッド Javaのtrimのロジックは「\u0020(半角スペース)の文字コードより大きいか小さいか」が判断基準になっています。 ただ、それが他の言語の場合同様のロジックで実装されているのかまではわかりませんでした。 RubyのString#strip(Cのコード) 前後のオフセット値を算出してそれを利用して前後のスペースのトリミングを実現しています。 ただ、C力が圧倒的に足りないのでどういうロジックでそのオフセット値を算出しているかまではわかりませんでした。 追記 RubyRuby実装、R

    trimやstripが全角スペースをトリミングしない理由で盛り上がったのでまとめてみた - Qiita
  • export/import による JA16SJIS のデータベースから JA16SJISTILDE のデータベースへのデータ移行 - ablog

    export/import で JA16SJIS のデータベースから JA16SJISTILDE のデータベースへデータ移行を行って問題がないか調べてみた。 以下は机上で検証してみた結果。 結論 問題なし。 JA16SJISTILDE と JA16SJIS の違いは一点。 JA16SJISTILDE は SJIS → Unicode に変換する際に 0x8160(チルダ) を U+FF5E にするという点。 よって、0x8160 以外は JA16SJIS → JA16SJISTILDE に移行しても同じコードになる。 0x8160 についても、0x8160 → U+301C → 0x8160 と変換され同じコードになる。 結果、全ての文字について移行元と移行先で同じコードになるため問題ない。 補足 JA16SJISTILDE を利用できるのは Oracle 9i 以降。 Oracle(8以

    export/import による JA16SJIS のデータベースから JA16SJISTILDE のデータベースへのデータ移行 - ablog
  • Shift_JIS と Windows-31J (MS932) の違いを整理してみよう |

    いつまでたってもエンジニアを悩ませる問題として「文字コード」があります。 その中でも質が悪いのが Microsoft ページコード 932 いわゆる Windows-31J だと思います。 Unicode がだいぶ普及したとは言え、まだまだ根深い問題です。 稿では Shift_JIS と Windows-31J の違いについてまとめてみたいと思います。 とは言え筆者自身、Shift_JIS や Windows-31J などが誕生した当時にリアルタイムで歴史を見てきた人間ではありませんので、あくまで Wikipedia をベースに筆者なりにまとめたという点をご了承ください。 (誤りがあった場合にはご指摘頂ければ幸いです) Shift_JIS (CP932) の誕生 Shift_JISは、漢字を含む日語を表現できる文字コードとして1982年に誕生しました。 Shift_JIS はマイクロソ

  • MySQLの文字コード事情 2017版

    "Портирование Web SDK с JS на TS" Петров Григорий, Voximplantit-people

    MySQLの文字コード事情 2017版
    orenonihongogayabai
    orenonihongogayabai 2017/02/02
    寿司ビール問題の最新まとめ
  • RailsとMySQLでiOSの絵文字に対応(UTF8MB4化)した話 - Akata Works

    兼ねてからちょこちょこエラーが出ていたiOSの絵文字を含んだデータにようやく対応しましたので、その備忘録です。 Railsは3.2.11、MySQLは5.6.25です。 ちなみにMySQLは5.5以降からUTF8MB4に対応しています。 はじめに 文字コードをUTF8からUTF8MB4に変更をするにあたっていくつかの注意点があります。 コレーション問題 UTF8MB4のコレーションをデフォルトにしたままだと、寿司ビール問題("🍣"と"🍺"が同じものとして扱われる)と言われる問題に遭遇し、コレーションをUTF8MB4_UNICODE_520_CIにすると、ハハパパ問題("ハ"と"パ"が同じものとして扱われる)と言われる問題に遭遇します。 そのため、ハハパパ問題を気にしない場合(そんな国内サービスはあるのか!?)はUTF8MB4_UNICODE_520_CIを、気にする場合は、コードポイン

    RailsとMySQLでiOSの絵文字に対応(UTF8MB4化)した話 - Akata Works
    orenonihongogayabai
    orenonihongogayabai 2016/08/25
    アレ?BINはハハパパも判定可能なんじゃないんだっけ…?自分の記憶違い?使うときは自力で要検証
  • 中国語の文字コード - mizuno_takaakiの日記

    百度で仕事をしていると、中国側のスタッフとも頻繁にメールのやりとりが発生します。すると、中国語のメールを受け取ることも多いです(日語・中国語両方わかるスタッフが、僕にCCして中国語でメールを出す場合など)。ThunderBirdは別に中国語だって表示できるし問題ないのですが、中国語(簡体字)の文字コード(GB2312)の場合は、ちょっと見慣れないフォントになります。Windowsだと「MingLiU」というフォントです。そこまではいいのですが、中国にも日語ができるスタッフが何人もいて、彼らとメールでやりとりをしていると、そのフォントで、なおかつ日語で書かれたメールが来るときがあります。時には、中国語と日語が両方書かれていることもある。UTF-8なのか?と思ったけど、その場合はフォントが変わるし、文字コードを調べてもGB2312になっているのに、日語が表示されていて、なんでだろう、

    中国語の文字コード - mizuno_takaakiの日記
    orenonihongogayabai
    orenonihongogayabai 2016/04/27
    コメント欄まで呼んでおくことを推奨。
  • DB2の文字コード設定 | Unofficial DB2 BLOG

    ※2006/10/16修正:COLLATEのお勧めが間違っていたので修正しました。Unicode以外の場合はIDENTITYがお勧めです。(以前はSYSTEMと書いてしまっていました。ごめんなさい。) marsのメモ(8/4)より: よもやDB2を使うときが来るとは. とりあえず,文字コードをどうしたらいいのかだけ知りたい. というわけで、DB2の文字コードの扱いについて基的なところを列挙してみます。 まず、DB2はデータベース作成時に"USING CODESET"で文字コードを指定します。表毎には変更できません(例外としてUTF-8以外で作成したデータベースの中にUnicodeの表を作成できる機能があります)。データは必ずそのコードページに変換されて格納されます。つまりSJISを指定して作成されたデータベースにはSJISのコードページで文字が格納されます。 例) CREATE DATA

    DB2の文字コード設定 | Unofficial DB2 BLOG
  • Java の MS932, Cp943C, SJIS の違い - ふなWiki

    http://www2d.biglobe.ne.jp/~msyk/cgi-bin/charcode/93.html http://una.soragoto.net/topics/13.html 経緯 Shift_JIS Shift_JIS を MSが独自拡張 -> CP932 CP932 をIBMが拡張 -> IBMのCP932 CP932 をNECが拡張 -> NECのCP932 MSがCP932を統合 -> 新しいCP932 これまでのCP932と区別するために MS932 IANA登録名 -> Windows31J

  • CP932とは : JavaA2Z

    Windowsでの正しい文字コード。 Windowsの文字コードは、一般的には「シフトJIS」だが、正しくは「CP932」である。 「MS932」とも言う。 CP932は、シフトJISを拡張したものである。 ただし、基的には文字コードとしての違いはない。各文字の「整数値としての値」が異なることはない。 違いが現れるのは、他の文字コードへと変換する場合である。 他の文字コードへと変換する場合、「~」や「-」といった一部の文字が、異なる整数値へと変換される。 たとえばUnicodeへと変換する場合、以下のように変換される。 ■「~」 ・シフトJIS:0x81,0x60→Unicode:0x301C ・CP932:0x81,0x60→Unicode:0xFF5E ■「-」 ・シフトJIS:0x81,0x7C→Unicode:0x2212 ・CP932:0x81,0x7C→Unicode:0xF

  • Oracleの波ダッシュ(〜)問題に対処する - いっぽんの猟銃のむこうに (DAIZOじいさんとGun)

    まず、UTF-8とSJISで文字コードを変換したときに化けやすい文字、ってのがある。 http://ja.wikipedia.org/wiki/Unicode#.E6.B3.A2.E3.83.80.E3.83.83.E3.82.B7.E3.83.A5.E3.83.BB.E5.85.A8.E8.A7.92.E3.83.81.E3.83.AB.E3.83.80.E5.95.8F.E9.A1.8C そんなかでも有名なのが「〜」。 http://ja.wikipedia.org/wiki/%E6%B3%A2%E3%83%80%E3%83%83%E3%82%B7%E3%83%A5#Unicode.E3.81.AB.E9.96.A2.E9.80.A3.E3.81.99.E3.82.8B.E5.95.8F.E9.A1.8C でさらに、Oracleの「JAPANESE_JAPAN.JA16SJIS」は、基

    Oracleの波ダッシュ(〜)問題に対処する - いっぽんの猟銃のむこうに (DAIZOじいさんとGun)
  • 文字コードの基本:ITpro

    コンピュータで文字を取り扱う際,文字コードについて知っておく必要があります。特に日では複数の文字コードが混在して使われる上,プラットフォームによって取り扱う文字の種類も異なることから,状況が複雑になっています。記事では文字を正しく取り扱うための基礎知識について簡単に紹介します。 コンピュータはすべてのデータを数値として取り扱います。文字を取り扱うときも,数値に対応づけて処理します。 例えば,「ようこそITpro」というテキスト・データをWindows XPのメモ帳で作成し,ファイルに保存します。そのファイルをバイナリ・エディタで開くと写真1のような数値が並んでいることが分かります。各文字と数値は表1のように対応づけられています。

    文字コードの基本:ITpro
  • Shitf_JISとCP932とMS932とWindows-31Jを昔話風に語ってみた - 凶悪モナド

    要約すると こんな感じ Shift_JIS ≒ CP932 = Windows-31J = MS932 こういう言い方もできる 仕様:Shift_JIS 実装:CP932, Windows-31J Javaでのみ使われる都合上の名前 別名:MS932 編 むかしむかし、あるところに「Shift_JIS」という名の文字エンコーディングがおったそうな。里の村長「マイクロソフトたん」はいち早くShift_JISの才に目をつけた。マイクロソフトたんはShift_JISを育てることにし、愛称として『コードページ932(CP932)』と呼んでおったそうな。それからまもなくして、Shift_JISはMS-DOSというOSにのせて売られはじめるようになったんじゃ。 同じ里の「IBMたん」はそのMS-DOSをつかってマルチステーション5550というパソコンをこしらえた。IBMたんはもっと便利になるようにと

    Shitf_JISとCP932とMS932とWindows-31Jを昔話風に語ってみた - 凶悪モナド
  • iconvコマンドの使い方 - とあるソフトウェア開発者のブログ

    Unix/Linuxで文字コード変換に使用される、iconvコマンドの使い方についてのメモ書きです。*1 iconvコマンドの基的な使い方 オプションの指定方法 入力データの文字コード 「-f (--from-code)」で指定する。 出力データの文字コード 「-t (--to-code)」で指定する。 省略すると、ロケールから自動的に決定される。 入力データ 標準入力から読み込む。(リダイレクト or パイプ) コマンドの引数として指定してもよい。 出力データ 標準出力に書き込む。(リダイレクト or パイプ) 「-o (--output)」で指定してもよい。 #標準入出力を使う例 iconv -f SJIS -t UTF8 < sjis.txt > utf8.txt #標準入出力を使わない例 iconv -f SJIS -t UTF8 sjis.txt -o utf8.txt 複数フ

    iconvコマンドの使い方 - とあるソフトウェア開発者のブログ
  • 駅データ 無料ダウンロード 『駅データ.jp』

    2019.04.05 三陸鉄道リアス線移管対応/石勝線 夕張支線各駅廃止/Jヴィレッジ駅追加/初台・幡ヶ谷 を京王線から削除 2019.03.17 昨日更新の「浜町アーケード駅」の登録に誤りがありましたので訂正しました 2019.03.16 おおさか東線/ゆりかもめ/長崎電気軌道ほか50件程度更新 2018.04.24 Osaka Metro(4/1)追加/大阪市交通局は民営化に伴う名称・事業所変更 北陸新幹線の事業者コードについて 駅データ.jpの仕様上、1路線には1事業者コードしか登録できません。 北陸新幹線はJR東日JR西日が運営していますが、駅データ.jpではJR東日の事業者コードのみ登録していますのでご注意ください。 【有料会員登録のお振り込みをされた方へ】 有料会員としてお振り込みをしたら、必ず「ダウンロード」の「有料会員登録」から「お振り込みの報告」をしてください。

  • UTF-8コード表(1)

    00-7F,C0-E3から始まる文字コード 41 が A, 6D が m と読む。 +0+1+2+3+4+5+6+7+8+9+A+B+C+D+E+F 0

  • ASCII文字コード : IT用語辞典

    当サイト「IT用語辞典 e-Wordsイーワーズ」はIT(Information Technology:情報技術)用語のオンライン辞典です。コンピュータ・情報・通信などを中心とする各分野の用語について、キーワード検索や五十音索引から調べることができます。用語の意味や定義、概要や要約、略語や別表記、英語表記や綴り、フルスペル、読み方や発音、仕組みや役割、歴史や由来、語源、構造や構成、要素、特徴、機能や性能、諸元、規格や仕様、標準、原因や要因、手法や方法、方式、種類や分類、利点やメリット、欠点やデメリット、問題点、対義語や類義語との違い、用例や事例、具体例、画像や図表、関連用語、外部資料や別の辞典による解説へのリンクなどを掲載しています。

  • vimエディタで「文字コード、改行コードを変更して保存する。」

    vimエディタで、ファイルの文字コード、改行コードを修正、もしくは変更する時の話。 ファイルの文字コードや、改行コードを変更する時は、 変更したいファイルを開いた状態で、 ・文字コードの変更 :set fileencoding=文字コード :set fenc=文字コード (上のコマンドの短い形式。こちらでも良い。) :set fileencoding=euc-jp (エンコーディングEUC-JPに変更。) :set fileencoding=shift_jis (エンコーディングSHIFT_JISに変更。) :set fileencoding=utf-8 (エンコーディングUTF-8に変更。) ・ファイルフォーマットの種類の変更 :set fileformat=ファイルフォーマットの種類 :set ff=ファイルフォーマットの種類 (上のコマンドの短い形式。こちらでも良い。) :set f

    vimエディタで「文字コード、改行コードを変更して保存する。」
  • 文字コードの判別

    [vim] viでの文字コードはset encodingにて指定できる。設定ファイルに以下のように記述しておけばよい。 set encoding=euc-jp set fileencodings=iso-2022-jp,sjis,utf-8 現在の設定を確認するには以下のようにします。 #文字コードの確認 :set enc? #ファイルエンコードの確認 :set fenc? #自動判別の設定確認 :set fencs? « viエディターでの画面分割 | | コピー & ペースト »

  • 1