タグ

Unicodeに関するInoHiroのブックマーク (6)

  • Unicodeと、C#での文字列の扱い

    進化の過程で煩雑な文字コード体系になっているUnicodeは、プログラミングでの取り扱いが面倒だ。C#とUnicodeの関係はどうなっているのか? C#が抱える課題とその解決策について見てみよう。 ← 前回 連載 INDEX 前編では、文字コード、そしてUnicodeがこれまでにどのような進化の道程を歩んできたかを見た。そこで説明したように、文字コード自体が結構な複雑さになっている。当然、プログラミング言語における文字列の扱いにも面倒が付きまとう。 後編である今回は、C#のstring型がどういう実装になっているかや、現状抱えている課題、それに対して検討している解決策などについて説明していく(以下、文字コードは全て16進数で表記する)。 文字列型 まずは、プログラミング言語内部での文字列の扱いについて話そう。Unicodeの歴史で話した通り、もともと、Unicodeは2Bytes固定長の文

  • Unicodeとは? その歴史と進化、開発者向け基礎知識

    まず、Unicodeで規定されている文字1つ1つには、最大で21bits(16進数で5~6桁)の数値が割り振られている。この数値をコードポイント(code point: 符号点、符号位置)という。 ちなみに、Unicodeでは、コードポイントの数値で文字を表すための表記として、「U+16進数」という書き方を使う。例えば、「a」であればU+61、「あ」であればU+3042と表記する(以下、文字コードは全て16進数で表記する)。 一方で、この21bitsのコードポイントがそのままテキストファイルに保存されるわけではない。一定のルールでバイト列に符号化することになる。詳細については、後々、Unicodeの歴史を追いつつ説明していくが、おおむね以下の3つを押さえておけばいいだろう(加えてコードポイントがビッグエンディアンで格納されるか、リトルエンディアンで格納されるかも重要になる。が、今回と次回は

  • Rails 4.2 + Unicorn + Nginx でアプリケーションサーバの構築 - Qiita

    source 'https://rubygems.org' gem 'rails', '4.2.0' gem 'sqlite3' gem 'sass-rails', '~> 5.0' gem 'uglifier', '>= 1.3.0' gem 'coffee-rails', '~> 4.1.0' gem 'therubyracer', platforms: :ruby gem 'jquery-rails' gem 'turbolinks' gem 'jbuilder', '~> 2.0' gem 'sdoc', '~> 0.4.0', group: :doc gem 'bcrypt', '~> 3.1.7' gem 'unicorn' group :development, :test do gem 'byebug' gem 'web-console', '~> 2.0' gem 'sp

    Rails 4.2 + Unicorn + Nginx でアプリケーションサーバの構築 - Qiita
  • 文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

    UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。 文字コードとは何か? 文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。 この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。 以上!と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。 文字コードの構成要素 文字コードの世界は以下の2つの要素で構成されている。 この違いを意識しておかないと混乱を招くだろう。 (1).文字集合 – 表現したい文字の範囲(”あ”、”い”・・・といった文字の集合体) (2).符号化方式 – 文字集合を構成する個々の文

    文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して
  • Punycode - Wikipedia

    Punycode(ピュニコード、プニコード)とは、国際化ドメイン名で使われる文字符号化方式で、RFC 3492 で定義されている。Unicode で書かれた文字列をDNSで使用可能な、アルファベット(大文字小文字を区別しない)、数字、ハイフンのみの文字列に変換する。 概要[編集] ドメイン名として Punycode を使用する際は、ピリオド(.)で区切られたドメイン名の階層レベルごとにプレフィックスとして「xn--」を使用し、エンコードされた文字列を続ける。大文字と小文字は区別されない。 可読なドメイン名 Punycodeでのドメイン名

  • ユニコード

    現在,私たちはコンピュータでワープロ等を使用する場合,入力の問題を別にすれば,日語を特に意識しないで使うことができます。しかし実は日語に限らず,アルファベットや数字などもコンピュータで使うためには,コンピュータ内部ではいくつかの仕組みが必要です。ただ日で販売されているコンピュータは日語を使えるような仕様で作られていますから,日語だけを使用している場合は特に意識する必要はありません。 しかし,いくつかの言語を使う場合は,それらの仕組みを意識する必要があります。例えば,中国語やハングルなどを使った文書を取り扱う場合,それに対応した処理を考えないといけません。元々は,それぞれの言語に従って,それぞれの方式があり,それぞれを切り替えながら 利用することになります。しかしそのように利用するにしても,各ソフトウエアがそれに対応する仕組みを持たなければそれを利用することはできません。 例えば

  • 1