[B! Unicode] InoHiroのブックマーク

Unicodeと、C#での文字列の扱い

進化の過程で煩雑な文字コード体系になっているUnicodeは、プログラミングでの取り扱いが面倒だ。C#とUnicodeの関係はどうなっているのか？ C#が抱える課題とその解決策について見てみよう。 ← 前回連載 INDEX 前編では、文字コード、そしてUnicodeがこれまでにどのような進化の道程を歩んできたかを見た。そこで説明したように、文字コード自体が結構な複雑さになっている。当然、プログラミング言語における文字列の扱いにも面倒が付きまとう。後編である今回は、C#のstring型がどういう実装になっているかや、現状抱えている課題、それに対して検討している解決策などについて説明していく（以下、文字コードは全て16進数で表記する）。文字列型まずは、プログラミング言語内部での文字列の扱いについて話そう。Unicodeの歴史で話した通り、もともと、Unicodeは2Bytes固定長の文

InoHiro 2016/11/14

リンク

Unicodeとは？その歴史と進化、開発者向け基礎知識

まず、Unicodeで規定されている文字1つ1つには、最大で21bits（16進数で5～6桁）の数値が割り振られている。この数値をコードポイント（code point：符号点、符号位置）という。ちなみに、Unicodeでは、コードポイントの数値で文字を表すための表記として、「U+16進数」という書き方を使う。例えば、「a」であればU+61、「あ」であればU+3042と表記する（以下、文字コードは全て16進数で表記する）。一方で、この21bitsのコードポイントがそのままテキストファイルに保存されるわけではない。一定のルールでバイト列に符号化することになる。詳細については、後々、Unicodeの歴史を追いつつ説明していくが、おおむね以下の3つを押さえておけばいいだろう（加えてコードポイントがビッグエンディアンで格納されるか、リトルエンディアンで格納されるかも重要になる。が、今回と次回は

InoHiro 2016/11/14

リンク

Rails 4.2 + Unicorn + Nginx でアプリケーションサーバの構築 - Qiita

source 'https://rubygems.org' gem 'rails', '4.2.0' gem 'sqlite3' gem 'sass-rails', '~> 5.0' gem 'uglifier', '>= 1.3.0' gem 'coffee-rails', '~> 4.1.0' gem 'therubyracer', platforms: :ruby gem 'jquery-rails' gem 'turbolinks' gem 'jbuilder', '~> 2.0' gem 'sdoc', '~> 0.4.0', group: :doc gem 'bcrypt', '~> 3.1.7' gem 'unicorn' group :development, :test do gem 'byebug' gem 'web-console', '~> 2.0' gem 'sp

InoHiro 2016/05/30

リンク

文字コード考え方から理解するUnicodeとUTF-8の違い | ギークを目指して

UnicodeとUTF-8の違いを理解していない方が結構居るようなので、文字コードの考え方を元に解説してみようと思う。文字コードとは何か？文字コードとは、コンピュータ上で文字を扱うために、文字に対して割り当てられた数値のことであり、文字と数値の対応付けと呼べる。この対応付けの種類は沢山あって、Shift-JISであったり、UTF-8であったりする。以上！と言いたいけど、文字コードはこんなに単純ではない。文字コードを複雑にする要素は沢山あるが、今回の記事ではUnicodeとUTF-8の違いに焦点を絞って解説してみたいと思う。文字コードの構成要素文字コードの世界は以下の2つの要素で構成されている。この違いを意識しておかないと混乱を招くだろう。（１）．文字集合 – 表現したい文字の範囲（”あ”、”い”・・・といった文字の集合体）（２）．符号化方式 – 文字集合を構成する個々の文

InoHiro 2016/04/25

リンク

Punycode - Wikipedia

Punycode（ピュニコード、プニコード）とは、国際化ドメイン名で使われる文字符号化方式で、RFC 3492 で定義されている。Unicode で書かれた文字列をDNSで使用可能な、アルファベット（大文字小文字を区別しない）、数字、ハイフンのみの文字列に変換する。概要[編集] ドメイン名として Punycode を使用する際は、ピリオド（.）で区切られたドメイン名の階層レベルごとにプレフィックスとして「xn--」を使用し、エンコードされた文字列を続ける。大文字と小文字は区別されない。可読なドメイン名 Punycodeでのドメイン名

InoHiro 2015/02/25

Unicode

リンク

ユニコード

現在，私たちはコンピュータでワープロ等を使用する場合，入力の問題を別にすれば，日本語を特に意識しないで使うことができます。しかし実は日本語に限らず，アルファベットや数字などもコンピュータで使うためには，コンピュータ内部ではいくつかの仕組みが必要です。ただ日本で販売されているコンピュータは日本語を使えるような仕様で作られていますから，日本語だけを使用している場合は特に意識する必要はありません。しかし，いくつかの言語を使う場合は，それらの仕組みを意識する必要があります。例えば，中国語やハングルなどを使った文書を取り扱う場合，それに対応した処理を考えないといけません。元々は，それぞれの言語に従って，それぞれの方式があり，それぞれを切り替えながら利用することになります。しかしそのように利用するにしても，各ソフトウエアがそれに対応する仕組みを持たなければそれを利用することはできません。例えば

InoHiro 2013/11/25

Unicode

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

Unicodeに関するInoHiroのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第4週）

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス