[B! unicode] seihmdのブックマーク

seihmd id:seihmd

unicodeに関するseihmdのブックマーク (2)

Go 言語と Unicode 正規化
今回は少し目先を変えて「Unicode 正規化（normalization）」のお話。 2羽の「ペンギン」まず「ペンギン」という文字列を思い浮かべてみる。この文字列を Unicode のコードポイントで表すと以下のようになる。ペ：U+30DA ン：U+30F3 ギ：U+30AE ン：U+30F3 ところでペンギンの「ペ」と「ギ」は半濁点および濁点を含む。 Unicode は「ペ」と「ギ」をそれぞれ2つの要素に分解できる。ペ：U+30D8 + U+309A ン：U+30F3 ギ：U+30AD + U+3099 ン：U+30F3 U+309A および U+3099 はそれぞれ半濁点と濁点を表す「結合文字（combining character）」である。「ヘ」や「キ」のような「基底文字（base character）」に結合文字を1つ以上1 付加した文字を「合成列（composite
seihmd 2017/11/22
unicode

Go
リンク
Unicodeで「漢字」の正規表現 – ものかの
改訂：2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。改訂：2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS（CP932）の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第３・第４水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす
seihmd 2016/06/30
unicode
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx