タグ

unicodeに関するcu39のブックマーク (33)

  • Unicode正規化 (NFC, NFKC, NFD, NFKD) 変換 Online - DenCode

    Unicode正規化について Unicode正規化とは、文字を分解・合成することをいいます。Unicodeの文字は、見た目は同じでも複数の表現方法が存在するものがあります。例えば、「â」は「â」(U+00E2)の1つのコードポイントとしても表せますし、「a」(U+0061)と「 ̂」(U+0302)の2つの分解されたコードポイント(基底文字+結合文字)でも表せます。前者を合成済み文字、後者を結合文字列(combining character sequence, CCS)と呼びます。 Unicode正規化には、以下の種類があります。

    Unicode正規化 (NFC, NFKC, NFD, NFKD) 変換 Online - DenCode
  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++語リファレンス 追記 全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
    cu39
    cu39 2018/12/23
    Unicode絵文字が当事者意識を持たせたと同時に、中国が無視できないほど存在感のある他者になってきたことも効いてそう。
  • Does Unicode have a defined maximum number of code points?

  • Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo

    Unicode のコードポイントを指定して文字を得たり、逆にある文字のコードポイントを調べたり、ということをする機会は結構多いと思います。 が、Ruby でそれをやる方法をぐぐってもあまり上位に情報が出てこないなー、と思ったので簡単にまとめておきます。 Unicode コードポイントとは そもそも Unicode コードポイントとは何か。 Unicode というのは世界中の文字が集められた文字集合であり、Unicode に収録されている文字には順番に番号が振られています。 この番号のことをコードポイントといいます。 あるコードポイントが指す文字を表現するときに "U+" という文字の後ろに 16 進数表記のコードポイントを書いて表すことがあります。 例えば、コードポイント 0x3041 が指す文字 (ひらがなの 「あ」) を U+3041 と書いて表します。 各文字とコードポイントの関係は

    Ruby にて文字と Unicode コードポイントの相互変換を行う - vivid memo
  • Unicode 内のそれぞれの文字種の範囲 - みちのぶのねぐら 工作室 旧館

    郵便番号データを利用するサンプル を作っている最中に気になって、ひらがな、カタカナなどの文字種の Unicode の文字コードの範囲を調べました。 資料として http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT を使います。 “OBSOLETE” となっていますが参考にはなります。これを表計算のシートに貼り付けて Unicode 順に並べ替えるとわかりやすいです。以下の説明には unicode.org の対応する “Code Charts” の URL も記しておきましたので、個別の字面とコード値の確認のためにご参照ください。

  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • 漢字検索 - 読みや画数などから人名用漢字含む1万字を検索

    特徴: 読みが分からなくとも、漢字の部品(構成要素)や画数などから調べられます 子供の命名に使える漢字で絞り込むことができます JIS第1〜第4水準の10,053文字に対応し(非漢字領域の「〆、仝、々」含む)、日の漢字をほぼ網羅しています 検索結果には異体字もあわせて表示されます 問い合わせの入力方法 以下で、背景が黄色い文字列は入力例です。 よくある例 [金 高] → 「金」「高」の両方を構成要素として 含む漢字。検索結果として「鎬」がヒットし、読みや文字コードなどが表示されます。 [さんずい こう] → 構成要素にさんずいを含み、 読みが「こう」の漢字。例えば「江」などがヒットします。 [さんずい はん 5-6画] → 構成要素にさ んずいを含み、「はん」という読みを持ち、総画数が5〜6画の漢字。例えば 「汎」など。 [にんべん 常用] → にんべんを含む常用漢字。例えば「仁」や「仏

  • Python2.x/3.0のunicode内部表現について : DSAS開発者の部屋

    イントロ Python2.6/3.0共にRC版がリリースされ、正式リリースが近づいて来ました。Python3.0の大きな変更の一つが、 Python2.xのstrとunicodeがunicode文字列のstrに統合され、従来のstrの代わりにbytesを導入することで、バイト列と文字列が明確に分けられたことです。 現在、Python2.5では、unicode文字列の内部表現がucs2のものとucs4のものがあり、それぞれの間では拡張 モジュールの互換性がなくなっています。Python2.6/3.0でこの状況がどう変化するのか調べてみました。 Python2.xのunicode内部表現について Python2.5/2.6では、configureオプションに、--enable-unicode=ucs[24] というものがあり、デフォルトでは2になっています。 また、FedoraやUbuntuの

    Python2.x/3.0のunicode内部表現について : DSAS開発者の部屋
  • Regular Expression: Match Unicode Block Range | korp

    This is an online tool that builds a JavaScript regular expression that matches characters that fall in any number of specified Unicode blocks. [] Selected Code Range Block Name

  • Unicodeの似た文字を整理してみた - y-kawazの日記

    XMLやCSV等のデータをJavaで色々加工して出力したりといったことをしてると必ずハマるのが波線などの文字化け問題です。 文字化けが発覚するたびにググって場当たり的な対処を繰り返すのに疲れたのでよく問題になる文字と形が似た文字をリストアップして、更にそれをJavaで各種エンコーディングに変換したらどの文字になるかを頑張って纏めました。 ついでに文字化けしないよう上手いこと出力可能な文字に置換する関数も作ってみました。 Javaの変換テーブル 表中の U,S,W,E,J はそれぞれ、UTF-8、Shift_JIS、Windows-31J、EUC-JP、ISO-2022-JP で出力した際の文字です。 見た目で分からないくらい似た文字ばかりなので、各セルにマウスカーソルを乗せたらツールチップで確認できるようtitleにコードポイントを書いておきました。 分かりやすいよう、青は文字化けなし、黄

    Unicodeの似た文字を整理してみた - y-kawazの日記
  • Shapecatcher: Draw the Unicode character you want!

    You need to find a specific Unicode character? With Shapecatcher.com you can search through a database of characters by simply drawing your character into a box. It can find the most similar character shapes for your drawing.

  • wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法

    もともと2ちゃんねるで回答されたものみたいですが、「wが縦に二つ重なった文字の出し方教えて」という質問に対して、「ʬ」を出したり、その読み方が「バイラビアルパーカッシブ」だと回答した人はどうやって調べたんでしょうね。 その回答者がこれを使ったかどうかはわかりませんが、ユニコード内の文字だと、ShapeCatcherというサイトで調べられます。 左側のボックスに、マウスで探したい文字を書き、”Recognize”(認識せよ)をクリックすると、下にそれに近い文字が列挙されます。wを縦に二つ書いてみましょう。 コード 0x2ac のラテン文字 bilabial percussive と出ました。 これが難しい漢字とかなら、日語IMEの手書き入力モードでも調べられます。しかし、Windows 7の標準IMEの手書き入力では、バイラビアル・パーカッシブは出てきませんでした。 Unicodeに限らず

    wが二つ重なった文字「ʬ」がバイラビアル・パーカッシブだと調べる方法
  • 従来の文字コードとUnicodeの対応に関する諸問題

    最終更新: 1998.12.20 目次 はじめに 似た文字 旧JISと新JIS ベンダー固有文字 「全角」「半角」 ASCIIとJIS X 0201ローマ文字 おわりに 余談 1. はじめに ISO/IEC 10646とUnicode(以下Unicode)は、いろいろと論議をかもしてきましたが、 すでにいろいろなところで陰に陽に使われるようになってきました。 Windows NTの内部コードがUnicodeであるのはよく知られています。 BeOSでは、内部だけでなく全面的にUnicodeが使われています。 また、Javaのchar型もUnicodeです。 しかし、とくに入出力においては、当分は従来の文字コードと共存することになります。 すなわち、意識するしないに関わらず、Unicodeと従来コードの変換が頻繁に行われます。 変換といっても、Unicodeコンソーシアムが提供しているテーブル

  • 文字コード入門

    コンテンツ一覧 インデックスページ←いまここ コンピュータ上での数値の扱い コンピュータで文字を扱うには? ASCIIとJISローマ字 JIS漢字コード:JIS第一・第二水準 JIS補助漢字・第三・第四水準漢字 中国の文字コード 台湾の文字コード Unicode 大規模文字集合 参考資料(書籍) ページを作るにあたって参考にした書籍です。 川俣晶『パソコンにおける日語処理文字コードハンドブック』技術評論社 芝野耕司編『JIS漢字字典』日規格協会 漢字文献情報処理研究会編『電脳中国学』『電脳中国学II』『電脳中国学入門』好文出版 小池和夫/府川充男/直井靖/永瀬唯/『漢字問題と文字コード』 太田出版 1999 安岡孝一/素子『文字コードの世界』 東京電気大学出版局 1999 ユニコード漢字情報辞典編纂委員会編 『ユニコード漢字情報辞典』 三省堂 2000 小林/安岡/戸村/三上編 bi

  • GitHub - unicode-org/last-resort-font: Last Resort Font

    This repository includes two versions of the Last Resort font: Last Resort and Last Resort High-Efficiency. Although both fonts can be installed at the same time—because they have different names—you are encouraged to download and install only the one that is expected to work in the environments that you use: The file LastResort-Regular.ttf is a font named Last Resort, and its 'cmap' table include

    GitHub - unicode-org/last-resort-font: Last Resort Font
  • 引用符 - Wikipedia

    引用符を用いて注意喚起をしている看板(日語) 引用符(いんようふ)は、約物の一つ。文中において、他の文や語を引用していることを示す役割を果たす記号で、多くの場合一対で引用部分を囲む。引用符号とも呼ばれ、またその英語からコーテーションマーク、クォーテーションマーク、クオーテーションマーク(quotation mark、スペイン語: comillas)と呼ぶ場合も多い。 類型[編集] 直線形[編集] 開始記号と終了記号が同じである。タイプライターやコンピュータで使用する。ただしUnicodeでは使用は推奨されない。なおU+0027の文字名称は歴史的な経緯から「アポストロフィー」となっているが、アポストロフィーとしての使用も推奨されず、閉じシングルクォートと同じU+2019を使う。 形 Unicode(十進) JIS X 0213 文字参照 名称 '…'

    引用符 - Wikipedia
    cu39
    cu39 2010/01/14
    U+0027とU+2019の使い分けはわかりにくい。
  • 備忘録: Unicode, UCS, and UTF : 404 Blog Not Found

    2005年12月20日11:45 カテゴリiTechLogos 備忘録: Unicode, UCS, and UTF まだ混乱が収まっていらっしゃらないようなので、備忘録を兼ねてここでまとめておきましょう。 電脳社会の日語 加藤 弘一 quinta essentia - del.icio.us買収, Yonahあってるかな? Character Set (文字集合) vs. Encoding (符号化) まずこの二つが別物だということを抑えましょう。UCSというのは名前からわかる通り、Character Set (文字集合)です(とはいえ、Unicode.orgのGlossaryを見ると、符号化の一手段にも見えなくはない)。この段階では、各文字は「背番号」を持っているに過ぎません。狭義の「Unicode」はこの「背番号」を指します。 これをどう実際のデータにするのかがEncoding (

    備忘録: Unicode, UCS, and UTF : 404 Blog Not Found
  • Unicodeは文字集合か符号化方式か : 404 Blog Not Found

    2006年11月24日12:30 カテゴリLightweight Languages Unicodeは文字集合か符号化方式か 以下は、電脳で文字を扱う場合の基礎中の基礎なのだが、肝心の記事に重大な誤りがいくつもある。 文字コード規格の基礎:ITpro そろそろ具体的な説明に入ろう。最初にはっきりさせておく必要があるのは次の点だ。一般に「文字コード」と言う場合, 文字の集合 エンコード方法 という要素がある。この二つを区別して考えることが重要だ。もちろん大きな関連はあるのだが,ごちゃごちゃのままでは「わからなく」なる大きな要因となる。ここだ。 これによると、Unicodeは明らかに「エンコード方法」であるが、これは間違い。ここで書かれているものはUCS-2という名前のUnicodeが定めるいくつかの「エンコード方法」の一つであり、しかもUTF-16によって陳腐化した方式である。 まずUnic

    Unicodeは文字集合か符号化方式か : 404 Blog Not Found
  • 絵文字の修正提案をめぐる、ひとまずの総括 - もじのなまえ

    ここ数回、ISO/IEC 10646の追補8(Amd8)として審議中だった絵文字に対し、ぼくもふくめた5人が提出した修正案(N3711)にについてご報告してきました。 正確にはまだ最終決着とは言えない段階なのですが、ひとまずここまでの総括をしたいと思います。 WG2東京会議の審議結果について われわれの文書については、絵文字を一括して審議した分科会「Emoji Ad-Hoc meeting」で取り上げられ、その結果は「Emoji Ad-Hoc Meeting Report」の第17条(p.4)に明記されました。 17. In reference to documents N3711, N3713: The Ad-hoc agreed on a basic goal that names and glyphs for Emoji symbols in the UCS should refle

    絵文字の修正提案をめぐる、ひとまずの総括 - もじのなまえ
    cu39
    cu39 2009/12/11
    「いっそこう言った方が適切でしょう、提案しさえすれば、WG2はそれを拒めないはずだと」
  • 「PDAM8におけるEmoticonに対する修正提案」対訳版 - もじのなまえ

    10月22日のエントリ「自分の持ち場を守ること」に、たくさんのブックマーク、はてなスターをありがとうございました。とても勇気づけられました。明日から東京会議が始まるわけですが、おそらく日程の前半でEmoji Ad hoc meeting(絵文字分科会)が開催され、そこで提案趣旨を述べることになろうかと思います。 そこで、説明のためのアンチョコとして作成した提案書の対訳版を公開します。 ここに掲載するのは、第1節「Preface(前文)」と第2節「Details of the Proposal(提案の詳細)」だけです。第3節は表ですので、これは原文をご参照ください。また、第2節を読むに当たっても、原文第3節の表を参照しながらの方が分かりやすいと思います。 - 1. Preface(前文) 1.1 Reason of This Proposal(提案する理由) We welcome the p

    「PDAM8におけるEmoticonに対する修正提案」対訳版 - もじのなまえ