タグ

unicodeに関するmas-higaのブックマーク (47)

  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

    ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
  • あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿

    こんにちは!アルダグラムのKANNAの開発お手伝いをさせて頂いているoubakiouです。 記事は株式会社アルダグラム Advent Calendar 2023 6日目の記事です。 この記事を読めば以下のTypeScript(JavaScript)のテストコードがなぜこけるのかが分かったような気持ちになります。また最後に「細かい理屈はいいからいけてる感じに動くlengthやtruncateがほしい!」という方向けの付録もついています。 it('surrogate pair', () => { // 2 expect('😊'.length).toEqual(1) }) it('variation selectors', () => { // 4 expect('👍🏿'.length).toEqual(1) }) it('combining character', () => { //

    あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿
  • ユニコード15.1に採用された漢字構成記述文字記号|Qvarie

    令和5年9/12にユニコード15.1が正式公開され、CJK漢字拡張-Iの他に“漢字構成記述文字”に指示記号4種、“CJK筆画”に拡張漢字構成記述文字の指示記号が1種類追加されました。ユニコードに採用されていない字の説明がしやすくなったのが重要です。𝚄+𝟹𝟷𝙴𝙵の一部除去指示記号は文字構成要素の一部が削除されていることを示す記号です。 漢字構成記述文字記号をラテン・ギリシャ・キリル各文字体系に応用した例で、ユニコードに採用されていない左右逆になる字形と逆になる字形を説明しやすくなりそうです。画像はにしき的フォントに含まれるユニコード未登録のラテン・ギリシャ・キリル各種字母を漢字構成記述文字記号で説明した例です。

    ユニコード15.1に採用された漢字構成記述文字記号|Qvarie
    mas-higa
    mas-higa 2023/10/04
    なるほどわからん。漢字構成記述文字で指示するのはいいけど、グリフはどうなってるの?
  • アイヌ語仮名「ㇷ゚」に対する正規表現の罠

    導入 アイヌ語は日語と異なり、閉音節(子音で終わる音節)も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる(実はそれでもまずい事になっているけどここでは割愛する)が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名(小書き仮名文字)を利用することになっている。 具体的には以下のような特殊仮名文字(通称 アイヌ語仮名)である。 ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r

    アイヌ語仮名「ㇷ゚」に対する正規表現の罠
    mas-higa
    mas-higa 2023/09/01
    結合文字は 1文字という理解で正しければ、正規表現で 1文字を正しく扱えていないという話かな? 昔マルチバイト文字に対応してないプログラムが Shift JIS や EUC の文字の途中で分割して文字化けしたりしてたのと似てる
  • ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~

    NFCではそのまま「パ」として表されますが、NFDでは「ハ」(基底文字)と「゜」(結合文字)の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」(合成文字)で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。 このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。 特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる

    ファイルアップロードではNFC/NFD問題に気をつけろ!~MacファイルシステムにおけるUnicode正規化の闇~
  • 「多様な肌色の絵文字」を開発した黒人女性はそのアイデアをアップルに盗まれた | アップルは外部のアプリ開発者に不利な条件を課し、利益を巻き上げる

    スマートフォンなどの絵文字では、多様な人種を表すために肌の色が変えられるようになっている。このアイデアを初めに形にし、推進したのはあるアメリカの黒人女性だったが、アップルにアイデアを盗まれ、彼女は充分な対価を得られなかった。そのため、著作権侵害でアップルを起訴し、現在裁判が進行しているという。 インクルーシブなアプリのアイデア カトリーナ・パロットには、それは夢のようなことだった。自分の考案したアプリのプレゼンテーションをするため、カリフォルニア州クパチーノのアップル社に招かれたのだ。テキサス州のNASAに解雇されて1年も経たたない今、自分が先駆けて開発した「肌の色を選べる絵文字」について、あのiPhoneメーカーと事業提携の話し合いをするのだ。

    「多様な肌色の絵文字」を開発した黒人女性はそのアイデアをアップルに盗まれた | アップルは外部のアプリ開発者に不利な条件を課し、利益を巻き上げる
  • 平衡点(2020-12-18)

    I use cookies to analyze how visitors use my website via Google Analytics: Accept Reject Dismiss _ emacs -nw でこの先生きのこるには。 🍄 (2020/12/20 ひっそりと修正。 mintty, wsltty はファイルに設定を書くのであった)。 はじめに. この文書はEmacs Advent Calendar 2020の12/18(金)分の記事です。 昨日はfiboさんのemacs -nw のコピペ事情でした。 手元では gpaste + xclip で生活してますが、 …ネットワークごしのコピペは面倒そうですね。 さて。 最近Emacs絡みで頑張った事と言えば, ターミナルでもall-the-icons.elしたくて, isfit-plusを作ったぐらいだったので, 特に記事

    平衡点(2020-12-18)
  • (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血

    (表ではフォントに源ノ角ゴシックを指定しているので、インストールしてない人はsource-han-sansからどうぞ。どのファイルか迷う人はSuperOTCを入れればOK。) 百聞は一見にしかず、次の表に適当に漢字を比較させてみたのでどうぞ。 国および地域別のUnicodeコードポイントとグリフの比較 地域 言語タグ U+9AA8 U+6B21 U+771F U+4E03 U+904D 台湾(繁体字) zh-Hant-TW 骨 次 真 七 遍 香港(繁体字) zh-Hant-HK 骨 次 真 七 遍 中国(簡体字) zh-Hans 骨 次 真 七 遍 日(参考) ja 骨 次 真 七 遍 韓国(参考) ko 骨 次 真 七 遍 …とそれだけではあまりにも味気ないので、補足説明をほんのちょっと。 ふと簡体字と繁体字を言語コードで表すときに、zh-Hansとzh-Hantとしましょうというと

    (メモ)同じ繁体字でも台湾と香港ではグリフが違う話 - 水底の血
    mas-higa
    mas-higa 2020/08/04
    "表ではフォントに源ノ角ゴシックを指定している" それ以外のフォントでは zh-Hant-TW と -HK を区別していないということ? / あ、twitter 引用の中に書いてあった
  • Windows と日本語のテキストについて - Windows Blog for Japan

    すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画テレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W

    Windows と日本語のテキストについて - Windows Blog for Japan
    mas-higa
    mas-higa 2020/02/21
    ハート付きう○こは表示できるようになるのかね?
  • Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始

    Googleのキーボードアプリ「Gboard」で、「ハート付きうんち」や「悲しい顔をしてキス」などの“ミックス絵文字”を使えるようになる。 米Googleは2月12日(現地時間)、Android向けキーボードアプリ「Gboard」の新機能「Emoji Kitchen」を発表した。2つの絵文字をミックスしてカスタマイズした絵文字を使える。同日からすべてのGboardユーザー向けにロールアウトしていく。 Gboardをメインのキーボードに設定し、Gmail、Googleのメッセージ、メッセンジャー、Snapchat、Telegram、WhatsAppなどのアプリでの入力で絵文字を選ぶと使える(稿執筆現在、筆者のGboardではまだできない)。 自分で新しい絵文字を作れるわけではないようだ。公式ブログには、「絵文字をタップすると、Googleのデザイナーが特別に手作りしたステッカーが(候補とし

    Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
  • Ruby 2.7 の変更点 - Encoding / Fiber / FrozenError - tmtms のメモ

    Ruby 2.7 アドベントカレンダーの19日目の記事です。 qiita.com Encoding::CESU_8 追加 Fiber#raise 追加 FrozenError#receiver 追加 Encoding::CESU_8 追加 自分は知らなかったのですが、Unicode の文字エンコーディングに UTF-8 の亜種で CESU-8 というのがあるらしく、2.7 でそれに対応しました。 通信用語の基礎知識 より: UTF-8の亜種の一つで、Oracleが使っている不届き千万な仕様の一つ。 UTF-8(RFC 2279 [外部リンク] )では、サロゲートペアは適時解釈してから符号化せねばならない。 しかしこのCESU-8は、サロゲートの各ペアを機械的にUTF-8に変換するのみであり、supplementary characterは6バイトで表現される。これはUTF-8の仕様から

    Ruby 2.7 の変更点 - Encoding / Fiber / FrozenError - tmtms のメモ
    mas-higa
    mas-higa 2019/12/24
    “UTF-8 の亜種で CESU-8 というのがあるらしく” arton さんがリクエストしてたやつか?
  • 「旗の絵文字」を巡って衝突する、当事者と政府と企業の思惑

    mas-higa
    mas-higa 2019/12/11
    unicode はクソ
  • char8_tによせて - なるせにっき

    C++標準化委員会、ついに文字とは何かを理解する: char8_tという記事が話題だってので、つらつらと書いてみました。 「グリフ」について グリフ(glyph)という言葉の定義をめぐって でも触れられていますが、「グリフ」という言葉が「字体」を指すのか「字形」を指すのかってのは議論がありますね。文字コードの文脈では普通「字形」の意味だとして話を進めることが多いように思います。 CJK統合漢字について Wikipediaの記事にまとまっていますが、実際に推進していたのは中国みたいですね。うまくやればあんまり問題なかったんでしょうが、あんまりうまく行かなかったんですが、それでも国ごとにその国の過去にあった文字コードとの互換性は取れているので、実際の所CJK統合漢字ってあんまり問題にはなってないと思うんですよね。中国フォントと日フォントを切り替えないといけないって問題はありますけど、それ

    char8_tによせて - なるせにっき
    mas-higa
    mas-higa 2018/12/25
    s/各言語/書く言語/ かな?
  • 現在のUnicodeモンゴル文字の問題点と最近の動き - にせねこメモ

    モンゴル文字は、主にモンゴル語表記のための文字*1である。縦書き専用の文字であり、日語の場合とは反対に左から右へと行を進める。また、アラビア文字のように続け書きされ、文字が語のどの位置に来るかによって形が変わる。 モンゴル文字は現在も中国の内モンゴル自治区でモンゴル語の表記に現役で使用されている。他方モンゴル国ではソ連の影響下でモンゴル語の表記をキリル文字に切り替えたので、モンゴル文字は学校で習いはするものの一般にあまり使われない。 Unicode 3.0からモンゴル文字がシベ文字・トド文字・満州文字と統合されて収録されているため、コンピュータでこの文字を入力するにあたっては、独自の符号化方式を作成するのでなければUnicodeを利用しようとするのが当然に思える。しかし、現状のUnicodeモンゴル文字は致命的な欠陥を抱えている。 このエントリでは、2017年ころからUnicode Te

    現在のUnicodeモンゴル文字の問題点と最近の動き - にせねこメモ
    mas-higa
    mas-higa 2018/03/05
    "音声情報を符号化することを強く推している" の時点で「アホか」と思ったが、読み進めると「あぁ気持ちは分かる」となってモンゴル文字難しすぎる。
  • TechCrunch

    The U.S. construction landscape looks much different this week compared to last Friday, following the amendments to the Davis-Bacon Act that went into effect earlier this week. SpaceX will launch four navigation satellites for the European Space Agency (ESA) amid ongoing delays with homegrown next-generation launch vehicles. The Wall Street Journal was the first to break the

    TechCrunch
  • Unicodeと異体字とフォントについて調べてみた - Qiita

    はじめに 外字について色々調べているうちに、自分自身がUnicodeや異体字について、ちっとも分かっていないということが分かりました。そこで、調べた内容をまとめてみました。 情報の密度よりも、文字コードやフォントに関わるときの最低限の知識として、またはCheatsheetとして読み返せる内容としてまとめたつもりです。 誤った内容があればご指摘頂けると幸いです。 JIS97 JIS漢字コードはJISが規定した文字集合。俗にJIS漢字コードというと以前はJIS97を指し、正確には「JIS X 0208:1997」という規格である。 6,879個の図形文字を規定。漢字は第一水準と第二水準を搭載。基的には、区と点で表現し区点コードによって配置している。区点コードは全角文字(非漢字含む)の定義であり、半角文字は含まれていない。 区点コードのような文字集合の中での配置番号を「コードポイント」と言う。

    Unicodeと異体字とフォントについて調べてみた - Qiita
  • Unicode「合字」使う企業は修正が必要に、日本マイクロソフトが新元号対応

    2018年中に新元号が公表される見通しになったことを受けて、ITベンダーが顧客企業のシステムや自社のソフトへの影響調査に動き出した。焦点の1つが元号を一文字にまとめて表示する「合字」の取り扱いだ。Unicodeに新元号の合字を登録することが検討されている。日マイクロソフトは合字の処理方法をはじめ、同社製品の元号に関する影響を調べる。結果に応じて同社製品の改修や顧客企業への情報提供を検討する。合字を使っている企業はシステム改修が必要になる。 「改元は極めて複雑な、非常に多くの検討事項や作業が必要になる」。日マイクロソフトはブログを通じて、改元に対応したシステム関連作業についてこう指摘する。作業の一例として元号を表示する合字への対応を挙げる。合字とは「㍻」「㍼」など、いくつかの文字を一文字で表示したものだ。 経済産業省 国際電気標準課によれば「新元号の合字へコードを割り当てる検討が始まって

    Unicode「合字」使う企業は修正が必要に、日本マイクロソフトが新元号対応
    mas-higa
    mas-higa 2017/12/06
    "システム改修が必要になる" なら、ちゃんと二文字で扱えよ。
  • 絵文字を支える技術の紹介 - Qiita

    絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。 Ruiさんの記事を見て、「EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜」思って書いてみました。 なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。 またQiita初めてなので読みにくい部分等がありましてもご容赦ください。 サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。 サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました

    絵文字を支える技術の紹介 - Qiita
    mas-higa
    mas-higa 2017/11/16
    もしかして U+1F37A に U+1F3FF で黒ビールが!?
  • 絵文字の標準化に関して裏で暗躍していた人の話のまとめ

    Kazuhiro Kazama @kazuhiro_kazama 「一番最初にUnicodeへの絵文字の規格化を提案したのはGoogleだが、そのまま店晒し状態になり、」は木田さんの勘違いで,Google側は公開した仕様の改良と各方面の意見聴取をしていました. macotakara.jp/blog/report/en… 2016-03-11 18:20:10 Kazuhiro Kazama @kazuhiro_kazama もう時効だと思うのでカミングアウトしますが,G社のMさんがau用の絵文字相互変換ライブラリを20%ルールでOSS化する件を私に相談してきた時に,そうではなくUnicode Standardでの仕様化を行うべきだと強く主張したのが私だからです. 2016-03-11 18:22:47 Kazuhiro Kazama @kazuhiro_kazama 当時はまだガラケーの時

    絵文字の標準化に関して裏で暗躍していた人の話のまとめ
    mas-higa
    mas-higa 2017/11/15
    D社の戦略ワロタ
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
    mas-higa
    mas-higa 2017/11/13
    "正直UTF-16は最初から発明されないほうがよかったエンコーディング"