タグ

unicodeに関するrryuのブックマーク (14)

  • Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas

    2020年3月にリリースされた Unicode 13.0 では、「日で最も画数が多い字」とも呼ばれる「たいと」という漢字と宮沢賢治の詩の中に出てくる「鏡」を4つ組み合わせた漢字が収録された。また、Unicode 13.0 における部首の例示フォント変更についても触れる。 はじめに Unicode は世界の様々な文字をコンピュータ上で統一的に扱うための国際規格である [1] 。Unicode には毎年のように新しい文字が追加されており、2020年3月にリリースされた Unicode 13.0 では 5,930字が追加されている [2] 。 Unicode 13.0 での漢字の追加 Unicode 13.0 で追加された文字の大半は漢字である。Unicode 13.0 では、漢字 [3] を追加するためにCJK統合漢字拡張G (CJK Unified Ideographs Extension

    Unicode 13.0 で新しく収録された日本語の漢字|Colorless Green Ideas
  • クメール文字が書けない - Helpfeel社のScrapboxを一部公開

    書いたrakusai.icon クメール文字を徹底的に解説する split-graphemesとして実装した 国旗の絵文字に対応してほしいと同じ問題なのかなakix.icon 合字? ほぼ同じ問題だが、クメール文字のほうが難しいrakusai.icon これをコピペすると こうなる ខ្ញុំមិនអាចនីយាយភាសាខ្មែរបានទេ។ この化けたLigatureをコピーしてTextEdit.appにペーストすると、元の文字列になるshokai.icon むずい...rakusai.icon タイ語も似てる気がする。 ภาษาไทย วันนี้ฉันได้อ่านหนังสือมาดีแล้ว これも問題があるっぽいrakusai.icon フォントが合字を認識して勝手に連結表示している 例: Fira Codeというフォントをインストールすると演算子が合字になる リガチャ(合字

    クメール文字が書けない - Helpfeel社のScrapboxを一部公開
    rryu
    rryu 2020/01/10
    Unicodeの合成文字を無視してコードポイントで分割してspanでくくったら機能しないのは当然というか。
  • Home

    Everyone in the world should be able to use their own language on phones and computers. Learn More about Unicode

    Home
    rryu
    rryu 2019/08/19
    unicode.org がリニューアルされて偽サイト感が高まっていて困惑している。
  • pͪoͣnͬpͣoͥnͭpͣa͡inͥを支える技術 - Qiita

    pͪoͣnͬpͣoͥnͭpͣa͡inͥの作り方 ぽんぽんぺいんを簡単に作るサイトを作ったのでよかったら使ってみてください。 【ここをクリック】 ponponpain(haraita-i)とは 画像でいうとこんなやつのこと。 今回参考にさせていただきましたが、以下のサイトによくまとまっていると思います。 不思議な文字 pͪoͣnͬpͣoͥnͭpͣa͡inͥ | bison's brain at postachio ぽんぽんぺいん ‐ 通信用語の基礎知識 まあ要するに、不思議な上付き文字を組み合わせて、文字に副題(ルビ)をふろうって感じの遊びのことで、昔流行ったみたいです。 今回はクリックだけで上付き文字を加えられるサイトを作ったのでぜひみんなに遊んでほしいなと思っています。 投稿について UbuntuのChromeだと綺麗に表示されないのですが、Twitterだといい感じになるみたいです。

    pͪoͣnͬpͣoͥnͭpͣa͡inͥを支える技術 - Qiita
    rryu
    rryu 2019/04/27
    ダイアクリティカルマークにアルファベットそのままのがあるんだ。
  • モンゴル文字とUnicode - にせねこメモ

    調べたのでまとめる。 モンゴル文字は主にモンゴル語を表記するための文字であり、中国内の内モンゴル自治区で使われる。一方でモンゴル国内では一般にキリル文字表記が使われている。 ここではモンゴル語表記の場合についてを書き、モンゴル文字から派生したトド文字、シベ文字、満州文字等については省略する。 特徴 左縦書き。つまり縦書き(上→下)で、かつ行は左→右へ書く(日語と逆) 語頭形(及び独立形)・語中形・語末形をもち、語のどの位置に書かれるかによって文字の形が異なる。また、それ以外にも特別な別形を持つ文字がある(10種持つ文字もあるらしい)。 単語は空白で区切られるが、単語の中にも空白(字空け)が現れうる。 宗教的なテキストのために、サンスクリット語やチベット語表記用の文字が追加されている。 チベット数字を元にした独自の数字をもつ。縦書き中でも左→右に横書きされるらしい*1。最近は回転させて文の

    モンゴル文字とUnicode - にせねこメモ
    rryu
    rryu 2018/07/20
    モンゴル文字もなかなかに複雑だな…
  • ISO/IEC 10646:2017発行 | スラド IT

    ISO/IEC 10646の第5版が、無事に発行されたとの連絡をいただいた。NHKニュースは、どうも質的なところを伝え切れていない気がするが、要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。 規格全体がISO Freely Available Standardsからダウンロード可能だが、PDFで2702ページもあるので注意すること。なお、戸籍統一文字のうち106870は、今回のISO/IEC 10646:2017から漏れてしまっており、今後U+9FEEあたりに緊急追加をおこなう予定である。 IPAは変体仮名の国際規格化も進めており、ISO/IEC 10646の追補版として2018年3月末までに発行される見込みだという。これが完了すれば、漢字、変体仮名全ての国際規格化が完了することになるようだ。

    rryu
    rryu 2017/12/26
    『NHKニュースは、どうも本質的なところを伝え切れていない気がするが、要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ』
  • Unicode 10.0.0、リリースされる | スラド

    昨日(6月20日)付でUnicode 10.0.0がリリースされたとの連絡を、日時間の今日(6月21日)にいただいた。今回のリリースでは8518字が追加されていて、うちCJK統合漢字拡張Fが7473字(U+2CEB0~U+2EBE0)、変体仮名が285字(U+1B002~U+1B11E)の追加である。 私(安岡孝一)個人としては、これで戸籍統一文字と住民基台帳ネットワーク文字がほぼ一段落したのがありがたいが、5月23日・24日の日記にも書いたとおり、多少、問題が積み残しとなってしまった。また、絵文字の追加(U+1F900~U+1F9E6)や、「BITCOIN SIGN」の追加(U+20BF)は、今後、微妙な禍根を残す気がしないでもない。 まあ、とりあえずは、戸籍統一文字と住基統一文字のIVS提案を、早急に進めてもらうべきかしら。

    Unicode 10.0.0、リリースされる | スラド
    rryu
    rryu 2017/06/21
    通貨記号にBitcoinが追加されるとは。
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
    rryu
    rryu 2017/03/13
    普通の漢字と全く同じ字形の部首が収録されているのか。
  • FAQ - Unicode and ISO 10646

    Q: What is the relation between ISO/IEC 10646 and Unicode? In 1991, the ISO Working Group responsible for ISO/IEC 10646 (JTC 1/SC 2/WG 2) and the Unicode Consortium decided to create one universal standard for coding multilingual text. Since then, the ISO 10646 Working Group (SC 2/WG 2) and the Unicode Consortium have worked together very closely to extend the standard and to keep their respective

  • bitbucketの使い方

    With best-in-class Jira integration, and built-in CI/CD, Bitbucket Cloud is the native Git tool in Atlassian’s Open DevOps solution. Join millions of developers who choose to build on Bitbucket.

    bitbucketの使い方
    rryu
    rryu 2015/08/03
    なんのひねりも無く「U+2780 ➀ DINGBAT CIRCLED SANS-SERIF DIGIT ONE」で収録されているのか。
  • Linus Torvalds、HFS+に激怒

    CVE-2014-9390 aka "Git on case-insensitive filesystems" I did not give the… gitが影響を受けた、HFS+で、一部の文字を区別しなかったり無視したりする問題に対して、Linusが吠えている。 マジで、HFS+はたぶん最悪のファイルシステムだな。クソすぎるぜ。NTFSもutf8の正規化で似たような問題(/の非正規化された表現を使用)があったが、まあ、今は修正されたんだろうよ。OS Xの問題は根的すぎる。 そりゃ、古いさ。そりゃ、データ保護がクソすぎるってのはあるさ。だが、そういうのは、単に「すげーファイルシステムじゃない」って問題だ。「自分のケツすら拭けないマヌケによって設計された信じがたいクソ」ってわけじゃない。 HFS+の恐ろしさは、すげーファイルシステムではない、ということではない。いいアイディアがあると信じ

    rryu
    rryu 2015/01/15
    名前が同じに見えるファイルが複数存在しないように頑張っているのだとは思うが、それはHFS+でなくてFinderに実装すべきだったのだろう。
  • Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita

    Stringの比較は正規化をかけた上で行われる Swiftの文字列比較は,Unicode正規化をかけた上で行われます。 たとえば,次の例をご覧ください。 let gaC = "\u{304C}" // 「が」の結合形 let gaD = "\u{304B}\u{3099}" // 「が」の分解形 // NSString としての文字数(UTF16での文字数)は異なる (gaC as NSString).length // => 1 (gaD as NSString).length // => 2 // String としての比較 gaC == gaD // => true (!!) これは,こちらのサイトによると, Depending on your requirements, this may or may not be what you want, but it is certainl

    Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita
    rryu
    rryu 2014/10/27
    正規化して比較するメソッドがないのはNSStringでやれということかと思っていたら実際はbyte by byteで比較する方が無かったとは。
  • Unicodeで伝わる間違った日本文化 - Folioscope

    寒くなってきた今日このごろ、おでんがべたくなったらUnicodeのU+1F362がある。 しかしU+1F362には大きな間違いがある。 それはUnicode Character Code ChartsのMiscellaneous Symbols and Pictographsに載っている。 seafood on skewer、日語にすると「串に刺さったシーフード」である。 確実に僕の知っているおでんの定義じゃない。 念の為、「seafood on skewer」で画像検索してみる。 やっぱり僕の知らないおでんだった。 おまけ1 おでんの定義、ドラフト時には更によくわからなく、SEAFOOD CASSEROLE (Temporary Notes: seafood hotchpotch, oden)、日語に訳すと「シーフード鍋料理(シーフードの鍋、おでん)」である。 SEAFOOD CA

    rryu
    rryu 2014/10/12
    串に刺さっているというところが重要なのだと思うが、ともあれ、あれを一言で表すのは難しすぎる。
  • Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ

    もうすぐお正月だし、こんな図を作ってみたんだけどね。 十二支ですか? いろんな国の十二支? そうそう。実はこれ全部、「どこの国の十二支の何番目の動物」という情報まで含めて、Unicodeのコードチャートに載ってるものなんだよね。 いちばん左の列が標準的な十二支ってことですね。 うん。日だと、12番目のイノシシだけが独自仕様だな。それが標準仕様だとブタ。 カザフスタンでは、来年の干支はカタツムリですか。 よくわからないけど、そうなのかな。 このペルシアのネズミは、どうして小さいんですか? 標準仕様のネズミの絵を縮小したみたいに見えますけど。 それはネズミの種類が違うんだよ。ドブネズミとハツカネズミ。 え? でもこれ、文字なんだから、たとえばゾウでもアリでも同じ大きさに描かれるものですよね。 原則は、そうだね。 じゃあ、どうしてドブネズミを縮小したのがハツカネズミなんですか? まあ、ちょっと

    Unicodeで見る各国の十二支 - 帰ってきた💫Unicode刑事〔デカ〕リターンズ
    rryu
    rryu 2013/06/05
    ほんとだ。「1F401 MOUSE first of the signs of the Asian zodiac, used Persia」って書いてある。
  • 1