タグ

unicodeに関するkei2100のブックマーク (9)

  • 絵文字を支える技術について|nona

    はじめにこちらはmhidakaが建立したAdvent Calendar Day.3となります。 こんにちは、はじめまして、のなと申します。mhidakaさんのTweetを見つけて、初めてAdvent Calendarなるものを書いています。なにかお作法間違っていたら大目に見てください、よろしくお願いします。 軽く自己紹介をさせていただくと、普段はGoogleAndroidTextまわりの開発を行っており、DroidKaigiやShibuya APKで発表させていただいたりしています。最近はほぼ絵文字の話しかしてないので、絵文字おじさんと思われてそうですが、普段の仕事絵文字に限らず、Androidの文字表示の部分は大抵面倒をみています。 今回この機会をいただいたので、どんな内容を書こうか迷ったのですが、やはり皆が読んで面白い内容というと、絵文字になるのかなぁ、ということで性懲りもなく絵

    絵文字を支える技術について|nona
  • MySQLの正規表現がGrapheme Clusterに対応していた - tmtms のメモ

    「竈門禰󠄀豆子」を MySQL に保存できるとかできないとかいう話題を見て、そう言えば MySQL の Grapheme Cluster 対応ってどうなってるんだっけ…と思ってググってみたら、MySQL 8.0.28 のリリースノートにこんな文を見つけた。 International Components for Unicode version 67 introduced a new implementation for \X (match a grapheme cluster), which requires locale data not currently included with MySQL. This means that, when using the version of ICU bundled with MySQL, a query using \X raises th

    MySQLの正規表現がGrapheme Clusterに対応していた - tmtms のメモ
  • ハイフンとかダッシュとかUnicodeにあるたくさんの横線(全135文字)

    鈴木です。ラズパイ部がやや休止中気味です。私の久しぶりの記事は、Unicodeにある横棒のコレクションです。 ハイフンとかダッシュとか、半角と全角とか、複数あることはご存じの方も多いと思います。Shift-JISとの変換で悩まされるケースもありますよね。 Unicodeにあるハイフンとかマイナスとかダッシュとか、横線に見える文字をある程度を一覧にしたブログなどはたくさん見つかるのですが、結構漏れがあったりします。自分で納得できるレベルにまで網羅した横線一覧がなかなか見つからなかったので、自分で作りました。せっかくなのでここに公開しておきます。 ハイフンやカタカナの長音記号など、直線が横に延びているものが対象で、縦方向や斜めの線は除きます。 ほとんど横方向だけどちょっとだけ傾いているものや、端にちょっとしたハネとかうろことか付いているもの、太さが途中で変わっているものは含めました。横線の場所

    ハイフンとかダッシュとかUnicodeにあるたくさんの横線(全135文字)
  • 文字コード嫌いだ - Qiita

    WEBシステムの構築をしていて、文字コード関連でつまずくことがよくある。 そのたびに、何やったけ?って悩むことが嫌なのでまとめていきます。文字コード関連は、ほんとにめんどくさくていやだ。クライアントも、サーバもDBも全部UTF-8にしてやれば良いのに。。。 全角チルダ問題 簡単にいうと、SJISとUTF-8で文字コードもマッピングがずれている問題。 なんでこんなことになっているのか。。。 どのような事象か 見た目がほぼ同じな「〜」(波ダッシュ)、「~」(全角チルダ)という二つの文字がそれぞれUTF-8で「0x301C」「0xFF5E」の文字コードが割り当てられています。しかし、Sjisでは、「〜」(波ダッシュ)が「0x8160」、「~」(全角チルダ)は対応なしとなっています。そのため、SJISに変換するときに対応する文字がないということがあり得てしまいます。 ■SJISとUnicodeの変

    文字コード嫌いだ - Qiita
  • Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart

    Unicode-Compart is a site dedicated to Unicode and all things related to Unicode, characters, glyphs and internationalization

  • 文字コード地獄秘話 第1話:Unicodeにおける全角・半角 | ALBERT Engineer Blog

    ごあいさつ 皆様はじめまして、文字コードおじさんです。細々とカメラ屋を営んでおりましたが、エンジニアとしての技量を評価され、ALBERTのシステム開発・コンサルティング部で働くことを許されました。特技はサーバーの統廃合です。 今回は最初ということですが、Unicodeにおける全角・半角の取り扱いについて触れてみようと思います。なお、さも連載するかのように第1話と銘打っていますが、上層部の無慈悲な裁決によっては1話打ち切りもありえますので、その際はご容赦ください。 固定観念を捨てよう 「全角50文字、半角100文字まで」といったような文言を見かけたことがあると思います。 特にUnicode以前のレガシーな処理系では全角文字に2バイト、それ以外は1バイトという割り当てが慣習となっていました。 このため、「全角=2バイト文字、半角=1バイト文字」という観念が世間に定着しているのが現状です。 しか

  • Unicode - CyberLibrarian

    対応する日語による文字の通用名称がJIS X 0221:2020に掲載されている場合は、それらを採用しました。 ■はJIS X 0213に含まれている文字です。 JIS X 0213に含まれている非漢字には、JISに掲載されている「日語通用名称」を「JIS名称」の欄に、JISコードを「JIS」の欄に掲載しました。ただし、Unicodeでは文字が単独で登録されていない25字と、非漢字ではなく漢字として登録されている1字は例外です。 ブロック名等は、基的に「Character Code Charts」(文字コード表)に基づいています。 表示上の便宜のため、合成可能記号の前にはU+25CC(DOTTED CIRCLE)を配置してあります。 フォント 文字が正しく表示されない場合は、次のサイトなどでフォントを見つけてインストールすれば表示されることがあります。 また、各文字コード表のページか

  • Unicode(東アジア) - CyberLibrarian

    Unicodeの字種の表です。 下表のリンク先のページに、十六進数の数値文字参照で記述した文字コード表を掲載しています。文字コード表中の各文字は、ユニコード・コンソーシアムが提供しているUnihanデータベースの該当文字へリンクしてあります。文字コード表中の文字は、環境によっては正しく表示されない場合がありますが、各ページからリンクしているPDFでは正しく表示されます。 字源的には同じだが字形の異なる中国語、日語、朝鮮語、ベトナム語の漢字に同じコードを与えて統合した漢字です。 CJK統合漢字、拡張Aと拡張Bには、JIS X 0213の漢字が含まれています。 拡張Bには、多数の重複字の存在が指摘されています。 拡張Fには、文字情報基盤整備事業が提案した漢字(1,645字)、大蔵経テキストデータベース研究会が提案した漢字(2,884字)も含まれています。 拡張Gには、大蔵経テキストデータベー

    kei2100
    kei2100 2019/05/13
    東アジア 文字集合
  • ハイフンに似てる文字の文字コード - Qiita

    語環境ではハイフンっぽく見える文字が何種類も有ります。 そのせいで、住所入力欄などでハイフン(っぽい文字)でバリデーションにひっかかってイライラするということが多々有ります。 一般のユーザーがハイフンっぽい文字の違いを理解しているはずもないので、ハイフン系文字の内、特定の1つだけを許容するようなバリデーションルールを設定してしまうと、ユーザビリティを低下させてユーザの離脱を招きます。 ハイフンっぽいものは全部入力できるようにして、サーバサイドで統一的な文字に置換するほうが良いでしょう。 というわけで、日語環境で入力できるハイフンをまとめてみました。 文字 UTF-8 Unicode 説明

    ハイフンに似てる文字の文字コード - Qiita
    kei2100
    kei2100 2016/10/14
    ハイフン ダッシュ hyphen dash
  • 1