タグ

unicodeに関するgayouのブックマーク (37)

  • Unicode絵文字の仕組みをみてみる

    Unicode絵文字で使われている仕組み、特に、複数の文字を組み合わせて1つの絵文字を組み立てる「Emoji Sequences」のことは意外と知られていないかもしれません。Unicode絵文字がどのように成り立っているか、ひととおり大雑把に紹介してみます。 例えば: ❤️‍🔥 (heart on fire) ← ❤️ + ZWJ + 🔥 ❤️‍🩹 (mending heart) ← ❤️ + ZWJ + 🩹 🏳️‍⚧️ (transgender flag) ← 🏳️ + ZWJ + ⚧️ 🏳️‍🌈 (rainbow flag) ← 🏳️ + ZWJ + 🌈 🏴‍☠️ (pirate flag) ← 🏴 + ZWJ + ☠️ 🐕‍🦺 (service dog) ← 🐕 + ZWJ + 🦺 🐈‍⬛ (black cat) ← 🐈 + ZWJ + ⬛ 🐦‍

    Unicode絵文字の仕組みをみてみる
  • 厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena

    こんな感じで都道府県別の感染者数を表示できるようにしてるわけですが、厚生労働省のフォーマットが変わってしまったのでまとめておく。 nowokay.hatenablog.com 新しいものはこれ https://www.mhlw.go.jp/content/10906000/000628667.pdf いままでのはこれ https://www.mhlw.go.jp/content/10906000/000627630.pdf いままでも連番が入るとか数値にカンマが入るとかちょこちょこ変更は入ってたのだけど、今回はデータの意味も結構かわってしまった。 重症者やPCR検査数も入ったので、データとしては よりよくなったわけではあるけど。 東京のデータも都の発表値と一致するようになって、改めて都のデータをとりにいく必要がなくなったのもいいですね。 ということで困ったところ 「不明」・・・いままでゼロ

    厚生労働省の都道府県別陽性者のフォーマットががらっと変わってしまった - きしだのHatena
    gayou
    gayou 2020/05/11
    康煕部首の「長」かと思ったらまた違うコードっぽい。unicodeの世界は広い。
  • 【MySQL】大文字小文字、全角半角区別しないでマッチする検索をしたい at softelメモ

    問題 select * from member where namae like '%サトウ%'; こんなSQLで、namaeがサトウ、サトウ、さとう、サトウ(一部半角)何でもマッチさせたい! 答え では、これで。 select * from member where namae collate utf8_unicode_ci like '%サトウ%'; データベースがutf8でないときは、もうひとつ変換を入れて、 /* ERROR 1253: COLLATION 'utf8_unicode_ci' is not valid for CHARACTER SET 'ujis' など言われたら */ select * from member where convert(namae using utf8) collate utf8_unicode_ci like '%サトウ%'; 数字の全角/半

    【MySQL】大文字小文字、全角半角区別しないでマッチする検索をしたい at softelメモ
    gayou
    gayou 2019/10/16
    便利だ。
  • Engadget | Technology News & Reviews

    Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

    Engadget | Technology News & Reviews
  • 康煕部首 - Wikipedia

    このWikipediaでは言語間リンクがページの先頭にある記事タイトルの向かい側に設置されています。ページの先頭をご覧ください。

    gayou
    gayou 2019/08/04
    部首をunicodeに収録してたのか。
  • 『日本・中国・台湾・香港・韓国の常用漢字と漢字コード』(PDF版)

    gayou
    gayou 2019/08/04
    興味深い。
  • UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表) - Qiita

    UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表) 것 = Hangul など、文字列から language を detect したい 文字列内で使われている文字の種類(ハングル文字、アラビア文字、タイ文字、etc)を、スパム検知などの成分、つまり機械学習の特徴の1つとして使いたい。 言語の検知はできなくても、少なくとも文字列内で使われている文字がハングル文字・ひらがな・カタカナ・etc なのかを取得できないか。 TL;DR(ユニコード文字データベース、文字コード割り当て表) Unicode には、各言語の文字(キャラクター)のブロックごとに名前が付いるので、ブロック名を取得する。 Unicode Character Database のブロック対応表: https://www.unicode.org/Public/

    UTF-8 の文字コードから何語(どこの言語圏)の文字が使われているのか知りたい("U+XXXX" のコードポイント対応表) - Qiita
  • Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加

    Unicode 12では4つの言語(script)、554種類の文字が追加されました。これによりUnicodeに収録されている言語は150、文字は13万7292種類になりました。 追加された文字には日語の文字が7種類、小さな文字としての「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が含まれています(通常の大きさの文字は以前からありました)。これらは古い文書を記述するために使われるとされています。 そのほか、現在のイラン南西部に存在したアケメネス朝で使われていたアラム語のElymaic文字。南インドのサンスクリット語、カンナダ語で使われていたNandinagari文字。ラオス、タイ、ベトナム、フランス、オーストラリア、カナダ、米国などで使われていた現代White Hmong語、Green Hmong語のNyiakeng Puachue Hmong文字。インド、ミャンマー、ブータンの現代Wanc

    Unicode 12.0正式版が登場。日本語では小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」が追加。新元号が発表され次第、次の12.1で新元号キャラクタを追加
  • UCS-2とUTF-8

    最終更新 2003-11-11 UCSとUTF ユニコードで文書を作るとき,文字コードの方式が2種類,あるいはそれ以上あることに気が付かれるかもしれません。例えば,一つはUnicodeとあるのに対し,もう一つはUnicode (UTF-8)と表記されているかもしれません。この2つは,また,その違いは何でしょうか(前者はUTF-16の一形態なのですが…)。 UCS-2とUCS-4 ユニコードが採択されることになった多言語用の文字コードセット,ISO-10846-1は,16ビット(16桁の二進数)でそれぞれの文字を表します。それをUCS-2 (Universal Character Set coded in 2 octets,「2つのオクテットでコードされたユニバーサル文字セット」)と称します。オクテットとは文字長の単位としての8ビット(8桁の二進数)のことです。 ユニコードの特定の文字は,例

  • プレス発表 「文字情報基盤整備事業」で推進していた漢字6万文字の国際規格化が完了:IPA 独立行政法人 情報処理推進機構

    IPA(独立行政法人情報処理推進機構、理事長:富田 達夫)国際標準推進センターは、2010年9月から推進していた「文字情報基盤整備事業」において、漢字6万文字の国際規格化が完了したことを発表します。これは、ISO(国際標準化機構)より文字コード国際規格の第5版の発行を受けてのことです。 IPAでは、内閣官房IT総合戦略室、経済産業省と共に、「文字情報基盤整備事業」を2010年9月より推進してきました。この事業は、行政の実務で求められる人名や地名等の正確な表記をコンピュータで可能にするため、約6万文字の漢字について、文字フォントの整備や文字コードの国際規格化等を行ってきたものです。なお、国際規格化にあたっては、一般社団法人 情報処理学会 情報規格調査会SC2専門委員会と連携し、順次進めてきました。 12月22日(日時間)、文字コード国際規格書の最新版である、ISO/IEC 10646 (U

    gayou
    gayou 2018/01/03
    お疲れ様でした
  • 絵文字を支える技術の紹介 - Qiita

    絵文字を扱う上で知っておくと良いかもしれないことをまとめてみました。 Ruiさんの記事を見て、「EmojiはSurrogate Pair以外にも、色々とおもしろい技術があるんですよ〜」思って書いてみました。 なお、書いた人はAndroidの人間なので、特に表記していない場合は主にAndroid上での動作のことを書いてます。 またQiita初めてなので読みにくい部分等がありましてもご容赦ください。 サロゲートペア(Surrogate Pairs) このエントリーを書くきっかけにもなったサロゲートペア。なぜこれが導入されたかの経緯は、Ruiさんのブログエントリーに譲るとして、技術的な解説をします。 サロゲートペアは、U+0000..U+FFFFに収まりきらなかった範囲のUnicodeコードポイント(U+10000..U+10FFFF)を、なんとか16bitでエンコードしようとして導入されました

    絵文字を支える技術の紹介 - Qiita
  • 絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama

    UnicodeのUTF-16エンコーディングではほとんどの文字(コードポイント)は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語

    絵文字がある種のUnicodeバグを世界から一掃しつつある件について|Rui Ueyama
  • 絵文字😇を含むテキストを表示する @font-face 設定(Unicode 10.0対応版)

    CSS絵文字を表示するための @font-face 設定を紹介します。この方法はモダンな閲覧環境ではほぼ問題なく表示できます。またJavaScriptを使用して絵文字を画像に置換するタイプ(EmojiOne、Twemoji)と比較して、表示速度や利便性などの面で大きく有利です。 絵文字を含むテキストを表示する @font-face 設定(Unicode 10.0対応版) デモページもご覧ください。 以下のCSSを指定すると絵文字がきれいに表示されます。 @font-face { font-family: MyFontFamily; src: local("Hiragino Kaku Gothic ProN"), local("Meiryo"); } @font-face { font-family: MyFontFamily; font-weight: bold; src: local(

    絵文字😇を含むテキストを表示する @font-face 設定(Unicode 10.0対応版)
  • 絵文字に「男性人魚」、ジェンダーレス化に対応

    スマートフォンに近く追加される絵文字には架空の生物も含まれている。エルフや魔法使い、吸血鬼、ゾンビ、妖精、人魚などだ。

    絵文字に「男性人魚」、ジェンダーレス化に対応
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • Joomla! 3.4まではUTF-8の4バイト文字を悪用して重複するログイン名が登録できた

    以前の記事CMS四天王のバリデーション状況を調査したところ意外な結果になったで報告したように、Joomla!はログイン名の制限が非常にゆるやかになっています。であれば、🍣とか、💩などを含むログイン名が登録できるのだろうかという疑問が生じました。 とはいえ、以前、Joomla!の「ゼロデイコード実行脆弱性」はPHPの既知の脆弱性が原因で報告したように、少なくともJoomla! 3.4.5までは、MySQLの設定上 UTF-8 の4バイト文字は登録できず、それ以降の文字が全て切り詰められるという問題がありました。 このため、「admin🍣」というログイン名を登録しようとすると、🍣の切り詰めが起こって、adminユーザを二重に登録できなるのではないでしょうか? 試してみる Joomla! 3.4.8の環境を用意して管理者ユーザーを「admin」としておきます。下記のように、default

    Joomla! 3.4まではUTF-8の4バイト文字を悪用して重複するログイン名が登録できた
  • iOS10.1.1にしたら絵文字が36個増えた - Kimura.Memo

    先日やっとiPhoneをiOS10.1.1にアップデートしました。10.2ではありません。 今頃、、、とお思いでしょうがご容赦ください。 絵文字を確認してみたところ、今回は、36個増えていました。 増加したのはそのほとんどが、片方の性別しかなかった絵文字にもう片方の性別の絵文字が追加された、というものです。 また、いくつかの絵文字の表示カテゴリが変更されました。 以下、iOS9.1とiOS10.1.1の絵文字比較をしてみました。 右側のiOS10.1.1の絵文字で白く浮き出ているのがiOS10.1.1で追加された絵文字です。 青枠で囲った部分は、Emoji Modifier Sequence(6種の肌色パターン)がある絵文字です。 スマイリーと人々 27個増えました。 ほとんどの増加分は、「もう片方の性別の絵文字追加」です。 今まで無かった絵文字という意味ではシングルマザーとシングルファザ

    iOS10.1.1にしたら絵文字が36個増えた - Kimura.Memo
  • MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ

    MySQLUTF-8 で使おうと思ってハマりがちなのは charset utf8 を指定してしまうことです。 MySQLUTF-8 には歴史的事情により utf8 と utf8mb4 の二つあります。 UTF-8 は1バイト〜4バイトで1文字が構成される文字コードですが、MySQL の utf8 は4バイト文字を扱うことができません。ハマりたくなければ utf8mb4 を使いましょう。 utf8 を使ってしまった場合に4バイト文字がどのように扱われるか、自分でもうろ覚えだったのでメモしておきます。 登録 接続が utf8mb4 でカラムが utf8mb4 あたりまえですが、そのまま登録されます。 mysql> insert into utf8mb4 (c) values ('美味しい🍣と🍺'); mysql> select * from utf8mb4; +--------

    MySQL で utf8 と utf8mb4 の混在で起きること - tmtms のメモ
    gayou
    gayou 2016/09/07
    MySQL 5.1なサーバな時にutf8mb4に対応してなくて苦労した覚えがある。なんとなくUnicode絵文字が入ってるのが問題だろうと思って、それを削除したらうまくいったので、それ以上は深く調査はしなかった。
  • Googleが提案する新絵文字、女性キャラが多数登場

    ガールズパワー! Googleが新たに提案する絵文字は、女性キャラ。今回、ユニコードコンソーシアムの会議にて、Googleチームによって提案された女性絵文字は、全部で13種類。農家やコック、科学者、医者の他に、教育音楽など文化や生活に関するものもあります。 女性絵文字を提案したGoogleチームは、今年3月にニューヨーク・タイムズ紙に掲載されたオピニオン記事がアイディアのヒントになったとし、女性絵文字追加で女性キャリアの多様性と、あらゆる場面での女性の権利向上をアピールできると語っています。 ネタ元のBuzzfeedによれば、「女性絵文字はスタンドアローン型ではなく、組み合わせて使う仕様だ」といいます。例えば、コックさんならば、女性絵文字+目玉焼きをコンボで入力することで、女性コック絵文字を出す事ができます。男性絵文字+目玉焼きならば、男性コックとなります。なるほど、このやり方は少々面倒

    Googleが提案する新絵文字、女性キャラが多数登場
    gayou
    gayou 2016/05/13
    なるほどー。
  • Unicode絵文字(Emoji)

    連載目次 「絵文字emoji)」とは、人物や顔、感情、物、天気、乗り物、べ物、動物など、さまざまな物や事象を小さな絵柄として表現したピクトグラム(サイン、記号)の一種である。文字と違って絵で表現しているので、誰が見てもすぐに内容を理解できるし、その利用も容易である。 絵文字歴史 テキスト形式でのメッセージ交換が中心だった昔は「顔文字」とか「エモーティコン」といって、アルファベットや記号などを組み合わせて顔や感情などを表現していた。それを文字フォントの形で表現できるようにしたのが絵文字である。 絵文字は当初、日の携帯電話(NTTドコモ、ソフトバンク、KDDI)で広く使われていたが、それらをベースにして2008年頃、Unicode(用語解説)規格への統合が行われた。 携帯電話やチャットアプリなどで使われていた絵文字を全て取り込んで相互運用性などを確保したことにより、その後は急速に絵文字

    Unicode絵文字(Emoji)