タグ

unicodeに関するkoyhogeのブックマーク (59)

  • ユニコード15.1に採用された漢字構成記述文字記号|Qvarie

    令和5年9/12にユニコード15.1が正式公開され、CJK漢字拡張-Iの他に“漢字構成記述文字”に指示記号4種、“CJK筆画”に拡張漢字構成記述文字の指示記号が1種類追加されました。ユニコードに採用されていない字の説明がしやすくなったのが重要です。𝚄+𝟹𝟷𝙴𝙵の一部除去指示記号は文字構成要素の一部が削除されていることを示す記号です。 漢字構成記述文字記号をラテン・ギリシャ・キリル各文字体系に応用した例で、ユニコードに採用されていない左右逆になる字形と逆になる字形を説明しやすくなりそうです。画像はにしき的フォントに含まれるユニコード未登録のラテン・ギリシャ・キリル各種字母を漢字構成記述文字記号で説明した例です。

    ユニコード15.1に採用された漢字構成記述文字記号|Qvarie
    koyhoge
    koyhoge 2023/10/03
    左右逆と逆字はともかく、他はレンダリングではなんともならなそうなので、フォント内の特定のグリフを呼び出す指示なんだろうな。
  • 中国人を悩ませるレアな名字の文字コード問題

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。 中国の面積は日の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

    中国人を悩ませるレアな名字の文字コード問題
    koyhoge
    koyhoge 2023/05/31
    中国でもコード化されてない漢字がやまほどあるそう。将来的にはユニコードに収録される文字はどんどん増えそう。
  • 弊社所属タレント『潤羽るしあ』に関するご報告 | カバー株式会社

    《hololive English 1st Concert -Connect the World-》、「CJPFアワード2024」プロジェクト部門準グランプリを受賞

    弊社所属タレント『潤羽るしあ』に関するご報告 | カバー株式会社
    koyhoge
    koyhoge 2022/02/14
    ユニコード私用領域に文字を割り当てたカスタムフォントを使ってSVG+XMLで書かれているように見える。なのでコピペすると化ける。
  • 100ドル払ってVTuber♎️の里親となってみた話 - はげあたま.org

    文字のスポンサー制度 www.unicode.org 皆さんはUnicodeコンソーシアムを御存じでしょうか? 文字符号化をUnicode(UTF)に統一する事を目指す、Unicodeの総山です。 adopted 【形】 〔子どもが〕養子縁組された、養子になった◆ 【参考】adoptive via 英辞郎 on the WEB そんなUnicodeコンソーシアムには、任意の文字(絵文字含む)に対して寄付金を払う事でAdopted Characterをお迎えできるというおもしろい試みをしています。特に何の強制力も意味もなく、単なるお遊びではありますが、曲がりなりにも全世界的な団体から任意の文字に対する里親と認定されるシステムです。 ゴールドスポンサー:5000ドルで1文字につき1人限定 シルバースポンサー:1000ドル ブロンズスポンサー:100ドル dolpen.hatenablog.c

    100ドル払ってVTuber♎️の里親となってみた話 - はげあたま.org
    koyhoge
    koyhoge 2018/08/17
    Unicodeコンソーシアムの文字スポンサー制度。これおもしろいなw
  • UTS #10: Unicode Collation Algorithm

    Summary This report is the specification of the Unicode Collation Algorithm (UCA), which details how to compare two Unicode strings while remaining conformant to the requirements of the Unicode Standard. The UCA also supplies the Default Unicode Collation Element Table (DUCET) as the data specifying the default collation order for all Unicode characters. Status This document has been reviewed by U

    koyhoge
    koyhoge 2017/04/11
    UNICODEの文字列比較アルゴリズム標準。
  • MySQL 8.0.1でutf8mb4_ja_0900_as_csが導入された

    Sushi = Beer ?! An introduction of UTF8 support in MySQL 8.0 | MySQL Server Blog (ユーザーによる日語訳: 寿司=ビール問題 : MySQL 8.0でのUTF8サポート入門 (MySQL Server Blogより) | Yakst)で言及されていた日語用の照合順序 utf8mb4_ja_0900_as_cs 。 mysql80> SHOW COLLATION LIKE 'utf8%ja%'; +-----------------------+---------+-----+---------+----------+---------+ | Collation | Charset | Id | Default | Compiled | Sortlen | +-----------------------+-

    MySQL 8.0.1でutf8mb4_ja_0900_as_csが導入された
    koyhoge
    koyhoge 2017/04/11
    寿司ビール問題を解決するCOLLATIONがMySQL 8.0.1に入る。めでたいけどこのutf8mb4_ja_0900_as_csという名称はどういう意味なんだろう? 0900_as_cs が分からない。
  • 「絵文字に平等をサポートしてください」人種差別の指摘にゆれるUnicode 

    koyhoge
    koyhoge 2014/10/08
    絵文字の表現がより高度になっていくのは驚きだけど、他の文化の人から見ればすでに使えているものにここが足りないと言うのは当然だろう。一度文字コードに入れてしまったものはしょうがない。
  • Unicode標準6.3が公開、日中韓の互換表意文字改善

    Unicode Consortiumは、Unicode標準バージョン6.3を発表した。日語・中国語・韓国語の互換表意文字に関する改善などが盛り込まれた。 Unicode Consortiumは2013年9月30日、Unicode標準の更新版となるバージョン6.3を発表した。日語・中国語・韓国語で使われている、字形が異なるが同じ意味の文字(互換表意文字)に関する改善などが盛り込まれた。 公式ブログによると、バージョン6.3のUnicode双方向アルゴリズム(Bidirectional Algorithm)では、丸カッコやかぎカッコの組み合わせのレイアウト一致を図り、カッコの表示方法や位置などを調整したという。また、テキスト処理を孤立化させる仕組みを提供し、別々のソースからメッセージを、文字の順番を乱すことなく組み立てられるようにした。 日中韓の言語への対応では、1002文字の日中韓の互換

    Unicode標準6.3が公開、日中韓の互換表意文字改善
    koyhoge
    koyhoge 2013/10/03
    これを読んでもどういう技術なのかさっぱりわからないw
  • PHP 5.5 で mysql 拡張モジュールが非推奨になり、将来において WordPress を筆頭にさまざまな CMS のアップグレード作業が必要になります

    PHP 5.5 で mysql 拡張モジュールが非推奨になり、E_DEPRECATED エラーが表示されるようになりました。将来の PHP のバージョンで削除されます。 mysql 拡張モジュールに依存する CMS を使ってサイトを運用している場合、将来、運用サーバーに導入されている PHP のバージョンの切り替えに備えて、 mysqli もしくは PDO に対応した CMS のバージョンへのアップグレードするか、別の CMS やウェブサービスに切り替える必要があります。 多くの PHP 製の CMS が共有ホスティングにインストールされており、共有ホスティングは比較的古い PHP のバージョンのサポートを続ける傾向にありますが、古い PHP のバージョンを使い続ける場合、PHP のバグやセキュリティの未対応、より新しい PHP のバージョンを最小バージョンとするライブラリや CMS を導

    PHP 5.5 で mysql 拡張モジュールが非推奨になり、将来において WordPress を筆頭にさまざまな CMS のアップグレード作業が必要になります
    koyhoge
    koyhoge 2013/04/11
    mysqli か PDO を使えと。MySQL 5.5 で追加された utf8mb4 データ型について。
  • スマートフォンと文字コード

    1. はじめに 内閣府によれば,2012年3月時点における携帯電話の世帯普及率はじつに94.5%にのぼる[1].携帯電話はほとんど全ての国民が1台ずつ持つ,他に例を見ない製品に育った.その中で近年台頭著しいのがスマートフォンである. コムスコア社の調査によると,今年6月時点におけるスマートフォンユーザは全携帯電話ユーザの23.5%であり,この数字は前年同月から43%の増加にあたる[2].つまり,最近になって普及率が急カーブで上昇している.こうした傾向は出荷台数を見るとより顕著になる.MM総研によると,今年4月~9月の国内携帯電話端末の総出荷台数に占めるスマートフォンの比率は69.4%にのぼる[3]. さて,スマートフォンは不特定多数との情報交換を目的とするものだ.したがって文字コードの実装は,重要なポイントとなる.では,その実態はどんなものか,いささか調べた結果をお伝えしたい. 2. レパ

    koyhoge
    koyhoge 2013/02/25
    AndroidのJIS2004未サポート問題。
  • 政治家の友達を応援する旅(1)

    堀義人のダボス会議2024(6)総括 3つの戦争AI・グローバル経済の議論から展望する未来 堀 義人グロービス経営大学院 学長 グロービス・キャピタル・パートナーズ 代表パートナー 2024.01.22 堀義人のダボス会議2024(5)世界中の友人たちとの再会を楽しんだダボス 堀 義人グロービス経営大学院 学長 グロービス・キャピタル・パートナーズ 代表パートナー 2024.01.22 堀義人のダボス会議2024(4)ダボスにサム・アルトマン登場。AIの未来について3つの場で討議 堀 義人グロービス経営大学院 学長 グロービス・キャピタル・パートナーズ 代表パートナー 2024.01.19

    政治家の友達を応援する旅(1)
    koyhoge
    koyhoge 2011/08/07
    本筋とは全く関係ないが、文中に「㈰」「㈪」のおそらく丸付き数字の文字化けがある。UTF-8な環境でどういう状況でこのような文字化けが起こったのかに興味ある。
  • screen で Unicode 混在 - PC日記

    私が普段使っている FreeBSD のロケールは ja_JP.eucJP なので、ターミナルも euc-jp で使っている。 んが、最近の Linux 系の OS だと、デフォルトのロケールが ja_JP.UTF-8 なんかだったりして、さらにプロジェクトの都合でこれを変えたりしたくない場合がある。 で、なんとかならないかな~と思って調べていたら、普段愛用している screen に utf8 対応の機能があるらしい。 マニュアルをつらつら読むと、-U オプションだの、utf8 コマンドだのと出てくるので、最初その路線で頑張ってみた。 ターミナルを utf8 にする。 screen の初期起動時には -U オプションをつけない。 一度デタッチして、screen -U -r でアタッチしなおす。 utf-8 で使いたいwindow で、C-a : utf8 とかやる。 これで、なんとか動いてい

  • スマートフォンにおける厄介な漢字の表示実験

    情報交換でよく問題になる「厄介な漢字」は、流行のスマートフォンではどのように表示されるのだろう? これを明らかにするため、公募による実験を試みた。具体的には、実施者が問題になる文字を選定、 ツイッターにて送出、そのツィートのスクリーンショットをスマートフォンのオーナーに送ってくれるよう呼びかけた。 スマートフォン以外からの応募もあったので併せて掲載する。当日の詳細なやり取りは 「文字化けの饗宴:スマートフォンにおける厄介な文字の表示実験」を参照されたい。 実施日は2011年6月21日、実施者は小形克宏である。 送出した漢字の内訳 0面以外にある常用漢字…… 𠮟(U+20B9F) その他の0面以外の文字…… 𠮷(U+20BB7) UnicodeにあるがJIS X 0213にない字…… 髙(U+9AD9) IBM拡張文字…… 神(U+FA19) IBM拡張文字ではないJIS X

  • Twitterで見かけるハミ出した顔文字の正体 - RyoAnna

    少し前からTwitterで見かけるようになった、上下に飛び出す変な顔文字。 気持ち悪いのであまり関わらないようにしていたのだが、この顔文字の謎が明らかになったのでお伝えしたい。 いつものようにiPhoneのApp Storeをぶらぶらしていた時のこと。 Unicoder Lite (App Store)というアプリが気になりダウンロードした。 起動するとなにやら見慣れた文字が。 顔文字でよく使われるギリシャ文字やキリル文字だ。 しばらく眺めているとこんな符号が。 合成用区分符号 これが上と下の行にはみ出す顔文字の正体だった。 ためしに作ってみよう。 ベースとなる顔文字を置く。 左目に合成用区分符号を入れる。 続いて右目に。 見事にはみ出す。 Unicode(ユニコード)とは、世界中のコンピュータの文字を符号化したもの。その "U+0300-036F" に配置されているダイアクリティカルマー

    Twitterで見かけるハミ出した顔文字の正体 - RyoAnna
  • vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く

    前置き おはミルキィ! ChromeFullFeedが公開停止になった話を前置きとして書いていたのですが, あまり関係がないのと, 長くなりそうになってきたので, 別の記事に分けました. http://d.hatena.ne.jp/Constellation/20110530/1306701693 概要 という前置きで. ECMAScriptと切っても切れない文字コード, UTF-16. iv / lv5はUnicode変換のためにICUに依存していたのですが, UTF-8 <=> UTF-16なら何とか自分でも書けるのではないかと思い, Unicode Converterを書きました. これでlv5の依存はlibboost, libgc (Boehm GC)に減りましたー. Unicodeの変換の教授, bugつぶしにおいて, id:masa141421356 さんに非常にお世話になりま

    vs UTF-8, UTF-16, UCS4 - 枕を欹てて聴く
  • UnicodeのLOVE HOTEL | yasuokaの日記 | スラド

    Unicode 6.0で導入されたU+1F3E9「LOVE HOTEL」が、ちょっとアレなのではないか、というご意見をいただいた。いや、それ、私(安岡孝一)が導入したわけじゃなくて、auのEzWeb絵文字492番とか、softbank絵文字E501とかが、ISO/IEC 10646に収録されつつあるので、Unicodeもサポートしたっていうだけのことなんだけど。 ただ「LOVE HOTEL」っていう文字の名前が、ちょっと国際的にアレなのは、確かにそうだったりする。けど、でもじゃあ、どういう名前ならいいのか、私には正直わからなかった。それに、分類も「Building and map symbols」じゃなくて、実は「Romance symbols」なんじゃないか、っていう気がするし…。

  • 文字コードに起因する脆弱性とその対策(増補版)

    ITPro Expo 2014: クラウド統合基盤 ソリューション ~ VMware/Cisco/EMC 統合基盤 VBlock ~シスコシステムズ合同会社

    文字コードに起因する脆弱性とその対策(増補版)
  • 5-1. 𛀁𛀀の技術情報

    Unicode 6.0.0より使用可能となった次の仮名2文字にまつわる情報をまとめた頁です。 𛀁𛀁: U+1B001; HIRAGANA LETTER ARCHAIC YE(ヤ行のエを表した「江」に由来する平仮名。「エ」のひらがな版) 𛀀𛀀: U+1B000; KATAKANA LETTER ARCHAIC E(あ行のえを表した「衣」に由来する片仮名。「え」のカタカナ版) 技術情報 𛀁𛀁 Unicode: U+1B001; HIRAGANA LETTER ARCHAIC YE UTF-8: f0 9b 80 81 (11110000 10011011 10000000 10000001) UTF-16: d82c dc01 (11011000 00101100 11011100 00000001) 文字参照16進数: &#x1b001;(𛀁) 文字参照10進数: &#1105

  • EPUBに縦組が入るか!? The EPub Enhanced Global Language Support sub-group Meeting 第2日目午後

    Masanori Kusunoki / 楠 正憲 @masanork ランチ中にAdobe 山さん、SC2 小林さん、Canon 藤沢さん、台湾中央研究院 何建明さんの間で侃侃諤々の議論があり、ユーザー定義文字に関する要求の大枠で合意。文面のドラフティングが始まった #epub_egls 2010-08-04 12:57:31 Katsura @kazekaoru5gatu 太郎さん!RT @masanork: ランチ中にAdobe 山さん、SC2 小林さん、Canon 藤沢さん、台湾中央研究院 何建明さんの間で侃侃諤々の議論があり、ユーザー定義文字に関する要求の大枠で合意。文面のドラフティングが始まった #epub_egls 2010-08-04 13:01:05

    EPUBに縦組が入るか!? The EPub Enhanced Global Language Support sub-group Meeting 第2日目午後
    koyhoge
    koyhoge 2010/08/04
  • 「Word文書にしか見えない!」アイコンと拡張子を偽装したウイルス

    セキュリティ企業のトレンドマイクロは2010年6月3日、新たに確認されたウイルス(マルウエア)の詳細を報告した。特徴は、ウイルス調査をかたる日語のメールに添付されていることと、アイコンや拡張子を偽装して「Word」の文書ファイルに見せかけていること。 今回のウイルスについては、国内のセキュリティ組織JPCERTコーディネーションセンター(JPCERT/CC)も2010年6月1日に注意喚起している。JPCERT/CCでは、ウイルスを添付したメールの特徴を説明したが、ウイルスについては詳述していなかった。今回トレンドマイクロでは、ウイルスの特徴について詳しく解説した。 JPCERT/CCが報告しているように、今回のウイルスは、社内のウイルス調査をかたるメールに添付されていた。メールの件名は、「『緊急』社員全員の参加でVIRUS・悪性スクリプト用ファイルの調査」。文には、「添付したマニュアル

    「Word文書にしか見えない!」アイコンと拡張子を偽装したウイルス