タグ

kanjiとunicodeに関するkitsのブックマーク (18)

  • 竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)

    アニメ公式での竈門禰豆子の表記。禰を表示するのに中国語繁体字の字形を使っている。 どうやら、竈門禰豆子の禰の字について、しめすへんは正式には「ネ」の形という指定が存在しているようで、公式サイトでもわざわざフォントを変えて1、禰のしめすへんを「ネ」に変えています。中国語のフォントでは、しめすへんは常用漢字かどうかに関わらず、いつでも「ネ」の形をしているからですね。2 日フォント中国フォント 禰 この、フォントを変える手法での字形変更は昔から行われていますが、中国語のフォントを使うわけなので、日語のフォントのしめすへんとは形が少し違う問題があります。 他の方法としては、異体字セレクタと呼ばれる仕組みを使うと禰󠄁(しめすへんが「示」)と禰󠄀(しめすへんが「ネ」)は区別して出せます。この方法で変えられる字形は、日フォントの中で用意されている、他の字になじんだ字形を使うことがで

    竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)
  • 西野 竜太郎/Ryutaro Nishino on Twitter: "もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk"

    もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk

    西野 竜太郎/Ryutaro Nishino on Twitter: "もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk"
  • ゆうちょPayアプリで「佐々木」姓が認識されず、アカウント登録できないと話題に 現在は修正済み

    ゆうちょ銀行が5月8日に開始したモバイル決済サービス「ゆうちょPay」だが、「『佐々木』姓がアカウント登録できない」と、8日夜からTwitterなどで話題になった。ゆうちょ銀行は9日午後1時に、修正版を配信した。 【修正:2019年5月9日午後3時 第1段落の文言の一部を変更しました】 ゆうちょPayのスマートフォンアプリは、初回利用時にアカウント登録をする必要がある。アカウント登録はメールアドレスを入力した後に氏名やパスワード入力に進むのだが、9日11時に試したところ、Android版アプリで氏名の登録時に「佐々木」を入力すると、「ひらがな、カタカナ、漢字、アルファベットのみ入力してください」というエラーが出てしまい、先に進めなかった。 名字を削ってみると、「々」の字がエラーの原因と分かる。つまり、「佐々木」の他、「佐々」「等々力」などの名字も登録できない。

    ゆうちょPayアプリで「佐々木」姓が認識されず、アカウント登録できないと話題に 現在は修正済み
    kits
    kits 2019/05/09
    小々々々支川 (思い出しただけ)
  • 榊の字形について|小松 弘幸|note

    「榊」という文字は、同じ文字なのに使うソフトウェアによって「木示申」と「木ネ申」のどちらも表示されることがあります。それはなぜなのか、どちらかを明示する方法はあるのかを調べました。 まとめ・榊の字形には「木示申」と「木ネ申」がある。 ・JIS の標準が「木ネ申」から「木示申」に変化したため、使うフォントによって字形が異なる。 ・Unicode では、榊 (U+698A) の字形は使用言語によって異なる。日語では「木示申」、中国語では「木ネ申」 ・Unicode では、「木示申」と「木ネ申」は異体字 (IVS) によっても明示できる。 「木ネ申」を明示的に表示させるには、 <span lang="zh">榊</span> U+698A U+E0100 U+698A U+E0102のいずれかでできる。ただし、結局は使用するフォントに依存する。 はじめに あるツイートがきっかけで、榊の特定の字

    榊の字形について|小松 弘幸|note
    kits
    kits 2018/11/22
    「U+698A U+E0101 : 『木示申』」 異体字セレクターによる明示
  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • 2017年以降の天皇杯全⽇本サッカー選⼿権⼤会について

    Jリーグを頂点としたピラミッド型のリーグ構造を形成し、各年代、各カテゴリーのチームが参加できる各種大会・リーグを整備しています。

    2017年以降の天皇杯全⽇本サッカー選⼿権⼤会について
    kits
    kits 2015/06/12
    改⾰(改革) ⽇程(日程) ⼤会(大会) 移⾏(移行) 廃⽌(廃止) など環境により文字化けあり。それぞれ U+2FB0, U+2F47, U+2F24, U+2F8F, U+2F4C の Kangxi radicals (康熙部首)の文字が使われている。
  • 漢字これくしょん -Unicode BMP編-

    UnicodeのBMP面にある漢字28,001文字をひたすら並べたEPUBファイルです。漢字の表示は、リーダのフォントに依存します。 Unicodeのコードポイントと、JISの面区点コード、Adobe-Japan 1のCIDコードも併記しました。EPUBリーダの検索機能で、文字コードDBとして使うこともできます。 iBooks for iPadでの表示例。以下のようなページが延々1,700ページ続きます。 漢字を選択して辞書を引くことができます。iOSでは、中国語辞書をインストールしておくとよいでしょう。 EPUBファイルをダウンロードして、お好みのEPUBリーダでご覧ください。iBooks/Kobo/Kinoppyの各リーダーで確認しています。 少々重いファイルなので、リーダーによっては不具合が発生する可能性もあります。 OSXのiBooksでは、最初の読み込み時に重くなることがあります

    漢字これくしょん -Unicode BMP編-
    kits
    kits 2014/08/24
    「UnicodeのBMP面にある漢字28,001文字をひたすら並べたEPUBファイルです」
  • グループ:mandel59_hennaji - GlyphWiki

    フォント生成のヘルプTrueTypeフォント ダウンロード (内部バージョン gw103149、36,480 バイト)フォント生成ログ 閲覧フォント生成ソースソースファイルフォント定義ファイル 変な字 Unicodeに収録されている文字 u3403 三角の部分を持つ字。韓国の国字で、Maと読む。http://dict.variants.moe.edu.tw/fulu/fu5/kor/kor002.htm u3427 「第」の略字。JIS規格には収録されていない。 u3514 韓国の国字。「加」にハングル字母ieungを付けた形。 u4e00 漢数字の1。一番簡単な漢字だと思う。 u4e36 音 チュ。訓 てん ちょぼ しるし。 u4e44 記号としても漢字としても登録されている「〆」。 u537b 日の字体では偏の「谷」の上がくっついている。 u53f5 「可」の逆。できない。 u541

    kits
    kits 2014/08/09
    変な字グリフ。unicodeにもあり。
  • 漢字1文字が最大8バイト、Unicodeの「IVS」とは?

    「漢字1文字は2バイト」という常識が、大きく変わろうとしている。現在改正中の「常用漢字表」に対応するためには、Unicodeの4バイト文字を使用する必要があるが、それだけでは済まない恐れがある。今後、戸籍や住民基台帳で使われている文字がUnicodeに追加されると、漢字1文字が最大8バイトになるかもしれない。文字コードに詳しい京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。(日経コンピュータ) 先日公開した『新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能』の読者から、「今後のシステムでは漢字1文字を最大4バイトで処理すればいいのか」という質問を頂いた。実は、UTF-8あるいはUTF-16で漢字を表す場合、最新のUnicodeにおけるIVS(Ideographic Variation Sequence)を考慮すると、漢

    漢字1文字が最大8バイト、Unicodeの「IVS」とは?
    kits
    kits 2010/01/30
    Ideographic Variation Sequence
  • 新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)

    普段使用する漢字の指針となる「常用漢字表」が、2010年度にも改正される。新たに追加される196文字の中に、文字コード「シフトJIS」にない漢字が含まれているため、情報システムに大きな影響を与えそうだ。最新のJIS規格「JIS X 0213:2004」の改正に委員としてかかわった京都大学人文科学研究所附属東アジア人文情報学研究センターの安岡孝一准教授が、問題の核心を解説する。     (日経コンピュータ) 2009年11月10日、文部科学省の「文化審議会国語分科会」において、常用漢字表の改正案が承認された。現行の常用漢字表にある1945字から「銑」「錘」「勺」「匁」「脹」の5字を削除し、新たに196字を追加する改正案で、2010年度の内閣告示を目指している。 新しい常用漢字表が告示されると、「シフトJIS」や「EUC-JP」といった従来からある文字コードを使用するシステムで大きな問題が生じ

    新常用漢字表が迫るUnicode移行、「シフトJIS」では対応不可能 | 日経 xTECH(クロステック)
  • 花園明朝がCJK統合漢字拡張Cに対応 | スラド オープンソース

    完全フリーな日語漢字フォント、花園明朝がCJK統合漢字拡張Cに対応した。拡張Cは、2008年12月に発行されたISO/IEC 10646:2003 (UCS)の追補5に含まれる4,149文字の漢字集合。日からは国字が主に追加提案され、収録された。さまざまな漢字が紹介されている動画「なんだかとっても!いいかんじ」で使われている[魚+嵐](ブリザード)も収録され、「ガンダム」以外は歌詞のUCSによる符号化が可能となった。 UCSとUnicodeは同期することになっているため、CJK統合漢字拡張CはUnicodeの次期バージョン(5.2)にも追加される予定であるが、現時点の最新バージョン(5.1)にはまだ含まれていない。そのためか拡張Cをサポートしたフォントはまだほとんどなく、花園明朝のページには世界初と書かれているほどである。実際には海峰五筆という中国語IMEに付属のフォントSun-Ext

  • javascript - 文字を確実に表示する : 404 Blog Not Found

    2008年06月12日02:00 カテゴリLightweight Languages javascript - 文字を確実に表示する 「Lingua::CJKV::Simplify で簡単繁盛」のような、日語以外の文字も使うプログラムでちょくちょく来るクレームが、「表示できません」というもの。 これを解決してみました。 The quick brown fox jumps over the black lazy dog. 漢字、カタカナ、ひらがなの入ったtext. 「𪚲」もちゃんと表示するよ! <BR> on LF 種明かしは、こちら。 (function(){ var str2unicode = function(str){ var uni = []; for(var i = 0, l = str.length; i < l; i++){ var ord = str.charCodeA

    javascript - 文字を確実に表示する : 404 Blog Not Found
    kits
    kits 2008/06/12
    龍x4 (U+2A6A5) もコピペで表示できた。
  • 「束縛」という視点について (1) - もじのなまえ

    3月22日に京都で開かれる『キャラクター・身体・コミュニティ――第2回人文情報学シンポジウム』で話をさせてもらいます。題して、「「正字」における束縛の諸相」。 ぼくの場合、なんで文字や文字コードのことばかり調べたり書いたりしているのかといえば、「遠くまで行けるから」*1です。原稿を書き終わったとき、それを始めたときにいた地点から、自分がずいぶん遠くに降り立ったことに気づくことがあります。脳内冒険とでもいうのでしょうか、それはぼくにとって大層気持ちのよいことなのです。それでも最近はもう一つ気持ちよくない。 Unicode実装の普及による多文字処理の実現、あるいは漢字字体規範データベースやCHISE IDS 漢字検索等、ちょっと前は夢でしかなかったような上質な文字データベースに簡単にアクセスできるようになったにもかかわらず、文字にかかわるコンピュータの世界に行き詰まりを感じているのは、ぼくだけ

  • 神名地名難読漢字・ユニコード対照表

    の神の名、神社名、その関連地名で、JIS第1・第2水準漢字にない漢字を使用するもののリストです。 「&#x9F97;」の部分をコピーしてブログやhtmlなどに書き込むと「龗」と表示されます。(2018年7月) "  →作成のいきさつ 更新履歴 2006年7月 稀少地名漢字リストの管理人pyriteさんから30数例のコードを教へていただきました。感謝申し上げます。 2009年9月、前記「稀少地名漢字リスト」のpyriteさんより、No136の文字のコードを教へていただきました。3年が過ぎてMSの新しいフォントも普及しつつあり、表示できる文字については詳しい字形説明を省き、字形表示を大きくしました。 2011年2月、前記pyriteさんより、No.29 130の文字コードを教へていただきました。 2017年 説明文中のWindowsVista以前のフォント環境に基づいた説明について、それと

  • 404 Blog Not Found:perl & Unicode - その字の名前

    2006年11月20日23:00 カテゴリLogos一日一行野郎 perl & Unicode - その字の名前 Unicodeの隠れた功績として、こうした「何て呼べばいいの?」という文字に(はんば無理矢理)名前をつけてくれたこともあります。 例えば、 新方言時代〜「小さい“お”」って何? 「々」はなんていえばいいのだろうか? には 々 U+3005 IDEOGRAPHIC ITERATION MARK といった具合に。 この手の調査は、Perl5.8以降が手元にあると簡単に出来ます。 例えば、 perl -Mencoding=utf8 -MHTML::Entities -Mcharnames=:full -ple \ '$o=ord; $_=sprintf"$_ U+%04X %s", $o, charnames::viacode($o)' で、こんな具合にコードポイントとUnicode

    404 Blog Not Found:perl & Unicode - その字の名前
    kits
    kits 2006/11/21
    々は「同の字点」という呼び方あり。(「くりかへし符號の使ひ方〔をどり字法〕(案)」より http://www.let.osaka-u.ac.jp/~okajima/hyoki/hyoki.htm ) / 「はんば」→「半ば」(なかば)?
  • Unihan data for U+2A6A5

    kits
    kits 2006/08/28
    龍×4
  • Unihan data for U+2053B

    kits
    kits 2006/08/28
    興×4
  • Unicodeはなんの役に立つのか? - もじのなまえ

    一昨日は駅前の喫茶店にて文字コードについてのインタビューをうけました。なんでも文字コードについて面白い読み物にしたいとのこと。X だとか02いくつだとか、訳の分からない数字やアルファベットが続くのに強い違和感を抱いている様子。うーん、いいなあ、ぼくも昔はそういうこと考えていたんだよなあ、正確さよりも面白さが大事だって。どこで間違っちゃったんだろうなあ。 で、乞われるままにASCIIからISO R 646、ISO 2022からISO/IEC 10646への流れ、そしてその中で日が果たした役割、あるいはJIS X 0208がISO 2022に基づいた構造であること。もともとISO 2022は事前の二者間の合意を前提とした情報交換のために作られた符号化方法であり、合意のない情報交換や、コンピュータ内部の情報処理用としては向いてなかったこと、そしてこれがUCS≒Unicodeの登場を促すことにな

    Unicodeはなんの役に立つのか? - もじのなまえ
    kits
    kits 2006/05/03
    当たり前の大切さ / 大切だけど当たり前
  • 1