タグ

Unicodeに関するseuzoのブックマーク (125)

  • Unicodeで「漢字」の正規表現 – ものかの

    改訂:2017/07/22 Unicode 10.0に合わせて書き直し。正規表現を簡易にしようとしてやりすぎていたのを修正。 改訂:2023/03/21 U+30000以降を追加。InDesignの正規表現を追記。 正規表現で漢字の範囲指定をする場合、Unicodeではどうするかが悩ましいところです。 Unicodeの漢字の範囲として [一-龠] にしている例を見かけます。しかしこれは旧規格JIS X 0208の漢字が含まれる範囲をUnicodeの中から切り出しているだけです。互換漢字ブロックをまるごと取りこぼしているので、WindowsのシフトJIS(CP932)の拡張漢字に当たるものが含まれていません。現規格JIS X 0213の第3・第4水準漢字も考慮されていません。簡易な範囲指定だとしても、新常用漢字の「𠮟」が含まれておらず、今から見るとあまりに時代遅れです。 Unicodeのす

    Unicodeで「漢字」の正規表現 – ものかの
  • Unicodeデコーダー

    (文字を入れるとUnicodeのコードポイントを表示します)

  • Mathematical Alphanumeric Symbols - Wikipedia

    This article contains special characters. Without proper rendering support, you may see question marks, boxes, or other symbols. Mathematical Alphanumeric Symbols is a Unicode block comprising styled forms of Latin and Greek letters and decimal digits that enable mathematicians to denote different notions with different letter styles. The letters in various fonts often have specific, fixed meaning

    seuzo
    seuzo 2017/05/09
    Unicodeの「Mathematical Alphanumeric Symbols」ブロックは必ずしもすべてのグリフが入ってるわけじゃない,と。つまりコードは連続していない。ex)Italicのhは「Letterlike Symbols」ブロックのU+210eに入ってる。
  • Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart

    Unicode-Compart is a site dedicated to Unicode and all things related to Unicode, characters, glyphs and internationalization

    Find all Unicode Characters from Hieroglyphs to Dingbats – Unicode Compart
  • macOS上のAPFSはUnicode Normalizationを行うのか? - なるせにっき

    iOS 10.3がリリースされましたが、APFSへの移行が含まれていて話題です。特に文字コード界隈ではHFS+で搭載されていた暗黙のUnicode Normalizationがなくなっている点が指摘されています1。 ではmacOSではどうなのでしょうか。SierraならばすでにAPFSを扱うことが出来るので試してみましょう。 % hdiutil create -fs APFS -size 1GB foo.sparseimage WARNING: You are using a pre-release version of the Apple File System called APFS which is meant for evaluation and development purposes only. Files stored on this volume may not be ac

    macOS上のAPFSはUnicode Normalizationを行うのか? - なるせにっき
  • Norio Nomura on Twitter: "APFSでファイル名がUnicode正規化されないと聞き検証。iOS 10.3 betaで正規化されないことを確認した。 https://t.co/dc0RTAYqCt https://t.co/NHC59OSuMy"

    seuzo
    seuzo 2017/03/28
    日本語でファイル名つけたい勢がいる限りこの問題はいつも再燃するよね。
  • 「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記

    自分の知らないCJK Ideographのバリエーションがまだあったことに戦慄している pic.twitter.com/kUlyRLDDTM— moriyoshit (@moriyoshit) March 9, 2017 などというツイートをしたところ、思ったより反響があったのでまとめておく。 上記ではあいまいに「バリエーション」などと書いたが、Unicodeとそれを扱う環境においては、バリエーションと一口に言っても次のような状況がある。 意味論的に等価な異なる字形の集合 同じ字形で異なるコードポイントの集合 aは結構なじみ深いと思う。 a-1. 異なるコードポイントにそれぞれ異なる字形が割り当てられているもの 例: 「東」(U+6771) ⇔「东」(U+4E1C) 「斉」(U+6589) ⇔「齊」(U+9F4A) 「高」(U+9AD8) ⇔「髙」(U+9AD9) a-2. 同じコードポイ

    「ユニコード」で予期せぬ目に遭った話 - moriyoshiの日記
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
  • 家族👨‍👩‍👦‍👦はreplaceされてしまうのか?あるいはZWJの話😂 - Qiita

    こんにちは、@todokrです。これは絵文字 / Emoji Advent Calendar 2016 3日目の記事です。 さっそくですがクイズです。以下のJavaScriptのコードの実行結果はどうなるでしょうか? (すぐお試しいただけるようgistにコードをアップしてみました) ... ... ... 結果はこちらです。 なんと!ママが入れ替わってしまいました! 「家族」の1文字に対してreplace したのに何故でしょうか? 「なんだこの文字は!?」に遭遇したらやることはただひとつ、そう16進ダンプでバイナリを見ることです。1 まずはプレーンな「家族」の絵文字から見てみましょう このようなテキストファイルを用意します。 odコマンドでダンプした結果が以下です。 エンコーディングはUTF-16なので2バイトずつで0xD83Dと0xDC6Aですね 先頭バイトの0xD83Dが上位サロゲート

    家族👨‍👩‍👦‍👦はreplaceされてしまうのか?あるいはZWJの話😂 - Qiita
  • 絵文字の提案について、Unicodeコンソーシアム理事長に聞いてきた👂 - Qiita

    こんばんは、@todokrです。この記事は絵文字 / Emoji Advent Calendar 2016の22日目の記事です エモジニアンと絵文字追加運動 絵文字愛好家のみなさま方におかれましては、「いつかは自分もUnicodeに絵文字追加のプロポーザルを…」という思いをごく自然とお持ちのことと思います。 世間を見渡せば「ハンバーガーやホットドッグの絵文字はあるのになんでタコスはないんだ!」とブチ切れたタコベルがタコス絵文字収録キャンペーンを始めてしまったり、「我々には餃子の絵文字が必要である」プロジェクトがChange.orgに誕生したりなどなど、敬虔なエモジニアンらによる急進的な絵文字追加運動は枚挙にいとまがないようです。 Change.orgの餃子追加プロジェクトの方では「署名の理由」欄に「私は餃子です」と書き残す謎のサンフランシスコ人がいたりなど、異様なテンションの高さが感じられ

    絵文字の提案について、Unicodeコンソーシアム理事長に聞いてきた👂 - Qiita
    seuzo
    seuzo 2016/12/23
    「いつかは自分もUnicodeに絵文字追加のプロポーザルを…」
  • JavaScriptでのサロゲートペア文字列のメモ - Qiita

    I. UnicodeとJavaScript文字列の前提知識 I-I. Unicodeのエスケープシークエンスで文字列を表す "\uXXXX"形式の4桁の16進数で表す // シングルクォートとダブルクォートの差はない "\u3042"; // => "あ" '\u3042'; // => "あ" // 正規表現リテラルでも表現可能 /\u3042/.test('あ'); // => true

    JavaScriptでのサロゲートペア文字列のメモ - Qiita
  • NDL書誌情報ニュースレター35号

    2015 年 4 号(通号 35 号) NDL 書誌情報ニュースレター 目 次 世界図書館・情報会議(第 81 回 IFLA 大会)、VIAF 評議会会議報告 (収集・書誌調整課 津田深雪) 1 世界の RDA の取組みのいま(3)―カナダ (外国資料課 河村悦子) 7 世界の RDA の取組みのいま(4)―RDA のフランス語翻訳 (外国資料課 十文字香奈子) 12 世界の RDA の取組みのいま(5)―フィリピン (外国資料課 上田友明) 18 文字コード講座 第 1 回―文字コードの歴史(Unicode 前史) (電子情報部 電子情報企画課 上綱秀治) 23 NACSIS-CAT と JAPAN/MARC(A)の典拠データ同定のための予備調査について (電子情報部 電子情報サービス課 安藤大輝) 31 第 17 回図書館総合展:全国書誌利活用促進の取組み―「これまで」の総括と「これか

  • 国勢調査「名前入力できない」続出 | web R25

    9月15日24時時点で1069万世帯以上がインターネットで回答済み。なお、インターネットで回答しなかった世帯には、後日、紙の調査票が配布される ※この画像はサイトのスクリーンショットです 5年に一度実施される国勢調査がスタート。今年は、初めて全世帯を対象にインターネット回答を実施しており、ネットでの回答期間は9月10日から20日までとなっている。ツイッター上には、実際にネットで回答したという人からの報告が続々とあがっているところだが、困惑する声も散見される。 その困惑のひとつは、「名前の入力欄」に関するものだ。ツイッターには、 「国勢調査をインターネット対応しました。名前入力欄でいきなり『入力禁止文字を入力しないでください』の注意MS。戸籍上の正式な漢字なのに腹が立ちました。クレジット会社等は環境依存文字とか優しい言葉なのに。流石お上、見下した言葉、別の言い方があるだろ。ゴメンなさい

    国勢調査「名前入力できない」続出 | web R25
    seuzo
    seuzo 2015/09/18
    人名用漢字に含まれないとエラーになるってことだな。こじらすと感情論になるからなあ。
  • bitbucketの使い方

    With best-in-class Jira integration, and built-in CI/CD, Bitbucket Cloud is the native Git tool in Atlassian’s Open DevOps solution. Join millions of developers who choose to build on Bitbucket.

    bitbucketの使い方
  • 「の」の謎

    MathJaxで和文文字を出力すると,「の」だけ変なフォントになります。これは,MathJaxの数式フォントであるSTIXが「の」を数式用文字として収録しているからです。この問題は,Unicodeの規格書に「『の』が数式用文字として使われることがある」と公式に書かれていることに起因しています。

    「の」の謎
  • Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション | hydroculのメモ

    Unicodeにあるハイフン/マイナス/長音符/波線/チルダのコレクション 2015/06/18 Unicodeにある文字の中からハイフンのような横棒と波線を集めてみました。複数あるのはわかっていたつもりでしたが、こんなにたくさんあるとは思いませんでした。 横線に関しては、ハイフンや長音符(カタカナの長音記号)、罫線など、線が横に延びているものです。縦方向や斜めの線は除きます。ほとんど横線だけどほんのちょっとだけ斜め(主観)になっているものは含みます。点線や矢印、線が2つ以上に分かれているものは除きます。途中で曲がっているものも除きます。横線が上の方だったり下の方だったり、太さが途中で変わるものも含めています。 波線に関しては、横方向の線が、直線ではなくS字カーブになっているもので、縦や斜めのS字を除きます。 S字カーブを超えて複雑な曲線も除いています。ただ、文字の名前に “wave” と

  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
  • UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 

    UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 
  • やばい文字があるとイラレさんが – ものかの

    ScriptKeyAi のユーザさんが自力で「やばい文字」を見つけてくれました。 さらにあかねさんとMD5500さんの詳細な検証を経て、その全貌が明らかに! スクリプトファイルのフルパスに「やばい文字」があると、イラレさんが反応しなくなる そのイラレさんはCS3とCS4のみ PPC、Intel、OSXのバージョンは無関係 スクリプトファイルがファイルサーバにあるとなぜか反応したりする たぶんMac版だけの現象 「やばい文字」っていうのは、全角英数や全角記号などです。この文字がフルパスに 1 つでもあると、CS3とCS4のイラレさんはご機嫌を損ねてスクリプトを実行してくれません。どうして今まで気がつかなかったんだろ…。(詳細は最後に) で、その「やばい文字」を人間の目で探すのはかなり大変です。ということで、やばい文字をチェックするアプリ『Yabai Checker』を作りましたよ。 Yaba

    やばい文字があるとイラレさんが – ものかの
    seuzo
    seuzo 2015/02/26
    日本語ファイル名について技術的に頑張って完全対応したとしても,いつかどこかで違うアプリケーションで破綻する。ユーザーは学習機会を得られない。
  • 濁点のトラブルに遭遇

    最近あったちょっとしたトラブルについてちょっとメモ代わりに。epubはおおざっぱに言えばxhtmlzipで固めたようなものなので、各xhtmlファイルには当然ヘッダ部分があり、タイトルがあるわけなのですが、このタイトル部分に含まれている文字の濁点の部分が「非濁点親文字」 +「゛」の合字になっており、一部のビューアで合字をきちんと表示できないため、問題となりました。以前からFinder内で入力された文字がOS XのUnicode正規化処理によって変換される問題があるという話は知っていたのですが、実際にトラブルに遭遇したのは初めてでした。Unicode正規化処理に関しましてはものかの先生が詳しく解説してますのでこちらの記事を。 OS Xの処理によって濁点が分解される ざっくり何が起きるのかというと、Finderでファイル名等を入力すると、入力時に例えば「ダ」が「タ」+「゛」に分解されて収納さ

    濁点のトラブルに遭遇