[B! unicode] aceraceaeのブックマーク

aceraceae id:aceraceae

unicodeに関するaceraceaeのブックマーク (25)

Windows上でユニコードを「見る」方法
Windowsでは、文字コードに「ユニコード」を使う。Windowsに搭載されているフォントはさまざまあるが、ユニコード文字を表示できるように、多数の文字の形が組み込まれている。今回は、Windowsでユニコードを“見る”方法について解説する。なお、WindowsではUTF-16LEエンコードをUnicodeと表記する。ここでは、エンコードと混同されないために、文字仕様のUnicodeは「ユニコード」とカナ書きすることにする。 GUIアプリでユニコードを使うユニコード文字は多数ある。それぞれの文字に割り当てられた文字コードをユニコードでは「コードポイント」と呼ぶ。コードポイントは、「U+」の後ろに16進数4桁または6桁で指定するのが正式な表記方法だ。たとえば、「漢」は「U+6F22」となる。ユニコード関連の文書やもちろん、インターネット内のウェブページでも同様の表記をすることが多い。
aceraceae 2024/05/13
windows

文字

unicode

あとで読む
リンク
ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
まえがきミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか？それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。目次まえがき目次凡例この記事で使う名称についてビルマ語表記コードポイントラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯複雑なビルマ文字ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装実装の方針文字の並べ替えをせず、左から右に書く文字の形のバリエーション
aceraceae 2023/12/20
注釈にもあるけどタイ文字は子音にくっつく母音で左側に書かれるものもそのまま書くとき同様に左側から入力するんで謎の「論理」原則よりすっきりしてていいけど。合字は結局あらゆる組み合わせが必要なことも多い。

言語

文字

文字コード

unicode

あとで読む
リンク
絵文字の偉大な功績の1つは「文字コードを統一したこと」
数字を処理するコンピューター上で文字を扱うためには、文字コードと呼ばれるバイト表現が重要となります。かつては国や言語ごとにバラバラの文字コードを使っていましたが、記事作成時点ではUnicodeにほぼ統一されているといえます。そんなUnicodeへの統一には絵文字が大きな役割を果たしたと、ソフトウェア開発企業のIbexaでシニアデベロッパーアドボケイトを務めるJani Tarvainen氏が解説しています。 Emojis paved the way for UTF-8 everywhere https://developers.ibexa.co/blog/emojis-paved-the-way-for-utf-8-everywhere Tarvainen氏の母語であるフィンランド語には、アルファベットに「Ä」などのウムラウトや「Å」などのリングといった記号を伴うことがあります。これらの記号
aceraceae 2023/10/05
たしかに。英語圏でも絵文字表示できるようにするためだけに最初から utf-8 対応してくれてるんでいろいろ捗る。

unicode

文字

文字コード

社会

考え方
リンク
全ての開発者が知っておくべきUnicodeについての最低限の知識
2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98％へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ
aceraceae 2023/10/05
最低限の知識というだけあってわりと基本的な話だった。

unicode

文字

文字コード
リンク
ユニコード15.1に採用された漢字構成記述文字記号｜Qvarie
令和5年9/12にユニコード15.1が正式公開され、CJK漢字拡張-Iの他に“漢字構成記述文字”に指示記号4種、“CJK筆画”に拡張漢字構成記述文字の指示記号が1種類追加されました。ユニコードに採用されていない字の説明がしやすくなったのが重要です。𝚄+𝟹𝟷𝙴𝙵の一部除去指示記号は文字構成要素の一部が削除されていることを示す記号です。漢字構成記述文字記号をラテン・ギリシャ・キリル各文字体系に応用した例で、ユニコードに採用されていない左右逆になる字形と逆になる字形を説明しやすくなりそうです。画像はにしき的フォントに含まれるユニコード未登録のラテン・ギリシャ・キリル各種字母を漢字構成記述文字記号で説明した例です。
aceraceae 2023/10/04
なんとも中途半端だなと思ったらすでに大半のものは登録されてたわけね。"漢字構成記述文字は、それによって完全な字形に変換することを目的とはしておらず、単に構成要素の配置を説明するために使用される"

unicode

文字

文字コード

漢字

あとで読む
リンク
絵文字×絵文字＝カオス？　「Emoji kitchen」がSNSで話題　X上では大喜利状態に
米Googleが提供する「Emoji kitchen」がSNSで話題だ。Emoji kitchenは2つの絵文字をミックスして新しい絵文字を生み出す機能。これまでAndroid向けキーボードアプリ「Gboard」で提供していたが、9月15日までにGoogle検索からも利用可能になり、X（元Twitter）ではカオスな絵文字を投稿するユーザーが相次いでいる。 Google検索版Emoji kitchenは「Emoji kitchen」と検索することで、PCとスマートフォンの両方で利用できる。選択できる絵文字は230種類以上あり、2つの絵文字を選ぶことで新しい絵文字を生成できる。例えば「雨雲」と「にこやかな笑顔」を組み合わせると「にこやかな笑顔の雨雲」の絵文字を生成する。笑っている顔の代わりに「大声で泣いている顔」を組み合わせてやれば「大声で泣いている雨雲」ができるなど、ある程度パターン化さ
aceraceae 2023/09/16
文字

unicode

SNS
リンク
アイヌ語仮名「ㇷ゚」に対する正規表現の罠
導入アイヌ語は日本語と異なり、閉音節（子音で終わる音節）も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日本語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる（実はそれでもまずい事になっているけどここでは割愛する）が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名（小書き仮名文字）を利用することになっている。具体的には以下のような特殊仮名文字（通称　アイヌ語仮名）である。ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r
aceraceae 2023/09/01
言語

文字

文字コード

unicode

正規表現

技術

あとで読む
リンク
君たちは正規表現におけるインド数字の罠にハマったことはあるかい？(١٢٣٤٥٦٧٨٩) - Qiita
import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね？？？？実は正規表現にマッチします！！！というのが今回の記事の内容になります。そもそも正規表現における数字の扱いとは今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を
aceraceae 2022/06/24
〇とかにもマッチするのになんで漢数字にはマッチさせないんだろうか。それはともかく世界の文字は見てるだけでも楽しい。

正規表現

unicode

数字

文字
リンク
Webフォントを分割して読み込む際にunicode-rangeを指定しなかったらどうなるのか - 私が歌川です
表題のことについて検証してみましょう。目次目次前提 Webページ上で独自のフォントを読み込むにはフォントファイルのサイズフォントファイルのサイズを抑える工夫フォントファイルを分割し、必要に応じて読み込むフォントファイルを圧縮する前提おわり本題規格によると 4.5. Character range: the unicode-range descriptor 4.5.1. Using character ranges to define composite fonts 実験する準備実験方法実験結果まとめ前提本題に入る前に、Webフォントを配信する際の前提について説明します。分かっている方は読み飛ばしてもらって大丈夫です。 Webページ上で独自のフォントを読み込むには CSSの font-family 属性に使いたいフォント名を書くことで、Webページ上のコンテン
aceraceae 2022/03/24
html

css

webデザイン

unicode

フォント

あとで読む
リンク
文字列を反転させたい｜nona
こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな･･･(´･_･`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。本文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、本文では以下のように表記することにします。 Unicodeコードポイント（以下、単にコードポイント
aceraceae 2021/05/03
グラフィムクラスターというのは憶えておこう。

プログラミング

unicode
リンク
西野竜太郎／Ryutaro Nishino on Twitter: "もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk"
もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk
aceraceae 2020/03/09
他にもいろいろ追加されてるけどもうなんか適当にありそうな字を書いたらほんとにある感じで。

unicode

文字

漢字
リンク
Unicode - Acetaminophen
aceraceae 2020/03/09
ハイフンやマイナス、ダッシュなど横棒

文字コード

unicode

utf-8
リンク
僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita
対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから文字コードについてもう一度文字コードは以下の二つで構成されています符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法符号化文字集合符号化文字集合は、文字その文字の位置を示す一意の番号この二つの組み合わせの集合のことを指します。例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。しかしASCIIには日本語などの非英語圏の文字が収録されていません。そのため、日本語を収録したShift-JISやアジア圏の文字を収録した
aceraceae 2020/01/19
そういえばモディファイアとかあったね。

文字コード

Unicode

あとで読む
リンク
Unicode の例の雪だるまは多分アレ - マクロツイーター
酷暑だった夏もいつの間にか終わり、季節は秋である。秋といえば Unicode、そして、Unicode で最も注目すべき文字といえば“雪だるま”であることは論を待たないだろう。 ☃ U+2603 SNOWMAN ⛄ U+26C4 SNOWMAN WITHOUT SNOW ⛇ U+26C7 BLACK SNOWMAN/li> そういうわけで、早速、色々なフォントにおける雪だるまのグリフについての調査レポートが発表されている。素晴らしい。「TeXでゆきだるま」をもっとたくさん（acetaminophen さん）文書「ゆきだるまグリフを持つフォント」著者の Go gole サイトのページの中の Snowman-Word2010.pdf のファイル。非常に素晴らしい内容であるか、一つ気になる記述がある。不吉な雰囲気を醸し出す U+26C7 BLACK SNOWMAN は、Unicode S
aceraceae 2019/06/19
たまたま見かけた雪だるまと雪なしの雪だるまが両方とも降雪なしのグリフでなんだかよくわからなかったけどこういうことか。

Unicode

フォント
リンク
JavaScript で変数に使える文字列は？ : (*x).b=z->a+y/c
◆ Unicode の ID_Start から始まって ID_Continue が続く ◆ Other_ID_Start と Other_ID_Continue も含む ◆ $ と _ もおっけい ◆ 2文字目以降なら <ZWNJ> と <ZWJ> の制御文字もおっけい ◆ \uXXXX の Unicode 形式にもできる a～z と A～Z と _ と $ のどれかから始まって 2文字目以降は最初の文字に数字も使えるようになったものが好きなだけ続くでいいかなーと考えていましたがよくよく考えると日本語も使えます
aceraceae 2019/05/30
ID_Start、ID_Continueがよくわかってないので、よくよく考えても日本語が使える理由がまだわかってない。

JavaScript

Unicode
リンク
新元号「令和」と文字コード(主にUnicode)の問題
境真良@iU/GLOCOM/IPA（あーりん推し/芸能人スキャンダルネタ要らない） @sakaima 「令和」ですが、「令」はUnicode「U+4EE4」、UTF-8だと「E4 BB A4」、シフトJISだと「97DF」、また「和」はUnicode「U+548C」、UTF-8で「E5 92 8C」、シフトJISだと「9861」です。とりあえずご参考まで。 #さてお仕事ですよ 2019-04-01 11:46:49
aceraceae 2019/04/02
CJK互換漢字の問題がこんなところに。

unicode

文字コード

文字
リンク
C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++日本語リファレンス追記全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手
aceraceae 2018/12/22
闇

文字

文字コード

unicode
リンク
UnicodeとUTF-8の違いは？ - Humanity
という2chのスレがかなり勉強になったのでまとめ。少しでも有用だと思ったものは載せてあるので結構長いです。 Unicodeのような文字集合(符号化文字集合？)やUTF-8のようなエンコーディング方式に限らず色んな文字コードにまつわる話があります。たびたび話が繰り替えされますがそれは確認ということで。 (元スレ) 追記：簡単にまとめました。 1 ：デフォルトの名無しさん：2007/04/30(月) 20:02:37 ビッグインディアンとかなんとかかんとか 3 ：デフォルトの名無しさん：2007/04/30(月) 20:05:48 また、頭の悪そうなスレが・・・ >>1 それは魚とマグロの違いを訊ねるようなもんだ。 4 ：デフォルトの名無しさん：2007/04/30(月) 20:06:49 魚と鮪というよりは、魚と刺身の違いのような気がする。 5 ：デフォルトの名無しさん：2007/04/
aceraceae 2018/10/13
このあたりはふんわりとした理解しかなかったんで勉強になる。

文字コード

unicode
リンク
モヤイ像の絵文字の話
https://turingcomplete.fm/12 を聞いていて、モヤイ像について昔ちょっと調べたのを思い出したので掘り起こしてみる。 Unicodeに収録された絵文字のなかに「モヤイ像」というものがある。これ、モアイ像ではなくて “Japanese stone statue like Moai on Easter Island”、つまり「イースター島にあるモアイ像みたいな日本の石像」として定義されている。ちなみにモアイ像の絵文字というものはないのであった。マジで？　マジで。モヤイ像というのは東京の渋谷駅のランドマークになっているアレであって（細かく言うと色々あるのだがそれについては後述）、イースター島のモアイ像とは似せたようなかんじであってもまあ違う。髪もあるし。上述リンクの図像もまさに渋谷のモヤイ像のような見た目になっている。どうしてこんなことになっているのだろうか？いっぽう
aceraceae 2018/04/16
ネタ

文字

絵文字

Unicode
リンク
ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ
とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。数年前の話、Tom　さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。ユーザーを特定する情報を、見えない文字に変換して埋め込むログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字
aceraceae 2018/04/09
セキュリティ

技術

unicode
リンク
1 2 次のページ