[B! unicode] nilabのブックマーク

バイト順マーク - Wikipedia

バイト順マーク (バイトじゅんマーク、英: byte order mark) 、バイトオーダーマークあるいはBOM（ボム）は、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータ。元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。概要[編集] プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式（エンコーディング）としてどれを使用しているかを判別できるようにしたものである。[1] 経緯[編集] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日本ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化

nilab 2016/07/15

「バイトオーダーマーク (byte order mark) あるいはバイト順マーク（バイトじゅんマーク）は通称BOM（ボム）といわれる、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのことである」

unicode

リンク

[ヅ] 波ダッシュ「〜」と全角チルダ「～」 (2015-10-24)

Web ブラウザで表示してみる Mac OS X Yosem ite + Mozilla Firefox 41.0.1 で表示したもののスクリーンショット。 Windows 8.1 + Mozilla Firefox 41.0.2 で表示したもののスクリーンショット。以前、 Windows XP で調べたときは波ダッシュが「下がって上がる」形状になっていた。いまどきの環境とは逆の波の形状。 ⇒ [ヅ] 2つの WAVE DASH ～ (2005-04-30) どういうことなのか Wikipedia で調べるこの文字の全角 (fullwidth tilde) は「～」であり、UnicodeにおけるコードはU+FF5Eである。この文字は波ダッシュ「〜」（すなわち範囲などを表す「波線」）と字形が似ているが、UnicodeやJIS X 0213では別の文字である。Windows OSでは波ダッシ

nilab 2015/10/24

「にょろ」とか「から」とか「波線」とか呼ばれる記号文字、波ダッシュ「〜」と全角チルダ「～」について調べたのでメモ。

unicode

リンク

[ヅ] iOS 8.3 の肌色変更可能な絵文字・顔文字を Java で調べる (2015-04-10)

nilab 2015/04/10

_[ヅ] iOS 8.3 の肌色変更可能な絵文字・顔文字を Java で調べる (2015-04-10) : EMOJI MODIFIER FITZPATRICK

リンク

MySQL と寿司ビール問題 - かみぽわーる

MySQL と Unicode Collation Algorithm (UCA) - かみぽわーるに関連するトピックで、 MySQL には寿司ビール問題というのがある。寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。あれ？ MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる？ SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

nilab 2015/03/23

MySQL と寿司ビール問題 - かみぽわーる : 「MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定される」 utf8mb4_bin

msql
unicode

リンク

[ヅ] 「𩸽」(ほっけ) という文字はUTF-8で4バイトになる (2015-02-26)

漢字では、𩸽（魚へんに花、「𩸽」Unicode: U+29E3D, JIS X 0213: 2面93区44点）と書く。俗説によれば、鎌倉時代、日蓮宗の日持上人が、蝦夷地を去る礼として、これまでいなかった魚を獲れるようにし、地元の人はその魚を「ホッケ（法華）」と呼び、村落を「トドホッケ（唐渡法華）」と名づけたとなっているが[2]、椴法華村の地名はアイヌ語だというのが通説である。「𩸽」は、文字コード規格においてはJIS X 0213:2000およびそれに追随したUnicode 3.1(2000)で追加され、JIS第4水準に分類される。ホッケ - Wikipedia この𩸽という字、文字コードとしてはJIS第4水準にあり、面区点番号2-93-44です。Unicodeでは、BMPでなく面02にあり、符号位置U+29E3Dです。この、JISでは第4水準にあり、Unicodeでは面02に

nilab 2015/03/05

_[ヅ] 「𩸽」(ほっけ) という文字はUTF-8で4バイトになる (2015-02-26)

unicode

リンク

[ヅ] 猫の絵文字「🐱」(UTF-8の4バイト文字) (2015-03-02)

環境によって、絵文字の絵柄がちがうことがわかる。 iPhone から猫の絵文字「🐱」を Twitter に投稿してみた。投稿先 ⇒ NI-Lab.さんはTwitterを使っています: "🐱ねこ" iPhone + iOS + Safari で Twitter のサイトを見る。 Nexus 7 + Android + Chrome で Twitter のサイトを見る。 MacBook Air + Mac OS X + Firefox で Twitter のサイトを見る。 Twitter から猫の絵文字「🐱」のデータを取り込んでみた。取り込み先 ⇒ nilog: 🐱ねこ (2015-02-28) MacBook Air + Mac OS X + Chrome で見る。 Nexus 7 + Android + Chrome で見る。 VAIO Tap 20 + Windows 8.1

nilab 2015/03/05

_[ヅ] 猫の絵文字「🐱」(UTF-8の4バイト文字) (2015-03-02)

unicode

リンク

[JavaScript] サロゲート・ペアに対応した文字列操作関数を書いてみた / LiosK-free Blog

2008-11-06 カテゴリ: Client Side タグ: JavaScript 安易な発想 Unicode JavaScriptの文字列型はUTF-16を採用しているから、サロゲートペアを使用した文字が混ざるといろいろと厄介だったりする。一例としては↓のような感じ。 var s = "𪚲"; // U+2A6B2 console.log(s.length); // 2 console.log(s.split("")); // ["�", "�"] ということで、サロゲートペアの扱いを少し楽にする関数を書いてみたからとりあえず公開してみる。 /** 文字列中にサロゲートペアを含む場合はtrue */ String.prototype.hasSurrogate = function() { return (/[\uD800-\uDBFF][\uDC00-\uDFFF]/).test(

nilab 2015/03/05

_[JavaScript] サロゲート・ペアに対応した文字列操作関数を書いてみた / LiosK-free Blog : 「JavaScriptの文字列型はUTF-16を採用」「String.prototype.hasSurrogate = function() {return (/[\uD800-\uDBFF][\uDC00-\uDFFF]/).test(this);};」

リンク

Node.js : UTF8の4バイト文字は無理矢理クライアント処理する : typeOf 'aki_mana'

UTF-8の4バイト文字は、Unicodeの拡張領域。で、この領域の文字はNodeでは未対応なのだけど、クライアント側で「数値参照」に加工しちゃえば、何とかなるんじゃないか？と思った。「JavaScript コードポイント」でググれば見つかるこのエントリ内のコードと組み合わせる。 // toNumericCharacterReference for SMP(Supplementary Multilingual Plane) String.prototype.toNCRef = function() { return this.replace(/([\uD800-\uDBFF][\uDC00-\uDFFF])/g, function($0, $1){ return '&#x' + String($1).toCodePoints()[0].toString(16) + ';'; }) };

nilab 2015/03/05

Node.js : UTF8の4バイト文字は無理矢理クライアント処理する : typeOf 'aki_mana' : 「クライアント側で「数値参照」に加工」

リンク

[ヅ] MySQL + Java で UTF-8 の4バイト文字に対応 (utf8mb4) (2015-02-28)

nilab 2015/02/28

_[ヅ] MySQL + Java で UTF-8 の4バイト文字に対応 (utf8mb4) (2015-02-28)

リンク

Rails4 で MySQL の utf8mb4 を扱う - xyk blog

環境： MySQL Server version: 5.6.19 Rails 4.1.5 iPhone の絵文字を MySQL に登録しようとしたらMysql2::Error: Incorrect string value:...というエラーが出た。3バイトに収まらない4バイトUTF-8を扱うには MySQL 5.5.3 以上でキャラクタセットをutf8mb4にする必要がある。 database.yml の encoding を utf8 から utf8mb4 に変更した。 config/database.yml 修正前： default: &default adapter: mysql2 encoding: utf8 pool: 5 username: root password: socket: /tmp/mysql.sock development: <<: *default dat

nilab 2015/02/27

Rails4 で MySQL の utf8mb4 を扱う - xykのブログ

リンク

UTF-8 エンコードされた絵文字を MySQL / JDBC で取り扱うには？

2013.06.08 追記：JDBC 接続文字列で characterEncoding / connectionCollation を指定すると思った通りの挙動をしてくれないようなので、別の方法 (多分これが正しい方法) を記載しました。 Unicode における、こんな感じの絵文字、いわゆる Unicode の追加面の文字、Java で言えばサロゲートペアでの表現が必要となる文字を、JDBC 経由で UTF-8 エンコーディングして MySQL のテーブル・カラムに格納しようとすると、以下の例外が発生することがあります。 Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x81 h...' for column 'col_name' at row 1 at com.mysql.jdbc.S

nilab 2015/02/27

blog.k11i.biz: UTF-8 エンコードされた絵文字を MySQL / JDBC で取り扱うには？

リンク

ドラえもんの特殊顔文字はどういうしくみでできているか｜Colorless Green Ideas

はじめに本日2013年12月1日は、マンガ『ドラえもん』の原作者である藤子・Ｆ・不二雄の80歳の誕生日に当たるそうだ [1] 。これを記念してというわけではないと思うのだが、11月26日に『２ちゃんねる』に「ドラえもんの特殊顔文字できたｗｗｗｗｗｗｗｗｗｗｗ」というスレッド [2] が立った。そのスレッドには、文字だけを使って『ドラえもん』の主要キャラクターの顔が表現されていた。以下に、同スレッドで紹介されていた顔文字を再現したものを掲げる。ドラえもんの特殊顔文字こうした顔文字は、アクセント符号などのダイアクリティカルマークをつけることで作られている。どのようなしくみになっているのか以下で詳しく見ていこう。特殊顔文字のしくみ従来の顔文字は（-_-）や（＾＾）のように単純な記号で、単純な図像を表現するのみであった。しかし、近年様々な文字を組み合わせて、より表情豊かな顔文字が作られ

nilab 2013/12/29

ドラえもんの特殊顔文字はどういうしくみでできているか｜Colorless Green Ideas

unicode
aa

リンク

ユニコードで使用可能な気象用絵文字 - 世界の特殊文字ウィキ

世界の特殊文字ウィキラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。トップページページ一覧メンバー編集ユニコードで使用可能な気象用絵文字最終更新： qvarie 2015年01月31日(土) 18:41:33履歴 Tweet 【ユニコードで使用可能な絵文字】カテゴリです。ここでは気象に関する基本ユニコード絵文字を取り上げます。ユニコード5.2で採用されたものは【ユニコード5.2以降で使用できる絵文字】を参照してください。ユニコード6.0で採用されたものは【ユニコード6.0以降で使用できる絵文字】を参照してください。国際式気象記号は【ユニコードで使用可能な特殊記号】を参照してください。気象用絵文字 - Weather Symbol テレビ番組などで使用されている絵文字。日本の文字コード“JIS X 0213”や北朝鮮の文字コード“K

nilab 2013/01/26

ユニコードで使用可能な気象用絵文字 - 世界の特殊文字ウィキ - livedoor Wiki（ウィキ）

リンク

文字からコードポイントを取得する

2012/11/15 追記；次の記事で関数として定義して再利用しやすくしました。バイト操作による1文字の UTF-8 とUTF-16、UTF-32 の相互変換UTF-8 対応の ord と chrUTF-16 対応の chr、ord 関数UTF-32 対応の chr と ord ASCII (U+0 から U+7F) ではない文字から Unicode ポイントを調べるには HTML エンティティに変換するやりかたが手軽である。BMP 外で4バイト文字の「𠀋」(U+2000B) を試してみよう。 $c = '𠀋'; echo preg_replace_callback( '/\A(\\d+);\z/', function($matches) { return dechex($matches[1]); }, mb_convert_encoding($c, 'HTML-ENTITIES'

nilab 2012/10/23

文字からコードポイントを取得する - Sarabande.jp : 「文字から Unicode ポイントを調べるには HTML エンティティに変換するやりかたがもっとも手軽」

unicode

リンク

今日やっつけた本 - 『Unicode標準入門』

所用で Unicode に少し首を突っ込むことになったので，実装方法を中心にやりなおしています。やろうとしていることは，それほど厄介なことではなくて，とりあえず文字コードの変換ライブラリを作りましょう，とかいった話。この頃は，日本語も JIS 第四水準までサポートした JIS X 0213:2004（いわゆる JIS2004）が OS レベルでサポートされるようになったこともあって，周辺のアプリケーションもこれに対応する必要がそれなりに出てきました。今から作るなら，JIS X 0213:2004 は Unicode で実装するのが近道なんですけれど，これまでの JIS X 0208 を実装していた符号体系（CP932 とか EUC-JP とか）とも歩調をあわせる必要が出てきたので，ギャップを埋めるライブラリが欲しいね，ということになったのでした。ここら辺の話，オープンソース界隈では，i

nilab 2012/09/17

qune: 今日やっつけた本 - 『Unicode標準入門』

unicode
book

リンク

ECMAScript.next: TC39’s July 2012 meeting

TC39 (Technical Committee 39) works on the upcoming ECMAScript.next [1] standard. They have several meetings per year and in July, there was another one. This blog post summarizes the most important decisions. It is based on the following minutes by Rick Waldron: July 24, 2012 July 25, 2012 July 26, 2012 Introduction In this post, I have omitted all decisions that concern minor details or that it

nilab 2012/08/16

ECMAScript.next: TC39’s July 2012 meeting : "<<some emoji>>" === "\u{1F601}" === "\uD83D\uDE01" : String.fromCodePoint, String.prototype.codePointAt

リンク

lucene-gosenのJava7でのテスト失敗問題の対応 | @johtani の日記

一定期間更新がないため広告を表示しています

nilab 2012/05/09

lucene-gosenのJava7でのテスト失敗問題の対応 | @johtani の日記「Java6ではUnicodeのバージョンが4.0です。Java7ではUnicodeのバージョンが6.0」「「・」（0x30FB）の文字列のCharacter.getType()がCONNECTOR_PUNCTUATIONからOTHER_PUNCTUATIONに変更」

unicode
java

リンク

ユニコードで使用可能な絵文字【手】 - 世界の特殊文字ウィキ

nilab 2012/05/06

ユニコードで使用可能な絵文字【手】 - 世界の特殊文字ウィキ - livedoor Wiki（ウィキ）

リンク

gist:2212589

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

nilab 2012/03/28

「perl -E 'say "生" & "死"'」で「愛」が導かれる。Unicodeコードポイントの奇跡。 / miyagawa's gist: 2212589 — Gist

unicode

リンク

第4回　UTF-8の冗長なエンコード | gihyo.jp

今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1～4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U＋0000からU＋007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C（\⁠）⁠、0x2F（/）などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。表1　UTF-8でのビットパターン

nilab 2012/03/01

本当は怖い文字コードの話：第4回　UTF-8の冗長なエンコード : 「現在のUnicode仕様ではバイト数が最小になるもの以外は不正なバイト列であるとして，UTF-8として解釈することを明確に禁止」「2001年のNimdaウイルス」

リンク

はてなブックマーク

タグ

関連タグで絞り込む (27)

unicodeに関するnilabのブックマーク (72)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

今週のはてなブックマーク数ランキング（2024年4月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス