タグ

unicodeに関するnilabのブックマーク (72)

  • バイト順マーク - Wikipedia

    バイト順マーク (バイトじゅんマーク、英: byte order mark) 、バイトオーダーマークあるいはBOM(ボム)は、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータ。元にUnicodeで符号化されていることおよび符号化の種類の判別に使用する。 概要[編集] プログラムがテキストデータを読み込む時、その先頭の数バイトからそのデータがUnicodeで表現されていること、また符号化形式(エンコーディング)としてどれを使用しているかを判別できるようにしたものである。[1] 経緯[編集] Unicodeが開発された当初は、アメリカではASCII、ヨーロッパなどではISO-8859、日ではShift_JISやEUC-JPといった他の文字コードが主流であり、使用されている符号化方式がUnicodeのものであることを明示する必要があった。また、Unicodeの符号化

    nilab
    nilab 2016/07/15
    「バイトオーダーマーク (byte order mark) あるいはバイト順マーク(バイトじゅんマーク)は通称BOM(ボム)といわれる、Unicodeの符号化形式で符号化したテキストの先頭につける数バイトのデータのことである」
  • [ヅ] 波ダッシュ「〜」と全角チルダ「~」 (2015-10-24)

    Web ブラウザで表示してみる Mac OS X Yosemite + Mozilla Firefox 41.0.1 で表示したもののスクリーンショット。 Windows 8.1 + Mozilla Firefox 41.0.2 で表示したもののスクリーンショット。 以前、 Windows XP で調べたときは波ダッシュが「下がって上がる」形状になっていた。いまどきの環境とは逆の波の形状。 ⇒ [ヅ] 2つの WAVE DASH ~ (2005-04-30) どういうことなのか Wikipedia で調べる この文字の全角 (fullwidth tilde) は「~」であり、UnicodeにおけるコードはU+FF5Eである。この文字は波ダッシュ「〜」(すなわち範囲などを表す「波線」)と字形が似ているが、UnicodeやJIS X 0213では別の文字である。Windows OSでは波ダッシ

    [ヅ] 波ダッシュ「〜」と全角チルダ「~」 (2015-10-24)
    nilab
    nilab 2015/10/24
    「にょろ」とか「から」とか「波線」とか呼ばれる記号文字、波ダッシュ「〜」と全角チルダ「~」について調べたのでメモ。
  • [ヅ] iOS 8.3 の肌色変更可能な絵文字・顔文字を Java で調べる (2015-04-10)

    nilab
    nilab 2015/04/10
    _[ヅ] iOS 8.3 の肌色変更可能な絵文字・顔文字を Java で調べる (2015-04-10) : EMOJI MODIFIER FITZPATRICK
  • MySQL と寿司ビール問題 - かみぽわーる

    MySQL と Unicode Collation Algorithm (UCA) - かみぽわーる に関連するトピックで、 MySQL には寿司ビール問題というのがある。 寿司ビール問題どっかで詳しくお話を聞くべきだよなぁ。。。— RKajiyama (@RKajiyama) March 18, 2015 これはどういう問題かというと、 MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定されるという問題です。 あれ? MySQL の utf8mb4 charset って、4バイト文字同士を比較すると同じ文字扱いされる? SELECT '🍣'='🍺' → 1 MySQL的には寿司とビールは同じ扱い。— とみたまさひろ (@tmtms) December 22, 2014 MySQLで select

    MySQL と寿司ビール問題 - かみぽわーる
    nilab
    nilab 2015/03/23
    MySQL と寿司ビール問題 - かみぽわーる : 「MySQL の Unicode では binary collation にしてコードポイントで比較しないと🍣と🍺に限らず絵文字が同値判定される」 utf8mb4_bin
  • [ヅ] 「𩸽」(ほっけ) という文字はUTF-8で4バイトになる (2015-02-26)

    漢字では、𩸽(魚へんに花、「𩸽」Unicode: U+29E3D, JIS X 0213: 2面93区44点)と書く。俗説によれば、鎌倉時代、日蓮宗の日持上人が、蝦夷地を去る礼として、これまでいなかった魚を獲れるようにし、地元の人はその魚を「ホッケ(法華)」と呼び、村落を「トドホッケ(唐渡法華)」と名づけたとなっているが[2]、椴法華村の地名はアイヌ語だというのが通説である。 「𩸽」は、文字コード規格においてはJIS X 0213:2000およびそれに追随したUnicode 3.1(2000)で追加され、JIS第4水準に分類される。 ホッケ - Wikipedia この𩸽という字、文字コードとしてはJIS第4水準にあり、面区点番号2-93-44です。Unicodeでは、BMPでなく面02にあり、符号位置U+29E3Dです。 この、JISでは第4水準にあり、Unicodeでは面02に

    [ヅ] 「𩸽」(ほっけ) という文字はUTF-8で4バイトになる (2015-02-26)
    nilab
    nilab 2015/03/05
    _[ヅ] 「𩸽」(ほっけ) という文字はUTF-8で4バイトになる (2015-02-26)
  • [ヅ] 猫の絵文字「🐱」(UTF-8の4バイト文字) (2015-03-02)

    環境によって、絵文字の絵柄がちがうことがわかる。 iPhone から絵文字「🐱」を Twitter に投稿してみた。 投稿先 ⇒ NI-Lab.さんはTwitterを使っています: "🐱ねこ" iPhone + iOS + Safari で Twitter のサイトを見る。 Nexus 7 + Android + ChromeTwitter のサイトを見る。 MacBook Air + Mac OS X + Firefox で Twitter のサイトを見る。 Twitter から絵文字「🐱」のデータを取り込んでみた。 取り込み先 ⇒ nilog: 🐱ねこ (2015-02-28) MacBook Air + Mac OS X + Chrome で見る。 Nexus 7 + Android + Chrome で見る。 VAIO Tap 20 + Windows 8.1

    [ヅ] 猫の絵文字「🐱」(UTF-8の4バイト文字) (2015-03-02)
    nilab
    nilab 2015/03/05
    _[ヅ] 猫の絵文字「🐱」(UTF-8の4バイト文字) (2015-03-02)
  • [JavaScript] サロゲート・ペアに対応した文字列操作関数を書いてみた / LiosK-free Blog

    2008-11-06 カテゴリ: Client Side タグ: JavaScript 安易な発想 Unicode JavaScriptの文字列型はUTF-16を採用しているから、サロゲートペアを使用した文字が混ざるといろいろと厄介だったりする。一例としては↓のような感じ。 var s = "𪚲"; // U+2A6B2 console.log(s.length); // 2 console.log(s.split("")); // ["�", "�"] ということで、サロゲートペアの扱いを少し楽にする関数を書いてみたからとりあえず公開してみる。 /** 文字列中にサロゲートペアを含む場合はtrue */ String.prototype.hasSurrogate = function() { return (/[\uD800-\uDBFF][\uDC00-\uDFFF]/).test(

    nilab
    nilab 2015/03/05
    _[JavaScript] サロゲート・ペアに対応した文字列操作関数を書いてみた / LiosK-free Blog : 「JavaScriptの文字列型はUTF-16を採用」「String.prototype.hasSurrogate = function() {return (/[\uD800-\uDBFF][\uDC00-\uDFFF]/).test(this);};」
  • Node.js : UTF8の4バイト文字は無理矢理クライアント処理する : typeOf 'aki_mana'

    UTF-8の4バイト文字は、Unicodeの拡張領域。 で、この領域の文字はNodeでは未対応なのだけど、クライアント側で「数値参照」に加工しちゃえば、何とかなるんじゃないか?と思った。 「JavaScript コードポイント」でググれば見つかるこのエントリ内のコードと組み合わせる。 // toNumericCharacterReference for SMP(Supplementary Multilingual Plane) String.prototype.toNCRef = function() { return this.replace(/([\uD800-\uDBFF][\uDC00-\uDFFF])/g, function($0, $1){ return '&#x' + String($1).toCodePoints()[0].toString(16) + ';'; }) };

    Node.js : UTF8の4バイト文字は無理矢理クライアント処理する : typeOf 'aki_mana'
    nilab
    nilab 2015/03/05
    Node.js : UTF8の4バイト文字は無理矢理クライアント処理する : typeOf 'aki_mana' : 「クライアント側で「数値参照」に加工」
  • [ヅ] MySQL + Java で UTF-8 の4バイト文字に対応 (utf8mb4) (2015-02-28)

    nilab
    nilab 2015/02/28
    _[ヅ] MySQL + Java で UTF-8 の4バイト文字に対応 (utf8mb4) (2015-02-28)
  • Rails4 で MySQL の utf8mb4 を扱う - xyk blog

    環境: MySQL Server version: 5.6.19 Rails 4.1.5 iPhone絵文字MySQL に登録しようとしたらMysql2::Error: Incorrect string value:...というエラーが出た。3バイトに収まらない4バイトUTF-8を扱うには MySQL 5.5.3 以上でキャラクタセットをutf8mb4にする必要がある。 database.yml の encoding を utf8 から utf8mb4 に変更した。 config/database.yml 修正前: default: &default adapter: mysql2 encoding: utf8 pool: 5 username: root password: socket: /tmp/mysql.sock development: <<: *default dat

    Rails4 で MySQL の utf8mb4 を扱う - xyk blog
    nilab
    nilab 2015/02/27
    Rails4 で MySQL の utf8mb4 を扱う - xykのブログ
  • UTF-8 エンコードされた絵文字を MySQL / JDBC で取り扱うには?

    2013.06.08 追記:JDBC 接続文字列で characterEncoding / connectionCollation を指定すると思った通りの挙動をしてくれないようなので、別の方法 (多分これが正しい方法) を記載しました。 Unicode における、こんな 感じの絵文字、いわゆる Unicode の 追加面 の文字、Java で言えばサロゲートペアでの表現が必要となる文字を、JDBC 経由で UTF-8 エンコーディングして MySQL のテーブル・カラムに格納しようとすると、以下の例外が発生することがあります。 Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x81 h...' for column 'col_name' at row 1 at com.mysql.jdbc.S

    UTF-8 エンコードされた絵文字を MySQL / JDBC で取り扱うには?
    nilab
    nilab 2015/02/27
    blog.k11i.biz: UTF-8 エンコードされた絵文字を MySQL / JDBC で取り扱うには?
  • ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas

    はじめに 日2013年12月1日は、マンガ『ドラえもん』の原作者である藤子・F・不二雄の80歳の誕生日に当たるそうだ [1] 。 これを記念してというわけではないと思うのだが、11月26日に『2ちゃんねる』に「ドラえもんの特殊顔文字できたwwwwwwwwwww」というスレッド [2] が立った。そのスレッドには、文字だけを使って『ドラえもん』の主要キャラクターの顔が表現されていた。以下に、同スレッドで紹介されていた顔文字を再現したものを掲げる。 ドラえもんの特殊顔文字 こうした顔文字は、アクセント符号などのダイアクリティカルマークをつけることで作られている。どのようなしくみになっているのか以下で詳しく見ていこう。 特殊顔文字のしくみ 従来の顔文字は(-_-)や(^^)のように単純な記号で、単純な図像を表現するのみであった。しかし、近年様々な文字を組み合わせて、より表情豊かな顔文字が作られ

    ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas
    nilab
    nilab 2013/12/29
    ドラえもんの特殊顔文字はどういうしくみでできているか|Colorless Green Ideas
  • ユニコードで使用可能な気象用絵文字 - 世界の特殊文字ウィキ

    世界の特殊文字ウィキ ラテン文字などの拡張補助文字や人工文字、ユニコード絵文字など特殊文字に関するウィキです。 トップページページ一覧メンバー編集 ユニコードで使用可能な気象用絵文字 最終更新: qvarie 2015年01月31日(土) 18:41:33履歴 Tweet 【ユニコードで使用可能な絵文字】カテゴリです。 ここでは気象に関する基ユニコード絵文字を取り上げます。 ユニコード5.2で採用されたものは【ユニコード5.2以降で使用できる絵文字】を参照してください。 ユニコード6.0で採用されたものは【ユニコード6.0以降で使用できる絵文字】を参照してください。 国際式気象記号は【ユニコードで使用可能な特殊記号】を参照してください。 気象用絵文字 - Weather Symbol テレビ番組などで使用されている絵文字。 日の文字コード“JIS X 0213”や北朝鮮の文字コード“K

    ユニコードで使用可能な気象用絵文字 - 世界の特殊文字ウィキ
    nilab
    nilab 2013/01/26
    ユニコードで使用可能な気象用絵文字 - 世界の特殊文字ウィキ - livedoor Wiki(ウィキ)
  • 文字からコードポイントを取得する

    2012/11/15 追記; 次の記事で関数として定義して再利用しやすくしました。 バイト操作による1文字の UTF-8 とUTF-16、UTF-32 の相互変換UTF-8 対応の ord と chrUTF-16 対応の chr、ord 関数UTF-32 対応の chr と ord ASCII (U+0 から U+7F) ではない文字から Unicode ポイントを調べるには HTML エンティティに変換するやりかたが手軽である。BMP 外で4バイト文字の「𠀋」(U+2000B) を試してみよう。 $c = '𠀋'; echo preg_replace_callback( '/\A(\\d+);\z/', function($matches) { return dechex($matches[1]); }, mb_convert_encoding($c, 'HTML-ENTITIES'

    文字からコードポイントを取得する
    nilab
    nilab 2012/10/23
    文字からコードポイントを取得する - Sarabande.jp : 「文字から Unicode ポイントを調べるには HTML エンティティに変換するやりかたがもっとも手軽」
  • 今日やっつけた本 - 『Unicode標準入門』

    所用で Unicode に少し首を突っ込むことになったので,実装方法を中心にやりなおしています。 やろうとしていることは,それほど厄介なことではなくて,とりあえず文字コードの変換ライブラリを作りましょう,とかいった話。この頃は,日語も JIS 第四水準までサポートした JIS X 0213:2004(いわゆる JIS2004)が OS レベルでサポートされるようになったこともあって,周辺のアプリケーションもこれに対応する必要がそれなりに出てきました。今から作るなら,JIS X 0213:2004 は Unicode で実装するのが近道なんですけれど,これまでの JIS X 0208 を実装していた符号体系(CP932 とか EUC-JP とか)とも歩調をあわせる必要が出てきたので,ギャップを埋めるライブラリが欲しいね,ということになったのでした。 ここら辺の話,オープンソース界隈では,i

    nilab
    nilab 2012/09/17
    qune: 今日やっつけた本 - 『Unicode標準入門』
  • ECMAScript.next: TC39’s July 2012 meeting

    TC39 (Technical Committee 39) works on the upcoming ECMAScript.next [1] standard. They have several meetings per year and in July, there was another one. This blog post summarizes the most important decisions. It is based on the following minutes by Rick Waldron: July 24, 2012 July 25, 2012 July 26, 2012 Introduction In this post, I have omitted all decisions that concern minor details or that it

    nilab
    nilab 2012/08/16
    ECMAScript.next: TC39’s July 2012 meeting : "<<some emoji>>" === "\u{1F601}" === "\uD83D\uDE01" : String.fromCodePoint, String.prototype.codePointAt
  • lucene-gosenのJava7でのテスト失敗問題の対応 | @johtani の日記

    一定期間更新がないため広告を表示しています

    lucene-gosenのJava7でのテスト失敗問題の対応 | @johtani の日記
    nilab
    nilab 2012/05/09
    lucene-gosenのJava7でのテスト失敗問題の対応 | @johtani の日記「Java6ではUnicodeのバージョンが4.0です。Java7ではUnicodeのバージョンが6.0」「「・」(0x30FB)の文字列のCharacter.getType()がCONNECTOR_PUNCTUATIONからOTHER_PUNCTUATIONに変更」
  • ユニコードで使用可能な絵文字【手】 - 世界の特殊文字ウィキ

    nilab
    nilab 2012/05/06
    ユニコードで使用可能な絵文字【手】 - 世界の特殊文字ウィキ - livedoor Wiki(ウィキ)
  • gist:2212589

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    gist:2212589
    nilab
    nilab 2012/03/28
    「perl -E 'say "生" & "死"'」 で 「愛」 が導かれる。Unicodeコードポイントの奇跡。 / miyagawa's gist: 2212589 — Gist
  • 第4回 UTF-8の冗長なエンコード | gihyo.jp

    今回は、文字コードに関連するセキュリティの話題では古参ともいえるUTF-8の冗長なエンコードというテーマについて紹介します。 UTF-8とは UTF-8は、各文字を1~4バイトの可変長で表現するUnicodeの符号化方式のひとつです。 U+0000からU+007Fの範囲の文字を0x00から0x7Fの1バイトで表現しているため、US-ASCIIと互換性がある、バイト列の途中からでも文字の先頭バイトを簡単に検出できる、多バイト文字の途中に0x00や0x5C(\⁠)⁠、0x2F(/)などが現れない、などの特徴があります。 UTF-8での文字のビットパターンは表1のようになります。 表1 UTF-8でのビットパターン

    第4回 UTF-8の冗長なエンコード | gihyo.jp
    nilab
    nilab 2012/03/01
    本当は怖い文字コードの話:第4回 UTF-8の冗長なエンコード : 「現在のUnicode仕様ではバイト数が最小になるもの以外は不正なバイト列であるとして,UTF-8として解釈することを明確に禁止」「2001年のNimdaウイルス」