タグ

unicodeに関するdrillbitsのブックマーク (4)

  • 特殊顔文字に使われている謎の文字よ、お前は一体何者なのか – たぬきフォント

    調査方法 顔文字検索の人気サイト『顔文字屋』に掲載されている、週間顔文字ランキング(2017/11/5~2017/11/11)から上位300種類をリストアップし、そこに使われている各文字について、Unicodeのどのブロックに属しているかを調べました。 三(‘ω’)三( ε: )三(.ω.)三( :3 )三(‘ω’)三( ε: )三(.ω.)三( :3 )ゴロゴロゴロ ( ๑❛ᴗ❛๑)۶♡٩(๑❛ᴗ❛๑ ) ( *¯ ³¯*)♡ㄘゅ ┌(┌^o^)┐ホモォ… ┏○)) アザ━━━━━━━━ス! ((〃’・∀・)ノ”)-ω-`*)ヨシヨシ (っ’-‘)╮=͟͟͞͞♡好き♡ ♡(*>ω<)ω<*)ギュ~ッ♡ ( ˙ө˙) ╰( ^o^)╮-=ニ=一=三 (*˘︶˘*).:*♡ 三└(┐卍^o^)卍ドゥルルル 三┗(┓卍^o^)卍ドゥルルルル (ノ≧ڡ≦)てへぺろ 三(‘ω’)三(

    特殊顔文字に使われている謎の文字よ、お前は一体何者なのか – たぬきフォント
  • JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io

    Intro textarea などに入力された文字数を、 JS で数えたい場合がある。 ここで .length を数えるだけではダメな理由は、文字コードや JS の内部表現の話を理解する必要がある。 多言語や絵文字対応なども踏まえた上で、どう処理するべきなのか。 それ自体は枯れた話題ではあるが、近年 ECMAScript に追加された機能などを交えて解説する。 なお、文字コードの仕組みを詳解すること自体が目的では無いため、 BOM, UCS-2, Endian, 歴史的経緯など、この手の話題につき物な話の一部は省くこととする。 1 文字とは何か Unicode は全ての文字に ID を振ることを目的としている。 例えば 😭 (loudly crying face) なら 0x1F62D だ。 1 つの文字に 1 つの ID が割り当てられているのだから、文字の数を数える場合は、この ID

    JavaScript における文字コードと「文字数」の数え方 | blog.jxck.io
  • Python 2/3 両対応のために `unicode_literals` を使うべきか - methaneのブログ

    背景 Python 2 用のコードを書くときは、 Python 3 対応を見越して # -*- coding: utf-8 -*- from __future__ import division, print_function, absolute_import をテンプレとして書いています。 __future__ はファイルごとにバラバラだと混乱を招くので、今関わってるプロジェクトでもこれを新規ファイルのテンプレとして登録してもらってます。 Python 3 の構文、リテラルを有効にする __future__ のうち、 unicode_literals だけは今まで使っていなかったのですが、ふと「あ、やっぱり使うべきだな」と思いついたので、そのへんをまとめます。 第三の文字列型 native string Python 2 には2つの文字列型 str (bytes) と unicode が

    Python 2/3 両対応のために `unicode_literals` を使うべきか - methaneのブログ
  • s.decode('utf8') よりも unicode(s, 'utf-8') の方が速い - methaneのブログ

    http://groups.google.com/group/comp.lang.python/browse_thread/thread/314a3043ea63319f/ unicode vs s.decode unicodeはLOAD_GLOBALで、s.decodeはLOAD_ATTRでスタックに積まれる。で、LOAD_GLOBALの方が速い。 さらに言えば、何度もデコードを行うのであれば u = unicode のようにローカル変数にするとさらに速くなる。LOAD_ATTRやLOAD_GLOBALは最適化で消すことが出来ないので、明示的にローカル変数に束縛することはCPythonに限らず有効な手法だ。 'utf8' vs 'utf-8' 単なる1タイプの問題だけど、内部的には 'utf-8' が利用されており、 'utf8' を使うと 'utf-8' だと判断するのに1クッション必

    s.decode('utf8') よりも unicode(s, 'utf-8') の方が速い - methaneのブログ
  • 1