タグ

unicodeに関するwata88のブックマーク (15)

  • 全ての開発者が知っておくべきUnicodeについての最低限の知識

    2003年には「プレーンテキストなんてものは全く存在しない」と言われ、テキストの解読には文字コードの情報が必須となっていました。しかし、2023年になるまでの20年の間に絵文字などのおかげでUnicodeの利用率は98%へと到達し、再び文字コードを気にせずにすむ時代がやってきています。そんな時代において、正しくUnicodeを使うために必要な知識をエンジニアのニキータ・プロコポフさんが解説しています。 The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 (Still No Excuses!) @ tonsky.me https://tonsky.me/blog/unicode/ Unicodeの歴史と利用率の推移をまとめたグラフは下図の通り。2000年代後半から急速に普及が進んでいったこ

    全ての開発者が知っておくべきUnicodeについての最低限の知識
  • 文字列を反転させたい|nona

    こんにちは。徒然なるままにTweetを眺めていたら、Tanakaさんがこのようなことを呟いていました。 そういやRustのStringにreverseメソッドないなと思ったけど、まあよく考えたらUTF-8で文字逆転させるとか地獄のような話になるしそもそも長さが変わるケースとかあったりしそうで怖いわな・・・(´・_・`) — Hideyuki Tanaka (@tanakh) May 1, 2021 背景等はよくわからないですが、文字列の反転というのは確かに難しい問題ですし、どう難しいのかというのを、ちょっと真面目に考えて解説してみました。というノートです。 文での表記についてこれから文字とそのバイト表現の話をしていきます。文字のエンコードの方式で同じ数値でも色々意味が分かれてしまいますので、文では以下のように表記することにします。 Unicodeコードポイント(以下、単にコードポイント

    文字列を反転させたい|nona
    wata88
    wata88 2021/05/02
    文字は難しい
  • Unicode 版美乳テーブルを探せ

    美乳テーブルとは 「美乳テーブル」という物がある。 「EUC-JP の文章を Shift_JIS だと誤認識されない様に、EUC-JP 固有のバイト値を文章先頭付近に埋め込んでおく」という物。 具体的に、Shift_JIS には 0xFD と 0xFE が現れず、EUC-JP にはそれが現れるので、その値を含む文字コードを書いておこうという事で、その文字の集合に付いた名前。 “美” = 0xC8FE、“乳” = 0xC6FD。 各文字エンコーディングの事情 但し、これは EUC-JP での話。 一応、文章の先頭付近に日語の文字を書いておくのは、他の文字エンコーディングでも認識のヒントにはなるけど。 逆に「Shift_JIS の文章を EUC-JP だと誤認識されない様にする」には、EUC-JP にはないバイト値の 0x80〜0xA0 を書けばいいんだろうけど、これは沢山ありそうだから、慎

  • 急なレスポンスタイム悪化から、オープンソースプロジェクトにPull Requestを送るまで - 弥生開発者ブログ

    こんにちは、Misoca開発チームの黒曜(@kokuyouwind)です。 最近はシャニマスのイベントシナリオ感想記事をnoteにまとめたりしています。 😨 急に番のレスポンスタイムが悪化した話 Webエンジニアにとって、「番障害」という4文字ほど見たくないものはないでしょう。 番障害ほどではないにしても、「急なレスポンスタイム悪化」もあまり見たくない文字列ですね。まぁ、見たくなくても向こうからやってくるんですが… というわけで、今回は番レスポンスが急に悪化したときの話です。いろいろ調べた結果、利用しているオープンソースプロジェクトが原因だったことがわかりPull Requestを送ったので、その流れをまとめてみたいと思います。 ❗️ レスポンスタイム悪化の検知 Misocaでは監視ツールとしてMackerelを、APMツールとしてSkylightを利用しています。 番レスポン

    急なレスポンスタイム悪化から、オープンソースプロジェクトにPull Requestを送るまで - 弥生開発者ブログ
  • 法務省 戸籍統一文字情報 検索条件入力

     法務省トップ 検索条件入力 文字検索 ←利用の前に必ず「使い方」を御確認下さい。 検索条件を指定して[検索]ボタンを押して下さい。 読み AND検索 入力したキーワードのすべてを含む語を検索します OR検索 入力したキーワードのいずれかを含む語を検索します 画数 画 ( 範囲: 画 ) 部首 部首選択1 (クリア) 部首選択2 (クリア) 部首選択3 (クリア) 子の名に 使える漢字 人名用漢字 常用漢字 JIS水準 文字コードを入力する場合は、その他の検索条件は指定できません。 文字コード 戸籍統一文字番号 UNICODE シフトJIS (C)Copyright Ministry of Justice

  • C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita

    C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方 当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。 お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - cpprefjp C++語リファレンス 追記 全ての開発者が知っておくべきUnicodeについての最低限の知識 - GIGAZINE Unicodeについて簡潔にまとまってるいい記事を見つけました。 Caution この文章には以下の要素が含まれます。苦手

    C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
  • Unicodeの表の読み方と制御コード

    UCSの列(縦)がUCS-2またはUTF-16のコード。これに上部の +1 から +F までを加えると交点にある文字の文字コードとなる。 たとえば A は 0040+1 で 0040 。 m は 0060+D で 006D である。 これをUCS-2とよぶのもUTF-16とよぶのも厳密には正しくないかもしれないが、一般的にこれをユニコード(Unicode)とよび、"U+" をつけて、U+0041 U+006D などとあらわす。多くは16進数4桁つまり16ビットだが5桁(正確には21ビットで最大値はU+10FFFF)の場合もある。 UTF-16の場合、16ビット以上になる場合は、16ビットの予約域にあるコードを2つ組み合わせて16×2=32ビットであらわすことになっているが、これをサロゲートペア(代用対)という。 漢字の上にマウスを重ねると出てくる表示は Unicode/JIS です。JIS

  • Ctrl-[ が Esc になる理由 - Humanity

    理由 SHIFT キーはキーコードを -0x20、CTRL キーはキーコードを -0x40 する機能 全文 vim-jp.slack.com の #random から。 heavenshell [10:08 AM] TouchBar MBP にしたら強制的に C-[ になるので、オススメです!ようやく矯正できた。 mattn [10:09 AM] 人間の方が最適化されている yoshitia [10:12 AM] Escが物理的にない状況用にデフォルトでCtrl-[ 用意してるのすごい mattn [10:14 AM] いや、用意した訳ではないです。 SHIFT キーはキーコードを -0x20、CTRL キーはキーコードを -0x40 する機能なのです。 なので `[` つまり 0x5b は 0x1b になる。 0x1b = ESC 同様に CTRL-H は H が 0x48 なので 0x

    Ctrl-[ が Esc になる理由 - Humanity
  • そろそろMySQLのutf8について一言いっとくか - tmtms のメモ

    MySQLのutf8 charsetは、やれ「罠」だの「絵文字が入らなくて使えない」だの「utf8という名前はutf8mb4の別名にすべき」だの、散々な言われようでディスられてかわいそうな charset なんだけど、というか主に私がそう言ってる気もするんだけど、そろそろ utf8mb3 のエイリアスとしての utf8 は消え去ろうとしてるみたいなので、ここでちょっと勝手にフォローしておく。 UTF-8 エンコーディングの RFC は RFC3629で、ここで UTF-8 は最大4バイトと書かれている。 しかし、この RFC3629 の前のRFC2279では6バイトだった。 RFC3629 の日付は 2003/11 なので、つまり 2003/11 よりも前は UTF-8 の1文字のバイト数は最大6バイトだったのだ(少なくともRFC上では)。 MySQL が Unicode に対応したのはバ

    そろそろMySQLのutf8について一言いっとくか - tmtms のメモ
  • コンピューターで全漢字使用可に 6万字コード化 | NHKニュース

    語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。 中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に名の外字を充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。 このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、コードを割りつける作業を進め

    コンピューターで全漢字使用可に 6万字コード化 | NHKニュース
    wata88
    wata88 2017/12/25
    外字がある限り報われないやつ
  • UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 

    UnicodeのWAVE DASH例示字形が、25年ぶりに修正された理由 
  • utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる

    RailsMySQLのcollationをサーバー側のデフォルトのutf8_general_ciからutf8_unicode_ciにわざわざ変えてるのどうせ大した理由じゃないだろと思って掘ってみたらやっぱり大した理由じゃなかった… https://t.co/6NeetGhTF0— Ryuta Kamizono (@kamipo) April 18, 2014 Railsでcollationとしてutf8_unicode_ci(RailsのDEFAULT_COLLATION)が採用されるのはcharsetが未指定もしくはutf8(RailsのDEFAULT_CHARSET)のときだけで、utf8mb4にすることとかは全く考慮されてない。— Ryuta Kamizono (@kamipo) April 19, 2014 @frsyuki MySQLのcharset utf8のときのデフォルト

    utf8_unicode_ci に対する日本の開発者の見解 - かみぽわーる
    wata88
    wata88 2015/03/09
    闇を見た
  • クメール文字とUnicode

    無 @LGRikka 今日の4限は、Unicodeにクメール文字を入れたとき、どれだけ揉めたかという話だったのだけれど、なかなかそれが複雑な問題を孕んでいたので、自分用の整理がてら連続ツイートしようかなと。 2014-12-01 21:51:00 無 @LGRikka 「主にカンボジアで使われるクメール文字をUnicodeに入れようとしたとき、カンボジアの言語学者どころかカンボジア人が誰もいない状態で、文字コードの専門家(外国人)だけが集まってリストを作ったせいで、ワケわからん文字は入ってるわ、必要な文字はないわのウンコードになった」っていう。 2014-12-01 21:53:36

    クメール文字とUnicode
  • 「“バルス”は迷惑?」「大喜利タグって日本独特?」――Twitter本社でいろいろ聞いてきた

    Twitter初のモバイル開発者向けカンファレンス「Twitter Flight」のためサンフランシスコに赴いた記者。せっかくのチャンスなのでTwitter社オフィスを訪問し、現地で働く日人の方に質問をぶつけてきました。 Hello, Twitter Twitter社の社オフィスがあるのはサンフランシスコ市中心部にある1937年建築の重厚なビル。市内の別の場所から2年ほど前に移転してきました。当初は2フロアだったのが、現在はこの大きなビルの5階から11階までを占めるまでに成長し、そもそもビル自体が9階までしかなかったのを増築したそうです。世界中で約3600人いる社員のうち、約1000人がこのオフィスで働いています。 受付を済ませて社内に入るといきなり広大なカフェテリアが! これだけ広くてもお昼時はかなり混み合うとのこと。社内にカフェテリアは4つあって、毎日違うメニューで朝昼晩3提供

    「“バルス”は迷惑?」「大喜利タグって日本独特?」――Twitter本社でいろいろ聞いてきた
    wata88
    wata88 2014/10/30
    tofu on fire 笑っちまうわw
  • 「絵文字に平等をサポートしてください」人種差別の指摘にゆれるUnicode 

    wata88
    wata88 2014/10/10
    色を変えられると🍣をサーモンに変えたりできるのかな
  • 1