並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 308件

新着順 人気順

utf8の検索結果121 - 160 件 / 308件

  • ミャンマー語フォント『Zawgyi-one』の問題に直面した話 - GMO Research & AI Tech Blog

    システム部のはたです。 GMOリサーチには2年ぐらい前に入社して、主にシステム開発をやっています。 趣味は音楽鑑賞と旅行とキャンプで、焚火を見ながらお酒を飲んでのんびり過ごすのにハマってます。 今回は、ミャンマー語フォントの問題についてお話をしたいと思います。 GMOリサーチでは、国内だけではなく、海外ビジネスの展開にも力を入れており、2019年にはミャンマーへ進出し、リサーチサービスの展開を行ってきました。 そんな中、ミャンマー語のWebアンケートサイトを作ることになったのですが、ある問題に直面しました。それは「ミャンマー語のWebサイトの文字化け問題」です。 ということで、早速どんな事象が発生したのかご紹介していきます。 ◆ ミャンマー進出の背景 まず、ミャンマー進出の背景から簡単にご説明させていただきます。 弊社では生活者の方々の声を企業に届けること、そしてそのデータを企業のマーケテ

      ミャンマー語フォント『Zawgyi-one』の問題に直面した話 - GMO Research & AI Tech Blog
    • モダンに生まれ変わった「メモ帳」アプリはアクセシビリティにもしっかり配慮【Windows新標準アプリ徹底解説】

        モダンに生まれ変わった「メモ帳」アプリはアクセシビリティにもしっかり配慮【Windows新標準アプリ徹底解説】
      • 圧縮効率のよいカラムナフォーマット 〜 Yosegi や ORC のエンコード方式調査

        初めまして、2019年8月にヤフーのデータプラットフォームチームのインターンシップに参加した山添です。今回はインターンで検証を行ったカラムナフォーマットにおけるエンコーディング方式について紹介します。本ブログでは、特に数値型のエンコーディング方式について、データ圧縮率への効用を確認します。 カラムナフォーマットとは 昨今のデータ社会では、ログデータや購買データ、位置情報データなどさまざまなデータがものすごいスピードで生み出されています。企業ではそのような大規模なデータを蓄えておく必要があります。 私たち学生の間で最も親しみのあるファイルフォーマットは、JSON や CSV などのテキストフォーマットだと思います。これらのフォーマットは、データ保存時にスキーマを必要としない、人間からの可視性が高いなどの利点がありますが、データの圧縮効率が低いことや、処理性能の低さなどのデメリットもあります。

          圧縮効率のよいカラムナフォーマット 〜 Yosegi や ORC のエンコード方式調査
        • ハイフンとかマイナスとかダッシュとか | 404 motivation not found

          目次 ハイフンに似た文字参考ソースコードを読んでいたら、既存処理にとある文字列変換処理があった。 例 (ソースはイメージです) const convert = (arg) => { return arg.split('ー').join('‐'); }; いざテストをしようと思って、「—」を入力したら期待値が出なかった。 なぜならば、この処理は「ー(全角長音)」を「‐(全角ハイフン)」に変換しているので、「—(全角ダッシュ)」はスルーされるからだ。 ハイフンに似た文字 気になったので色々調べたら、少なくとも以下の文字があることがわかった。 -(全角ハイフンマイナス) -(半角ハイフンマイナス) ‐(全角ハイフン) −(全角マイナス) ‒(フィギュアダッシュ) —(全角ダッシュ(emダッシュ)) –(二分ダッシュ(enダッシュ)) ―(ホリゾンタルバー) ー(全角長音) ー(半角長音) ─(罫

            ハイフンとかマイナスとかダッシュとか | 404 motivation not found
          • Windows と Unicode とボク

            「今まで Shift-JIS しか使えなかった Windows で UTF8 が使えるようになりました!」 素人だけでなく、Windows についてろくに知らないLinuxかぶれのプログラマまでに知ったふうなことを言っています。 別に Unicode の委員会とも縁があるわけではなく、単に UNIX と Windows 、ちょっとずつだけかじっただけの、たまたま独自シェル用に ReadLine を作ってみただけに過ぎない1プログラマのワタクシが世間の Unicode の認識にグチります。 そんな怪文書、はーじまーるよー

              Windows と Unicode とボク
            • Unicodeの異体字セレクターを使ったステガノグラフィ:秘密の文字列をテキストにこっそり隠し込む方法 - Qiita

              Unicodeの異体字セレクター(variation selectors)を使い、ユニコード文字列内に隠し情報を埋め込む方法です。 異体字セレクターとは 異体字セレクターは、文字の字体を詳細に指定するモディファイアのようなもの 異体字セレクターは16種類のコードポイントがある(FE00~FE0F) 仕組みの概要 隠したい文字列(hidden)を文字単位にバラす (例: js → j, s) 文字ごとに16進数に変換する (例: j → 6A) その16進数をひと桁ずつ異体字セレクターのコードポイントにマッピングする (例: 6→FE06, A → FE0A) 異体字セレクターの配列をひとつの文字列にまとめなおす 最後にそれを埋め込み先の文字列(body)に混ぜ込んで隠す。 よくあるユニコードステガノグラフィーとの違い ゼロ幅文字を使ったステガノグラフィー 次のようなゼロ幅空白文字を用いたス

                Unicodeの異体字セレクターを使ったステガノグラフィ:秘密の文字列をテキストにこっそり隠し込む方法 - Qiita
              • Small String Optimization で Rust ライブラリ ratatui を最適化した話 - はやくプログラムになりたい

                最近 ratatui という crate に Small String Optimization を利用した最適化を入れたので,その話を書きます. 目次 Small String Optimization (SSO) とは(SSO を既に知っている人は読み飛ばして大丈夫です) Rust で SSO を適用した文字列型を提供する crate 比較 SSO を利用して ratatui のメモリ効率と実行効率を最適化した話 compact_str crate の実装の最適化の話 インラインストレージに24バイト全てを使える理由 隙間最適化のための工夫 説明を簡潔にするため,特に断りが無い場合 64bit アーキテクチャを前提とします. Small String Optimization (SSO) とは Rust の可変長文字列型 String は文字列バッファへのポインタ,文字列の長さ,バッフ

                  Small String Optimization で Rust ライブラリ ratatui を最適化した話 - はやくプログラムになりたい
                • 私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog

                  本記事は 【Advent Calendar 2023】 17日目の記事です。 🎄 16日目 ▶▶ 本記事 ▶▶ 18日目 🎅 こんにちは。 2年目の草野です。年末が近づいてきましたね。 今回はAdvent Calendarの執筆に参加ということで、2023年の業務の中で印象深かったUnicodeについて少しお話したいと思います。 そもそもUnicodeとは サロゲートペア文字 突然ですが…… 異体字セレクタとの出会い 異体字セレクタって? 全く同じ意味を持つ文字、異体字 異体字セレクタの誕生 具体例 結局私の名字はどう書くの? おわりに そもそもUnicodeとは みなさんご存じの通り、Unicodeは文字を表すための国際的な標準規格の1つです。 一般的には [U+91CE] のように、16進数で表記されます。 常用文字は [U+0000] ~ [U+FFFF] の16進数4文字=2バ

                    私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog
                  • Emoji Frequency

                    ARCHIVE THIS SECTION CONTAINS EMOJI DATA FROM PREVIOUS YEARS The Most Frequent Emoji — 2019 How does the Unicode Consortium choose which new emoji to add to the Unicode Standard? One important factor is data about how frequently current emoji are used. Patterns of usage help to inform decisions about future emoji. The Consortium has been working to assemble information about how frequently various

                      Emoji Frequency
                    • JavaScriptで平仮名(ひらがな)を判定する - Qiita

                      regex = /*ここに何らかの正規表現*/; regex.test("あいうえお"); // -> true regex.test("あぁ"); // -> true regex.test("aiueo"); // -> false regex.test("あいueo"); // -> false regex.test("あい うえお"); // -> false

                        JavaScriptで平仮名(ひらがな)を判定する - Qiita
                      • 【追記】Rails v7.1.0 で `can't be blank` が `can’t be blank` に変わる(リバートされました) - アジャイルSEの憂鬱

                        既存アプリやライブラリへの影響が大きく、この変更に対してネガティブなフィードバックも多かったためリバートされました。 github.com 概要 表題の通り、Rails v7.1.0 で APOSTROPHE (U+0027) が SINGLE QUOTATION MARK (U+2019) に変わります。 github.com 既存のRailsアプリをアップグレードする際に影響が大きそうなので、記事を書きました。 影響範囲 テストでエラーメッセージを検証していた場合、Rails v7.1.0 のアップグレードによって検証に失敗するようになります。 Expected: "can't be blank" Actual: "can’t be blank" 今回の変更を知らない場合、このテストのエラーメッセージだけで ' と ’ の違いを見分けるのは厳しそう。 SINGLE QUOTATION

                          【追記】Rails v7.1.0 で `can't be blank` が `can’t be blank` に変わる(リバートされました) - アジャイルSEの憂鬱
                        • Dive into Encoding

                          ima1zumi ESM, inc. Ruby on Rails engineer irb, reline, rurema contributor Learning about character codes out of curiosity 2 [1] 1. Japanese Ruby Reference Manual: https://docs.ruby- lang.org/ja/latest/doc/index.html Reason for talking The bug fix in reline Bug Fix※ ※Some terminals will not display correctly. 😢 Because ZWJ(U+200D) is sometimes not supported. 1. https://github.com/ruby/reline/pull/

                            Dive into Encoding
                          • [アップデート] ALB および CLB に HTTP Desync 緩和モードが機能追加されました | DevelopersIO

                            本日のアップデートで ALB および CLB が HTTP Desync 緩和モードをサポートするようになりました。 Application and Classic Load Balancers are adding defense in depth with the introduction of Desync Mitigation Mode 何がうれしいのか HTTP Desync 攻撃とは このアップデートの何が嬉しいのかを理解するには、まず HTTP Desync 攻撃 について知る必要があります。 近年では Web アプリケーションでは CDN やプロキシをフロントエンドに配置し、バックエンドのサーバーにリクエストを転送するような構成を一般的にとられているかと思います。まず大前提として HTTP Desync 攻撃は、このようなフロントエンド、バックエンド構成において成り立ちます

                              [アップデート] ALB および CLB に HTTP Desync 緩和モードが機能追加されました | DevelopersIO
                            • macOS 13.4 Venturaでは、濁音や半濁音の文字を含んだ日本語ファイルがダブルクリックで開けなくなっていたNFC/NFD問題が修正。

                              macOS 13.4 Venturaでは、濁音や半濁音の文字を含んだ日本語のファイルがダブルクリックで開けなくなっていたNFC/NFD問題がようやく修正されています。詳細は以下から。 Appleが現地時間2023年03月27日にリリースした「macOS 13.3 Ventura」*では、2017年以来となるUnicodeの正規化形式(NFD/NFC)問題が発生し、濁音(が)や半濁音(ぱ)を含んだ日本語のファイルやアクセント記号(á)を含んだフランス/ドイツ語のファイル**がダブルクリックで開けなくなり、 AppleはmacOS 13.4のBeta段階で、この不具合を認識しBeta 2以降で修正に向けて動いていると発表していましたが、本日公開された「macOS 13.4 Ventura」のリリース版では、この不具合が修正され濁点や半濁点を含むファイルがダブルクリックで開けるようになっています

                                macOS 13.4 Venturaでは、濁音や半濁音の文字を含んだ日本語ファイルがダブルクリックで開けなくなっていたNFC/NFD問題が修正。
                              • macOS 13.3.1 Venturaでは、ファイル名に濁音やアクセント記号が含まれるとダブルクリックでファイルが開けない不具合は未修正。

                                macOS 13.3.1 Venturaでは、ファイル名に濁音やアクセント記号が含まれるとダブルクリックでファイルが開けない不具合は修正されていません。詳細は以下から。 Appleは現地時間2023年04月07日、絵文字の肌の色が選択できない/Apple Watchを利用したMacのロック解除ができない不具合と2件のゼロデイ脆弱性を修正した「macOS 13.3.1 Ventura (22E261)」をリリースしましたが、

                                  macOS 13.3.1 Venturaでは、ファイル名に濁音やアクセント記号が含まれるとダブルクリックでファイルが開けない不具合は未修正。
                                • 松竹梅はsortしても松竹梅になる - Lambdaカクテル

                                  物事の順位付けをするとき、松竹梅という雅な表現がよく使われる。自分もよく使う。 blog.3qe.us コンピュータにとってもそうなのだろうか?そう考えた私は実際にソートしてみることにした。 % echo $LANG ja_JP.UTF-8 % sort --version sort (GNU coreutils) 9.3 Copyright (C) 2023 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>. This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permit

                                    松竹梅はsortしても松竹梅になる - Lambdaカクテル
                                  • Goの標準のutf8.RuneStart関数がエレガントすぎる

                                    先日以下の記事を書きました。 ここでUTF-8の最初の文字かどうかの判定を以下の自作した関数で実装していました。 const ( t1 = 0b00000000 tx = 0b10000000 t2 = 0b00000110 t3 = 0b00001110 t4 = 0b00011110 ) func isUTF8LeadByte(tmp byte) bool { if tmp&tx == t1 { return true } tmp >>= 3 if tmp == t4 { return true } tmp >>= 1 if tmp == t3 { return true } tmp >>= 1 if tmp == t2 { return true } return false }

                                      Goの標準のutf8.RuneStart関数がエレガントすぎる
                                    • 誰でも簡単⁉️👀 絵文字ができるまで😃👍

                                      こんにちは!サイボウズ株式会社フロントエンドエンジニアの おぐえもん(@oguemon_com) です。 先日開催された社内イベントCybozu Frontend Day 2023にて私が発表した絵文字の仕様策定に関する紹介を、当時の時間的制約から泣く泣く割愛した内容を加えた上で文章の形にまとめました。 また、情報は全て2023年8月1日現在のものです。 はじめに 今や「ぴえん🥺」や「おじさん構文」などの様々な形で老若男女を問わず私たちの生活・文化に深く根ざしている絵文字。ところで、そんな絵文字たちにも生みの親がいることを意識したことがありますか? 例えばこちらの絵文字にも生みの親がいます。 🥱は、Jay Petersさんが2017年9月に提案しました。 Jay Petersさんの職業はニュース編集者。決してデザイン事務所やGAFAなどのエンジニア・デザイナーではありません。 このよう

                                        誰でも簡単⁉️👀 絵文字ができるまで😃👍
                                      • Unicodeコンソーシアム提供の“豆腐”対策フォント「Last Resort Font」がv14へ/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる

                                          Unicodeコンソーシアム提供の“豆腐”対策フォント「Last Resort Font」がv14へ/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる
                                        • JavaScriptで文字数を数えるのはそんなに簡単ではない - Qiita

                                          はじめに JavaScriptにて文字数をカウントする方法に関する記事をいくつか目にする機会があり、今回実際に記事を参考に調べてみました。 簡単そうに見えて意外と難しいです。 String.length Googleなどで「JavaScript 文字数 カウント」とかで検索すると真っ先に出る方法です。 MDN公式ではString.lengthに関して以下のように説明されています。 length プロパティは String オブジェクトの文字列長を UTF-16 コードユニットの数で表します。 length は、 string インスタンスの読み取り専用データプロパティです。 UTF-16 コードユニット ざっくりと説明するならUnicodeで割り当てられた番号をUTF-16 という文字コード方式で割り当てられた各文字に対応するIDを指します。 難しい単語がいくつか出てきているので1つずつか

                                            JavaScriptで文字数を数えるのはそんなに簡単ではない - Qiita
                                          • 日本語URLを日本語のままコピペできる拡張機能「Copy Unicode URLs」/%表記に変換されて意味不明&やたらと長くなるURLを短縮可能【レビュー】

                                              日本語URLを日本語のままコピペできる拡張機能「Copy Unicode URLs」/%表記に変換されて意味不明&やたらと長くなるURLを短縮可能【レビュー】
                                            • あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿

                                              こんにちは!アルダグラムのKANNAの開発お手伝いをさせて頂いているoubakiouです。 本記事は株式会社アルダグラム Advent Calendar 2023 6日目の記事です。 この記事を読めば以下のTypeScript(JavaScript)のテストコードがなぜこけるのかが分かったような気持ちになります。また最後に「細かい理屈はいいからいけてる感じに動くlengthやtruncateがほしい!」という方向けの付録もついています。 it('surrogate pair', () => { // 2 expect('😊'.length).toEqual(1) }) it('variation selectors', () => { // 4 expect('👍🏿'.length).toEqual(1) }) it('combining character', () => { //

                                                あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿
                                              • 目に見えないUnicode文字をコピペして使えたり元のUnicode文字を検索したりできる「Invisible Characters」

                                                世界中の文字を収集して文字コードを付与する規格「Unicode」では、バージョンアップごとに次々と絵文字が追加されたり、画像じゃなく文字で出力するためコピー&ペーストが可能なカレンダーを作成できたりと、文字を使ったさまざまな表現を使うことができます。そのようなUnicodeの「目に見えない文字」はどういった種類があってどのように利用できるのかをまとめた「Invisible Characters」では、目に見えないUnicode文字をコピペして使えたり、テキスト内に含まれる目に見えないUnicode文字を検出したりすることができます。 Unicode characters you can not see https://invisible-characters.com/ 人気のオンラインマルチプレイヤーゲーム「Among Us」では、プレイヤー名を設定する際に空白のままにしたり、空白スペース

                                                  目に見えないUnicode文字をコピペして使えたり元のUnicode文字を検索したりできる「Invisible Characters」
                                                • Windowsのシステムロケール「日本語(日本)」はやっぱり特殊?

                                                  Windowsにまつわる都市伝説 「©」はUnicodeなのにUnicodeではない? [参考]真夏の怪異、ログオン中のユーザーが1人少ない! それは「Shift-JIS」の呪い?(本連載 第189回) WindowsのNTFSファイルシステムは、MS-DOSや16bitアプリケーション向けに、「8.3(8dot3)」形式の短いファイル名を自動生成する互換機能を提供しています。とある、有名なWindowsの専門書籍(英語)には、その生成方法が説明されています。 例えば、スペース(空白)やUnicode文字など、MS-DOSで使えない文字、前後のピリオド、最後のピリオドを除く埋め込まれたピリオドを削除するなどです(この後に3つの手順が続きます)。 書籍に例示されているファイル名で実際にファイルを作成し、「DIR /X」コマンドで8.3形式の短いファイル名を確認してみたところ、3つの例外を除い

                                                    Windowsのシステムロケール「日本語(日本)」はやっぱり特殊?
                                                  • 西野 竜太郎/Ryutaro Nishino on Twitter: "もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk"

                                                    もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk

                                                      西野 竜太郎/Ryutaro Nishino on Twitter: "もうすぐ公開のUnicode 13で、超難字とされるビャンビャン麺の「ビャン」が追加される。 https://t.co/NuP5Tja8dk"
                                                    • Text Rendering Hates You - Faultlore

                                                      Text Rendering Hates You Rendering text, how hard could it be? As it turns out, incredibly hard! To my knowledge, literally no system renders text “perfectly”. It’s all best-effort, although some efforts are more important than others. I’ll be assuming you want to support arbitrary text provided by users with custom fonts, colors, and styles with line-wrapping and support for text-selection. Basic

                                                        Text Rendering Hates You - Faultlore
                                                      • Python 3.8 の概要 (その3) - Pickle protocol 5 with out-of-band data - atsuoishimoto's diary

                                                        Pythonでは、複雑なデータの交換や保管する場合、よく Pickleモジュール が使われます。Pickleはデータを外部に出力可能な形式に変換してファイルに変換したり、サーバと通信して送信したりします。 Pythonのconcurrent.futures や multiprocessing を使って並列処理を行う場合も、プロセス間のデータ交換に Pickle が使われています。 PEP-574 Pickle protocol 5 with out-of-band data Pickleは汎用的なデータフォーマットを定義していて、データを作成したハードウェアと異なるアーキテクチャのハード上で読み込んでも、ただしく元のデータを再現できるようになっています。 しかし、現在ではPickleの使い方は多様化しており、そういった汎用的なデータフォーマットだけでは効率的にデータの転送や保管を行えないこ

                                                          Python 3.8 の概要 (その3) - Pickle protocol 5 with out-of-band data - atsuoishimoto's diary
                                                        • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

                                                          UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String

                                                          • Webフォントを分割して読み込む際にunicode-rangeを指定しなかったらどうなるのか - 私が歌川です

                                                            表題のことについて検証してみましょう。 目次 目次 前提 Webページ上で独自のフォントを読み込むには フォントファイルのサイズ フォントファイルのサイズを抑える工夫 フォントファイルを分割し、必要に応じて読み込む フォントファイルを圧縮する 前提おわり 本題 規格によると 4.5. Character range: the unicode-range descriptor 4.5.1. Using character ranges to define composite fonts 実験する 準備 実験方法 実験結果 まとめ 前提 本題に入る前に、Webフォントを配信する際の前提について説明します。分かっている方は読み飛ばしてもらって大丈夫です。 Webページ上で独自のフォントを読み込むには CSSの font-family 属性に使いたいフォント名を書くことで、Webページ上のコンテン

                                                              Webフォントを分割して読み込む際にunicode-rangeを指定しなかったらどうなるのか - 私が歌川です
                                                            • 文字ときどきRuby - tmtms のメモ

                                                              これはRubyアドベントカレンダーとSmartHRアドベントカレンダーの17日目の記事です。 qiita.com qiita.com 12/9 に nagano.rb で文字について発表して、同じのを 12/15 に SmartHR 社内で LT しました。 スライドはこちら speakerdeck.com 同じ文字? この2つの文字は同じものに見えますか? 実はこれは同じ文字を異なるフォントで表示したものです。 ゴシック体と明朝体で字体が異なって見えるのと同じことなので、同じ文字と言えるでしょう。 コンピュータで扱う文字は文字ごとに番号(コードポイント)が振られていて、プログラムから見たときには同じコードポイントであれば同じ文字として扱われます。 Ruby で文字のコードポイントを得るには String#ord を使用できます。 '直'.ord.to_s(16) #=> "76f4" '

                                                                文字ときどきRuby - tmtms のメモ
                                                              • 4コマ漫画「一発芸」

                                                                二重跳びしまーす!>𓀪 𓀡 <逆立ちしまーす! コスプレだよ>𓁆 𓁌<おまえはなにやんの? 私ははてなの神>𓁲  𓀊<ひえ〜!

                                                                  4コマ漫画「一発芸」
                                                                • Intl.Segmenterはどうやって単語分割しているのか

                                                                  Intl.Segmenter についておさらい JavaScript には Intl と呼ばれる国際化 API があり、日時や数値のフォーマットを始めとする国際化に便利な機能が揃っています。Intl.Segmenter はこの Intl の一機能で、文字・単語・文章単位での文字列分割を可能にします。 文字単位での分割では複数のコードユニットやコードポイントを持った文字を考慮し、正確に見た目上の1文字(書記素)で分割できるので、絵文字を含んだ文字数のカウントなどに便利です。 const segmenter = new Intl.Segmenter("ja", { granularity: "grapheme" }); console.log("🇯🇵👨🏻‍💻".length); // ❌ 11 console.log([..."🇯🇵👨🏻‍💻"].length); // ❌

                                                                    Intl.Segmenterはどうやって単語分割しているのか
                                                                  • 異体字の世界 【サイトウ】 - Qiita

                                                                    ここも考慮すると 斎藤 と書くと 69.3% 正解で、 斉藤 と書くと 30.7% 正解になります。 また子供のころに 斎 が難しかったので 斉 と書いていたケースも考えると、この二つの差は少し縮まりまるかもしれません。 とりあえず確立論的には 斎 と書けば…なんとなく、あたるかも…しれない? (ちゃんと本人に確認とりましょう!!!) 斉 | 法務省 戸籍統一文字情報 詳細表示 の正字 斎 | 法務省 戸籍統一文字情報 詳細表示 の正字 人数情報 「斎藤」「斉藤」「齋藤」「齊藤」・・この差って何? | 東洋経済オンライン 拝啓 斎藤さん 先日エンジニアとしてサイトウさんが入社したときに「サイトウのサイってどう書きますか…? Unicodeで教えてください。」という、いつものあれが発生したのでそろそろサイトウについて理解してみようと思いました。 また以前に 『異体字の世界”ワタナベ”』| 漢

                                                                      異体字の世界 【サイトウ】 - Qiita
                                                                    • Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ

                                                                      いまだに Emacs を使ってるんだけど、最近フォント周りを調べてみたのでメモ。 異体字セレクタ Emacs は異体字セレクタに対応してないとずっと思っていたんだけど、実は単にフォントの問題で、ちゃんと異体字セレクタに対応したフォントを使えば異体字を表示することができた。 普段使ってる Migu 1M フォントだと Emacs 上で異体字はこんな感じに表示される。 異体字セレクタに対応している花園明朝Aフォントを使うとちゃんと表示できる。 でも明朝体ではなくゴシック体を使いたい。IPAexゴシックフォントは一部しか異体字セレクタに対応していない。「禰󠄀豆子」は表示できるけど「令󠄂和」は表示できない。 全体的に Migu 1M フォントを使いつつ、「令」(U+4EE4)は花園明朝A、「禰」(U+79B0)はIPAexゴシックを使うということもできる。 (set-fontset-font

                                                                        Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ
                                                                      • Discordでexeファイルによる乗っ取りが問題になっており「exeファイルを開かない」という人もいるが、拡張子を偽造する手口もあるので注意してほしい

                                                                        オノッチ @onotchi_ 友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこから文字方向を変えることで、本来の拡張子とダミー拡張子を逆転させる。 pic.twitter.com/dw9aXyCmOj 2022-02-15 23:44:31

                                                                          Discordでexeファイルによる乗っ取りが問題になっており「exeファイルを開かない」という人もいるが、拡張子を偽造する手口もあるので注意してほしい
                                                                        • 竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)

                                                                          アニメ公式での竈門禰豆子の表記。禰を表示するのに中国語繁体字の字形を使っている。 どうやら、竈門禰豆子の禰の字について、しめすへんは正式には「ネ」の形という指定が存在しているようで、公式サイトでもわざわざフォントを変えて1、禰のしめすへんを「ネ」に変えています。中国語のフォントでは、しめすへんは常用漢字かどうかに関わらず、いつでも「ネ」の形をしているからですね。2 日本語フォント 禰 中国語フォント 禰 この、フォントを変える手法での字形変更は昔から行われていますが、中国語のフォントを使うわけなので、日本語のフォントのしめすへんとは形が少し違う問題があります。 他の方法としては、異体字セレクタと呼ばれる仕組みを使うと禰󠄁(しめすへんが「示」)と禰󠄀(しめすへんが「ネ」)は区別して出せます。この方法で変えられる字形は、日本語フォントの中で用意されている、他の字になじんだ字形を使うことがで

                                                                            竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)
                                                                          • MySQLに独自charsetを追加する - tmtms のメモ

                                                                            MySQL に独自 charset を追加できる…という話はずっと前に聞いたことあったけど、やったことなかったんでやってみた。 詳しくは MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.13 文字セットの追加 を。 マルチバイト charset は C でプログラムを書いてコンパイルする必要があるけど、1バイト charset はファイルを置くだけで追加できる。 1バイトの charset と言えばみんなご存知の JIS X 0201 ですよね。ということで、jisx0201 という charset を作ってみる。 JIS X 0201 のコードはこんな感じ: x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF 0x NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO

                                                                              MySQLに独自charsetを追加する - tmtms のメモ
                                                                            • Haruhiko Okumura on Twitter: "このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu"

                                                                              このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu

                                                                                Haruhiko Okumura on Twitter: "このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu"
                                                                              • Macで濁点とかが起こす文字化け問題について

                                                                                B! 24 0 0 0 Macの中でGNU screenなどを立ち上げると文字化けすることがありますが、 その辺の問題についてのメモ。 Macでの文字化け問題 問題の確認 Windowsでの文字化け問題 HomebrewでインストールするGNU screenの文字化け対策 Macでの文字化け問題 Macの中でGNU screenを立ち上げたらファイル名の表示などが文字化けしたりすることがあります。 殆どの場合は日本語ファイル名で濁点を使ってる場合で、文字コードの問題です。 ただ、単純にUTF-8かShift_JISか、とかそういったものではなく、濁点や半濁点の扱いの特殊さによります。 MacではFinderでもターミナル上でも基本的にUTF-8で文字を扱いますが、 UTF-8の中でもいくつか文字の取り扱いに対して違うものが存在します。 FinderではNFD(Normalization F

                                                                                • 文字ときどきRuby / Character and Ruby (NSEG)

                                                                                  MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

                                                                                    文字ときどきRuby / Character and Ruby (NSEG)