並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 160 件 / 395件

新着順 人気順

文字化けの検索結果121 - 160 件 / 395件

  • 僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita

    対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから 文字コードについてもう一度 文字コードは以下の二つで構成されています 符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合 文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法 符号化文字集合 符号化文字集合は、 文字 その文字の位置を示す一意の番号 この二つの組み合わせの集合のことを指します。 例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。 しかしASCIIには日本語などの非英語圏の文字が収録されていません。 そのため、日本語を収録したShift-JISやアジア圏の文字を収録した

      僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita
    • Androidの「絵文字」がOS依存→対応アプリ更新で利用可能に、最新の絵文字もすぐにサポート

        Androidの「絵文字」がOS依存→対応アプリ更新で利用可能に、最新の絵文字もすぐにサポート
      • 文字数のカウントはどれが正解なのか?

        A. ユースケース次第でどう実装すべきかは変わる。Intl.Segmenter が万能というわけでもない。 (クソ最悪な小バズをかましてしまったので、贖罪も兼ねて記事を書きました) 「文字数を数える」のは難しい 「文字数を数える」実装は意外と難しいです。というのも、アルファベットや数字だけなら str.length でも正しく数えられますが、絵文字や異体字などが入った文字列は見た目どおりに数えられません。

          文字数のカウントはどれが正解なのか?
        • UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ

          先日、きりきりやままさんがこのような記事を公開していました UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま それでは実際にそのような文字列変換を行うにはどうすればよいのか、またコメントでiconvについて触れられていたので、この記事ではUnicodeにおけるNFKC正規化をどうやって行うのか試してみることにしました。 追記 GoとPythonとJavaScriptでの例を足しました。またいくつかのscriptにおいてブラウザ上で実行できるURLを添付しました。 (2020-08-17 16:22) “Go” に表記を統一しました。 (2020-08-17 17:00) Ruby 僕にとって文字列処理といえばRubyなので、まずは以下のようなscriptを書いてみました。 puts "\u304c" puts "String#encode('Shift_

            UTF-8 の文字列をできる限り Shift_JIS に変換したい(実践編) | うなすけとあれこれ
          • Windowsでちょっと文字コードを調べたいときの方法 (1/2)

            Windows PowerShellを使えば、文字コードを簡単に調べることができる。パターンさえ覚えれば、プログラミングの知識は不要で、アプリを別途インストールする必要もない コンピュータを使っていると、文字コードを調べなければならないことがある。昔なら文字コードは8bitしかなかったので、ASCIIコード表からすぐだったが、現在は多数の言語の文字を収録したUnicode(ユニコード)が一般的なので、一覧表から調べることは難しい。 文字1つぐらいならインターネット検索でもなんとかなるが、2つ、3つとなると面倒だ。かといって、文字コードを調べるソフトウェアを探してインストールするのもまた面倒。こういうときには、Windowsの標準機能を使うといい。 Windowsには、「文字コード表」というプログラムもあるが、一覧から文字を探して、そのコードを表示することはできるが、文字そのものから直接コー

              Windowsでちょっと文字コードを調べたいときの方法 (1/2)
            • 絵文字の偉大な功績の1つは「文字コードを統一したこと」

              数字を処理するコンピューター上で文字を扱うためには、文字コードと呼ばれるバイト表現が重要となります。かつては国や言語ごとにバラバラの文字コードを使っていましたが、記事作成時点ではUnicodeにほぼ統一されているといえます。そんなUnicodeへの統一には絵文字が大きな役割を果たしたと、ソフトウェア開発企業のIbexaでシニアデベロッパーアドボケイトを務めるJani Tarvainen氏が解説しています。 Emojis paved the way for UTF-8 everywhere https://developers.ibexa.co/blog/emojis-paved-the-way-for-utf-8-everywhere Tarvainen氏の母語であるフィンランド語には、アルファベットに「Ä」などのウムラウトや「Å」などのリングといった記号を伴うことがあります。これらの記号

                絵文字の偉大な功績の1つは「文字コードを統一したこと」
              • CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal

                EC事業部エンジニアのharashoです。この記事はEC事業部ブログリレーの13日目の記事で、12日目は@ku00さんによるカラーミーショップの一機能をAngular Elementsで実装しましたでした。 タイトルがこの記事の結論になりますが、私が遭遇したCSVファイルの読み込み処理で起きた不具合と原因、対応方法について書きます。 CSVファイルの読み込み処理で起きた不具合 不具合の原因 BOMについて 対応方法: BOMを取り除く おわりに CSVファイルの読み込み処理で起きた不具合 私が開発に携わったカラーミーリピートの一括発送アプリには、注文に対する発送リストをCSVファイルから一括登録して、発送処理を行う機能があります。以下はその機能の簡単な流れと、CSVファイルのイメージです。

                  CSVファイルを読み込むときはBOM付きUTF-8に気をつける - Pepabo Tech Portal
                • Perlで\p{Hiragana}とかが記号にマッチする問題 - Qiita

                  みなさん、ワンライナーで日本語を簡単に処理したい場合、何を使うでしょうか。 ワンライナーで言語処理といえばPerlですよね[要出展]。 Perlでは、「ひらがな」「カタカナ」「漢字」といった文字にマッチする正規表現を簡単に書くことができます。 例えば、青春→鯖鰆みたいなやつという記事では、漢字にマッチさせるのに\p{Han}という正規表現を使っていました。 $ perl -Mutf8 -CSD -le 'print "漢" =~ m{\p{Han}} ? 1 : 0' 1 $ perl -Mutf8 -CSD -le 'print 1 if "あ" =~ m{\p{Han}} ? 1 : 0' 0 なんてこった。 "「"は明らかに漢字じゃないだろう? 調べてみると、perlunicodeに以下のような記述がありました。 Prior to Perl v5.26, the single for

                    Perlで\p{Hiragana}とかが記号にマッチする問題 - Qiita
                  • 画数の多い漢字、ビャンビャン麺の「ビャン」 vs 機械印字

                    変なモノ好きで、比較文化にこだわる2人組(1号&2号)旅行ライターユニット。中国の面白可笑しいものばかりを集めて本にした「 中国の変-現代中国路上考現学 」(バジリコ刊)が発売中。 前の記事:インドでおもちゃのロボットを買う > 個人サイト 旅ライターユニット、ライスマウンテンのページ びゃん。 ビャンの字はアート ビャンビャン麺のビャンの字は57画(簡体字でも42画)だ。ビャンビャンで総画数は114画、さらに麺を加えると総画数130画になる。ラーメンをカタカナで書くと4文字なのに総画数は7画なので、18倍もの差になる。ものすごく多い。 当の中国人も驚愕するらしく、沢山のサイトが扱っている。中国人が漢字で驚くとは、インド人もびっくりみがある。 ビャンの字の由来は諸説あるが、だいたい一致しているのが、なんでも西安の近くの咸陽というところに、とある秀才が馬車で向かう際の情景なんだそうで、こんな

                      画数の多い漢字、ビャンビャン麺の「ビャン」 vs 機械印字
                    • 資産運用から広島ラーメンまでを網羅する「とほほのWWW入門」に今度は「Unicode一覧」が追加/「WWW」の意味と可能性を広げまくっている超老舗のなんでも入門サイト【やじうまの杜】

                        資産運用から広島ラーメンまでを網羅する「とほほのWWW入門」に今度は「Unicode一覧」が追加/「WWW」の意味と可能性を広げまくっている超老舗のなんでも入門サイト【やじうまの杜】
                      • PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ

                        Python がテキストファイルを開く時のデフォルトエンコーディングがUTF-8でないことは、多くのWindowsユーザー、特にプログラミング初心者にとって障害になっています。 UnicodeDecodeError で検索すると、多くのWindowsユーザーが問題に遭遇しているのがわかります。 https://qiita.com/Yuu94/items/9ffdfcb2c26d6b33792e https://www.mikan-partners.com/archives/3212 https://teratail.com/questions/268749 https://github.com/neovim/pynvim/issues/443 https://www.coder.work/article/1284080 https://teratail.com/questions/2713

                          PythonのデフォルトエンコーディングをUTF-8にするために - methaneのブログ
                        • 法務省 戸籍統一文字情報 検索条件入力

                           法務省トップ 検索条件入力 文字検索 ←利用の前に必ず「使い方」を御確認下さい。 検索条件を指定して[検索]ボタンを押して下さい。 読み AND検索 入力したキーワードのすべてを含む語を検索します OR検索 入力したキーワードのいずれかを含む語を検索します 画数 画 ( 範囲: 画 ) 部首 部首選択1 (クリア) 部首選択2 (クリア) 部首選択3 (クリア) 子の名に 使える漢字 人名用漢字 常用漢字 JIS水準 文字コードを入力する場合は、その他の検索条件は指定できません。 文字コード 戸籍統一文字番号 UNICODE シフトJIS (C)Copyright Ministry of Justice

                          • 不必要な制御文字への対処 - pixiv inside

                            こんにちは、晴れて2020新卒になったmipsparcです。最近は趣味の鉄道技術系同人誌の新版が出来上がって喜んでいます。 本記事では、入力値には必ずと言っていいほど混入する不必要な制御文字への対処方法をご紹介します。ユーザーに文字列を入力してもらうことのあるすべてのサービスで活用できる話かと思います。 不要な制御文字が入ることで生じる問題 前提として、この記事は制御文字類が必ずしも邪魔と言いたいわけではありません。 制御文字は多言語対応(特に右から左方向に記述する言語)などで重要なときもありますが、今回は問題が発生しうるケースのお話をします。 「‪腐向け」 「メリークリスマス‬」 「ゾンビ」 なんの変哲もない3つのイラストタグですが、どれも不可視の制御文字が混入しています。 $ php -r "var_dump(json_encode('腐向け'));" string(26) ""\u2

                              不必要な制御文字への対処 - pixiv inside
                            • ミャンマー語フォント『Zawgyi-one』の問題に直面した話 - GMO Research & AI Tech Blog

                              システム部のはたです。 GMOリサーチには2年ぐらい前に入社して、主にシステム開発をやっています。 趣味は音楽鑑賞と旅行とキャンプで、焚火を見ながらお酒を飲んでのんびり過ごすのにハマってます。 今回は、ミャンマー語フォントの問題についてお話をしたいと思います。 GMOリサーチでは、国内だけではなく、海外ビジネスの展開にも力を入れており、2019年にはミャンマーへ進出し、リサーチサービスの展開を行ってきました。 そんな中、ミャンマー語のWebアンケートサイトを作ることになったのですが、ある問題に直面しました。それは「ミャンマー語のWebサイトの文字化け問題」です。 ということで、早速どんな事象が発生したのかご紹介していきます。 ◆ ミャンマー進出の背景 まず、ミャンマー進出の背景から簡単にご説明させていただきます。 弊社では生活者の方々の声を企業に届けること、そしてそのデータを企業のマーケテ

                                ミャンマー語フォント『Zawgyi-one』の問題に直面した話 - GMO Research & AI Tech Blog
                              • Windows と Unicode とボク

                                「今まで Shift-JIS しか使えなかった Windows で UTF8 が使えるようになりました!」 素人だけでなく、Windows についてろくに知らないLinuxかぶれのプログラマまでに知ったふうなことを言っています。 別に Unicode の委員会とも縁があるわけではなく、単に UNIX と Windows 、ちょっとずつだけかじっただけの、たまたま独自シェル用に ReadLine を作ってみただけに過ぎない1プログラマのワタクシが世間の Unicode の認識にグチります。 そんな怪文書、はーじまーるよー

                                  Windows と Unicode とボク
                                • みんなの知らない「絵文字」の世界――多くの人が意味を知りたがっている絵文字のランキング、ヤフーが発表

                                    みんなの知らない「絵文字」の世界――多くの人が意味を知りたがっている絵文字のランキング、ヤフーが発表 
                                  • Unicodeの異体字セレクターを使ったステガノグラフィ:秘密の文字列をテキストにこっそり隠し込む方法 - Qiita

                                    Unicodeの異体字セレクター(variation selectors)を使い、ユニコード文字列内に隠し情報を埋め込む方法です。 異体字セレクターとは 異体字セレクターは、文字の字体を詳細に指定するモディファイアのようなもの 異体字セレクターは16種類のコードポイントがある(FE00~FE0F) 仕組みの概要 隠したい文字列(hidden)を文字単位にバラす (例: js → j, s) 文字ごとに16進数に変換する (例: j → 6A) その16進数をひと桁ずつ異体字セレクターのコードポイントにマッピングする (例: 6→FE06, A → FE0A) 異体字セレクターの配列をひとつの文字列にまとめなおす 最後にそれを埋め込み先の文字列(body)に混ぜ込んで隠す。 よくあるユニコードステガノグラフィーとの違い ゼロ幅文字を使ったステガノグラフィー 次のようなゼロ幅空白文字を用いたス

                                      Unicodeの異体字セレクターを使ったステガノグラフィ:秘密の文字列をテキストにこっそり隠し込む方法 - Qiita
                                    • なぜ『プログラマのための文字コード技術入門』の改訂新版にはSKKと Emacsの話が入っていないのか - yanok.net

                                      拙著『[改訂新版] プログラマのための文字コード技術入門』(技術評論社,2018)についての感想で,初版にAppendixとして入っていたSKKとEmacsによるJIS X 0213対応の話が無くなっていることを惜しんでくれているものがありました。 これは初版執筆時に著者(私だ)がEmacsとSKKを使ってEUC-JIS-2004のプレーンテキストとして原稿を書いていたことを紹介し,当時の一般的な日本語入力環境が抱えていた問題点をこれによって解消できることを説明したものです。 当時の日本語入力環境というのは,おおまかにいえばJIS X 0208の第1・第2水準漢字に制約されており,それ以外の文字は入力できないか,できたとしても単漢字変換や文字パレットのような使いにくい方式によるしかないというものでした。そういう状況を改善し,現代日本で使われている文字は第1・第2水準漢字に限らず,分け隔てな

                                      • 私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog

                                        本記事は 【Advent Calendar 2023】 17日目の記事です。 🎄 16日目 ▶▶ 本記事 ▶▶ 18日目 🎅 こんにちは。 2年目の草野です。年末が近づいてきましたね。 今回はAdvent Calendarの執筆に参加ということで、2023年の業務の中で印象深かったUnicodeについて少しお話したいと思います。 そもそもUnicodeとは サロゲートペア文字 突然ですが…… 異体字セレクタとの出会い 異体字セレクタって? 全く同じ意味を持つ文字、異体字 異体字セレクタの誕生 具体例 結局私の名字はどう書くの? おわりに そもそもUnicodeとは みなさんご存じの通り、Unicodeは文字を表すための国際的な標準規格の1つです。 一般的には [U+91CE] のように、16進数で表記されます。 常用文字は [U+0000] ~ [U+FFFF] の16進数4文字=2バ

                                          私の名前ってUnicodeでどう表すの?~異体字セレクタとの出会い~ - NRIネットコムBlog
                                        • 文字コードの世界の第一歩 - KAKEHASHI Tech Blog

                                          こんにちは、株式会社カケハシでおくすり連絡帳 Pocket Musubiの開発を担当している渡辺です。 今回は文字コードについての記事を書きました。 Pocket Musubiではお薬手帳用QRコードを読み込み、デコードした結果を利用します。ここでデコードするときにうまくいかないケースがあり、そこでの知見です。 文字コードについて 蛇足ですが、文字コードについて簡単におさらいします。 文字コードとは、文字をコンピューターで扱うために、文字ごと割り当てた数字のことです。 文字コードの対応表に基づいて、文字を数字に割り当てることを文字エンコードと言います。 文字コードの対応表には、ASCIIやUTF-8のような規格があります。 たとえば、アルファベットを扱うASCII文字だと'a' は97番、'b'は98番と割り当てられています。 ASCII 先ほども出てきた「ASCII」とは、文字コードの標

                                            文字コードの世界の第一歩 - KAKEHASHI Tech Blog
                                          • JavaScriptで絵文字とサロゲートペアと結合文字とgrapheme clusterを正しく扱うのに少し苦労した話 - Qiita

                                            皆さんはUnicodeや絵文字についてどのくらい理解していますか? 私は全く理解できていません。 JavaScriptで絵文字を扱おうとしたら苦労した話を書きます。誰かの参考になれば幸いです。 経緯 MuscularというジョークコマンドをNode.jsで開発していました。 これは、ボディビルダーとともにテキストを叫んだ感じで表示するという単純なアプリケーションでした。 「cowsay」と「echo-sd」と「筋肉」をあわせたようなコマンドです。 $ muscular shout ナイスバルク .-~-. / \ | / ,_-/ ,.*`--., .r ; `` \ .`,` ,: ,.`A`,\ /,`/\`'' '' ? \` \ / / \ ; , ; / ) } _人人_ | / \:':': | | 7 > ナ < | | ) ':' | ,` / > イ < ( \ `-,_

                                              JavaScriptで絵文字とサロゲートペアと結合文字とgrapheme clusterを正しく扱うのに少し苦労した話 - Qiita
                                            • 【Windows】黒魔術で Python が CP932 関係で UnicodeDecodeError を出さないように強制する

                                              Windows 上の Python (Python3) で open() 関数を使ったときに出る UnicodeDecodeError (ex: UnicodeDecodeError: 'cp932' codec can't decode byte 0x** in position **: illegal multibyte sequence) といえば、Python が標準でファイルの文字エンコーディングをかの悪名高い Shift-JIS (CP932) として読み込んでしまうことが原因であることはそれなりに知られているかと思います。 このエラー、自分で書いたコードなら全ての open() 関数の引数に encoding='utf-8' を追加してあげれば回避できますが、使おうとしたライブラリからそのエラーが出る場合はこちら側から制御できないので絶望するしかありません。 この記事 いわく

                                                【Windows】黒魔術で Python が CP932 関係で UnicodeDecodeError を出さないように強制する
                                              • 大学生だった頃に卒論のあまりの辛さに限界を迎えて作った『一発で何かいっぱい書いてたことにできる』キーボードが面白い「その時間があれば…」

                                                もにゃゐずみ|MONYA @Monyaizumi 大学生だった頃、卒論のあまりの辛さに限界を迎えて作った 「一発で何かいっぱい書いてたことにできる」キーボード 片手でいけます pic.twitter.com/3AHRWfSagY 2023-01-08 19:04:45

                                                  大学生だった頃に卒論のあまりの辛さに限界を迎えて作った『一発で何かいっぱい書いてたことにできる』キーボードが面白い「その時間があれば…」
                                                • JavaScriptで平仮名(ひらがな)を判定する - Qiita

                                                  regex = /*ここに何らかの正規表現*/; regex.test("あいうえお"); // -> true regex.test("あぁ"); // -> true regex.test("aiueo"); // -> false regex.test("あいueo"); // -> false regex.test("あい うえお"); // -> false

                                                    JavaScriptで平仮名(ひらがな)を判定する - Qiita
                                                  • Dive into Encoding

                                                    ima1zumi ESM, inc. Ruby on Rails engineer irb, reline, rurema contributor Learning about character codes out of curiosity 2 [1] 1. Japanese Ruby Reference Manual: https://docs.ruby- lang.org/ja/latest/doc/index.html Reason for talking The bug fix in reline Bug Fix※ ※Some terminals will not display correctly. 😢 Because ZWJ(U+200D) is sometimes not supported. 1. https://github.com/ruby/reline/pull/

                                                      Dive into Encoding
                                                    • 松竹梅はsortしても松竹梅になる - Lambdaカクテル

                                                      物事の順位付けをするとき、松竹梅という雅な表現がよく使われる。自分もよく使う。 blog.3qe.us コンピュータにとってもそうなのだろうか?そう考えた私は実際にソートしてみることにした。 % echo $LANG ja_JP.UTF-8 % sort --version sort (GNU coreutils) 9.3 Copyright (C) 2023 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>. This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permit

                                                        松竹梅はsortしても松竹梅になる - Lambdaカクテル
                                                      • Goの標準のutf8.RuneStart関数がエレガントすぎる

                                                        先日以下の記事を書きました。 ここでUTF-8の最初の文字かどうかの判定を以下の自作した関数で実装していました。 const ( t1 = 0b00000000 tx = 0b10000000 t2 = 0b00000110 t3 = 0b00001110 t4 = 0b00011110 ) func isUTF8LeadByte(tmp byte) bool { if tmp&tx == t1 { return true } tmp >>= 3 if tmp == t4 { return true } tmp >>= 1 if tmp == t3 { return true } tmp >>= 1 if tmp == t2 { return true } return false }

                                                          Goの標準のutf8.RuneStart関数がエレガントすぎる
                                                        • 誰でも簡単⁉️👀 絵文字ができるまで😃👍

                                                          こんにちは!サイボウズ株式会社フロントエンドエンジニアの おぐえもん(@oguemon_com) です。 先日開催された社内イベントCybozu Frontend Day 2023にて私が発表した絵文字の仕様策定に関する紹介を、当時の時間的制約から泣く泣く割愛した内容を加えた上で文章の形にまとめました。 また、情報は全て2023年8月1日現在のものです。 はじめに 今や「ぴえん🥺」や「おじさん構文」などの様々な形で老若男女を問わず私たちの生活・文化に深く根ざしている絵文字。ところで、そんな絵文字たちにも生みの親がいることを意識したことがありますか? 例えばこちらの絵文字にも生みの親がいます。 🥱は、Jay Petersさんが2017年9月に提案しました。 Jay Petersさんの職業はニュース編集者。決してデザイン事務所やGAFAなどのエンジニア・デザイナーではありません。 このよう

                                                            誰でも簡単⁉️👀 絵文字ができるまで😃👍
                                                          • Unicodeコンソーシアム提供の“豆腐”対策フォント「Last Resort Font」がv14へ/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる

                                                              Unicodeコンソーシアム提供の“豆腐”対策フォント「Last Resort Font」がv14へ/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる
                                                            • JavaScriptで文字数を数えるのはそんなに簡単ではない - Qiita

                                                              はじめに JavaScriptにて文字数をカウントする方法に関する記事をいくつか目にする機会があり、今回実際に記事を参考に調べてみました。 簡単そうに見えて意外と難しいです。 String.length Googleなどで「JavaScript 文字数 カウント」とかで検索すると真っ先に出る方法です。 MDN公式ではString.lengthに関して以下のように説明されています。 length プロパティは String オブジェクトの文字列長を UTF-16 コードユニットの数で表します。 length は、 string インスタンスの読み取り専用データプロパティです。 UTF-16 コードユニット ざっくりと説明するならUnicodeで割り当てられた番号をUTF-16 という文字コード方式で割り当てられた各文字に対応するIDを指します。 難しい単語がいくつか出てきているので1つずつか

                                                                JavaScriptで文字数を数えるのはそんなに簡単ではない - Qiita
                                                              • 日本語URLを日本語のままコピペできる拡張機能「Copy Unicode URLs」/%表記に変換されて意味不明&やたらと長くなるURLを短縮可能【レビュー】

                                                                  日本語URLを日本語のままコピペできる拡張機能「Copy Unicode URLs」/%表記に変換されて意味不明&やたらと長くなるURLを短縮可能【レビュー】
                                                                • あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿

                                                                  こんにちは!アルダグラムのKANNAの開発お手伝いをさせて頂いているoubakiouです。 本記事は株式会社アルダグラム Advent Calendar 2023 6日目の記事です。 この記事を読めば以下のTypeScript(JavaScript)のテストコードがなぜこけるのかが分かったような気持ちになります。また最後に「細かい理屈はいいからいけてる感じに動くlengthやtruncateがほしい!」という方向けの付録もついています。 it('surrogate pair', () => { // 2 expect('😊'.length).toEqual(1) }) it('variation selectors', () => { // 4 expect('👍🏿'.length).toEqual(1) }) it('combining character', () => { //

                                                                    あなたの知らない(かもしれない)文字コードの世界 TypeScript版😊👍🏿パ👨‍👩‍👦🇦🇿🏴󠁧󠁢󠁥󠁮󠁧󠁿
                                                                  • 目に見えないUnicode文字をコピペして使えたり元のUnicode文字を検索したりできる「Invisible Characters」

                                                                    世界中の文字を収集して文字コードを付与する規格「Unicode」では、バージョンアップごとに次々と絵文字が追加されたり、画像じゃなく文字で出力するためコピー&ペーストが可能なカレンダーを作成できたりと、文字を使ったさまざまな表現を使うことができます。そのようなUnicodeの「目に見えない文字」はどういった種類があってどのように利用できるのかをまとめた「Invisible Characters」では、目に見えないUnicode文字をコピペして使えたり、テキスト内に含まれる目に見えないUnicode文字を検出したりすることができます。 Unicode characters you can not see https://invisible-characters.com/ 人気のオンラインマルチプレイヤーゲーム「Among Us」では、プレイヤー名を設定する際に空白のままにしたり、空白スペース

                                                                      目に見えないUnicode文字をコピペして使えたり元のUnicode文字を検索したりできる「Invisible Characters」
                                                                    • neue cc - UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました

                                                                      UTF8文字列生成を最適化するライブラリ Utf8StringInterpolation を公開しました 2023-10-13 Utf8StringInterpolationという新しいライブラリを公開しました!UTF8文字列の生成と書き込みに特化していて、動作をカスタマイズした文字列補間式によるC#コンパイラの機能を活用した生成と、StringBuilder的な連続的な書き込みの両方をサポートします。 Cysharp/Utf8StringInterpolation 基本的な流れはこんな感じで、Stringを生成するのと同じように、UTF8を生成/書き込みできます。 using Utf8StringInterpolation; // Create UTF8 encoded string directly(without encoding). byte[] utf8 = Utf8String

                                                                      • 文字ときどきRuby - tmtms のメモ

                                                                        これはRubyアドベントカレンダーとSmartHRアドベントカレンダーの17日目の記事です。 qiita.com qiita.com 12/9 に nagano.rb で文字について発表して、同じのを 12/15 に SmartHR 社内で LT しました。 スライドはこちら speakerdeck.com 同じ文字? この2つの文字は同じものに見えますか? 実はこれは同じ文字を異なるフォントで表示したものです。 ゴシック体と明朝体で字体が異なって見えるのと同じことなので、同じ文字と言えるでしょう。 コンピュータで扱う文字は文字ごとに番号(コードポイント)が振られていて、プログラムから見たときには同じコードポイントであれば同じ文字として扱われます。 Ruby で文字のコードポイントを得るには String#ord を使用できます。 '直'.ord.to_s(16) #=> "76f4" '

                                                                          文字ときどきRuby - tmtms のメモ
                                                                        • まったく読めねェ! 「山梨県にしかない漢字」が存在する【漫画版】

                                                                          皆さんは「垈」という漢字を見たことがあるでしょうか? 「ない」と答えた方、まあそれが普通だと思います。ご安心を。 「ある」と答えた方、あなたは漢字に相当詳しいか、あるいは山梨県民ではないでしょうか。 実はこの「垈」という字、山梨県にしか存在しない漢字なのです。 マンガをまとめて読む(スワイプで次に進む) 「垈」の秘密 関連記事 「訃報」「愛猫」「手風琴」って読める? 常用漢字表に掲載されている“難読漢字” ニュースなどでよく見る表現も、意外と分からん……。 「稟議=りんぎ」「洗浄=せんじょう」ではない? 現代人には分からない“漢字の本来の読み方” 学校のテストで書いたら、逆に減点されそう。 ディズニーランドを貸し切りにするのが異常に難しい「お金以外」の理由【漫画版】 ぐぬぬ……。 Suicaはなぜ「充電なし」でいつまでも使えるのか?【漫画版】 サイズ的に電池入ってなさそうだけど。 「大人」

                                                                            まったく読めねェ! 「山梨県にしかない漢字」が存在する【漫画版】
                                                                          • nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita

                                                                            java.exe -Djava.security.policy=StreamRelay.policy -jar StreamRelay.jar ⇔ StreamRelay.bat InputStream/OutputStreamにReader/Writerを被せる事で、(文字コードを含む)文字列を扱うことができるので、入力の文字コードと出力の文字コードを異なるオプション指定をすれば、文字コード変換を行う事ができる オプション 使うオプションは、 - -LocalCharset - -RemoteCharset 通信方向ごとに個別に設定したい場合は↓ -LocalRequestCharset -LocalResponseCharset -RemoteRequestCharset -RemoteResponseCharset レスポンスだけ文字コード変換したい。という時に使える 文字コード変換

                                                                              nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita
                                                                            • 【全角スペース】iOS13で日本語入力時の標準が全角スペースになり エンジニアVSライター戦争勃発 : まとめダネ!

                                                                              Appleが全角スペースをデフォにすると言って物議を醸しているが Windowsみたいに 日本語入力オフ時→sp: 半角スペース 日本語入力オン時→sp: 全角スペース / shift+sp: 半角スペース だったら良いのにね 2019.06.28 09:14:45

                                                                                【全角スペース】iOS13で日本語入力時の標準が全角スペースになり エンジニアVSライター戦争勃発 : まとめダネ!
                                                                              • 日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」

                                                                                近年は翻訳アプリの精度が少しずつ向上してきたことで、海外で作られたゲームやアプリが最初から日本語に対応しているケースも増えてきました。しかし、日本語をよく知らない人が翻訳すると、「日本語表記なのに漢字が中国語のもの」という状況もよく発生します。「Your Code Displays Japanese Wrong」はそんな日本語の漢字表記について端的に説明したページで、開発者にこのページへのリンクを共有することで修正依頼をかけやすくなります。 Your code displays Japanese wrong | Your Code Displays Japanese Wrong https://heistak.github.io/your-code-displays-japanese-wrong/ 漢字はそもそも中国で生まれた文字ですが、日本で使われている漢字と中国で使われている漢字は微妙

                                                                                  日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」
                                                                                • どうして? 「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする/「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】

                                                                                    どうして? 「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする/「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】