並び順

ブックマーク数

期間指定

  • から
  • まで

201 - 240 件 / 417件

新着順 人気順

Unicodeの検索結果201 - 240 件 / 417件

  • まったく読めねェ! 「山梨県にしかない漢字」が存在する【漫画版】

    皆さんは「垈」という漢字を見たことがあるでしょうか? 「ない」と答えた方、まあそれが普通だと思います。ご安心を。 「ある」と答えた方、あなたは漢字に相当詳しいか、あるいは山梨県民ではないでしょうか。 実はこの「垈」という字、山梨県にしか存在しない漢字なのです。 マンガをまとめて読む(スワイプで次に進む) 「垈」の秘密 関連記事 「訃報」「愛猫」「手風琴」って読める? 常用漢字表に掲載されている“難読漢字” ニュースなどでよく見る表現も、意外と分からん……。 「稟議=りんぎ」「洗浄=せんじょう」ではない? 現代人には分からない“漢字の本来の読み方” 学校のテストで書いたら、逆に減点されそう。 ディズニーランドを貸し切りにするのが異常に難しい「お金以外」の理由【漫画版】 ぐぬぬ……。 Suicaはなぜ「充電なし」でいつまでも使えるのか?【漫画版】 サイズ的に電池入ってなさそうだけど。 「大人」

      まったく読めねェ! 「山梨県にしかない漢字」が存在する【漫画版】
    • 4コマ漫画「一発芸」

      二重跳びしまーす!>𓀪 𓀡 <逆立ちしまーす! コスプレだよ>𓁆 𓁌<おまえはなにやんの? 私ははてなの神>𓁲  𓀊<ひえ〜!

        4コマ漫画「一発芸」
      • Intl.Segmenterはどうやって単語分割しているのか

        Intl.Segmenter についておさらい JavaScript には Intl と呼ばれる国際化 API があり、日時や数値のフォーマットを始めとする国際化に便利な機能が揃っています。Intl.Segmenter はこの Intl の一機能で、文字・単語・文章単位での文字列分割を可能にします。 文字単位での分割では複数のコードユニットやコードポイントを持った文字を考慮し、正確に見た目上の1文字(書記素)で分割できるので、絵文字を含んだ文字数のカウントなどに便利です。 const segmenter = new Intl.Segmenter("ja", { granularity: "grapheme" }); console.log("🇯🇵👨🏻‍💻".length); // ❌ 11 console.log([..."🇯🇵👨🏻‍💻"].length); // ❌

          Intl.Segmenterはどうやって単語分割しているのか
        • nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita

          java.exe -Djava.security.policy=StreamRelay.policy -jar StreamRelay.jar ⇔ StreamRelay.bat InputStream/OutputStreamにReader/Writerを被せる事で、(文字コードを含む)文字列を扱うことができるので、入力の文字コードと出力の文字コードを異なるオプション指定をすれば、文字コード変換を行う事ができる オプション 使うオプションは、 - -LocalCharset - -RemoteCharset 通信方向ごとに個別に設定したい場合は↓ -LocalRequestCharset -LocalResponseCharset -RemoteRequestCharset -RemoteResponseCharset レスポンスだけ文字コード変換したい。という時に使える 文字コード変換

            nkf の代替としての StreamRelay.jar (文字コード変換) - Qiita
          • 【全角スペース】iOS13で日本語入力時の標準が全角スペースになり エンジニアVSライター戦争勃発 : まとめダネ!

            Appleが全角スペースをデフォにすると言って物議を醸しているが Windowsみたいに 日本語入力オフ時→sp: 半角スペース 日本語入力オン時→sp: 全角スペース / shift+sp: 半角スペース だったら良いのにね 2019.06.28 09:14:45

              【全角スペース】iOS13で日本語入力時の標準が全角スペースになり エンジニアVSライター戦争勃発 : まとめダネ!
            • 異体字の世界 【サイトウ】 - Qiita

              ここも考慮すると 斎藤 と書くと 69.3% 正解で、 斉藤 と書くと 30.7% 正解になります。 また子供のころに 斎 が難しかったので 斉 と書いていたケースも考えると、この二つの差は少し縮まりまるかもしれません。 とりあえず確立論的には 斎 と書けば…なんとなく、あたるかも…しれない? (ちゃんと本人に確認とりましょう!!!) 斉 | 法務省 戸籍統一文字情報 詳細表示 の正字 斎 | 法務省 戸籍統一文字情報 詳細表示 の正字 人数情報 「斎藤」「斉藤」「齋藤」「齊藤」・・この差って何? | 東洋経済オンライン 拝啓 斎藤さん 先日エンジニアとしてサイトウさんが入社したときに「サイトウのサイってどう書きますか…? Unicodeで教えてください。」という、いつものあれが発生したのでそろそろサイトウについて理解してみようと思いました。 また以前に 『異体字の世界”ワタナベ”』| 漢

                異体字の世界 【サイトウ】 - Qiita
              • 日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」

                近年は翻訳アプリの精度が少しずつ向上してきたことで、海外で作られたゲームやアプリが最初から日本語に対応しているケースも増えてきました。しかし、日本語をよく知らない人が翻訳すると、「日本語表記なのに漢字が中国語のもの」という状況もよく発生します。「Your Code Displays Japanese Wrong」はそんな日本語の漢字表記について端的に説明したページで、開発者にこのページへのリンクを共有することで修正依頼をかけやすくなります。 Your code displays Japanese wrong | Your Code Displays Japanese Wrong https://heistak.github.io/your-code-displays-japanese-wrong/ 漢字はそもそも中国で生まれた文字ですが、日本で使われている漢字と中国で使われている漢字は微妙

                  日本語翻訳の「漢字表記の間違い」を海外の開発者にも端的に説明してくれる「Your Code Displays Japanese Wrong」
                • Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ

                  いまだに Emacs を使ってるんだけど、最近フォント周りを調べてみたのでメモ。 異体字セレクタ Emacs は異体字セレクタに対応してないとずっと思っていたんだけど、実は単にフォントの問題で、ちゃんと異体字セレクタに対応したフォントを使えば異体字を表示することができた。 普段使ってる Migu 1M フォントだと Emacs 上で異体字はこんな感じに表示される。 異体字セレクタに対応している花園明朝Aフォントを使うとちゃんと表示できる。 でも明朝体ではなくゴシック体を使いたい。IPAexゴシックフォントは一部しか異体字セレクタに対応していない。「禰󠄀豆子」は表示できるけど「令󠄂和」は表示できない。 全体的に Migu 1M フォントを使いつつ、「令」(U+4EE4)は花園明朝A、「禰」(U+79B0)はIPAexゴシックを使うということもできる。 (set-fontset-font

                    Emacsで異体字とか色付き絵文字とかを表示できるようにしてみた - tmtms のメモ
                  • どうして? 「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする/「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】

                      どうして? 「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする/「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】
                    • Discordでexeファイルによる乗っ取りが問題になっており「exeファイルを開かない」という人もいるが、拡張子を偽造する手口もあるので注意してほしい

                      オノッチ @onotchi_ 友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこから文字方向を変えることで、本来の拡張子とダミー拡張子を逆転させる。 pic.twitter.com/dw9aXyCmOj 2022-02-15 23:44:31

                        Discordでexeファイルによる乗っ取りが問題になっており「exeファイルを開かない」という人もいるが、拡張子を偽造する手口もあるので注意してほしい
                      • 竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)

                        アニメ公式での竈門禰豆子の表記。禰を表示するのに中国語繁体字の字形を使っている。 どうやら、竈門禰豆子の禰の字について、しめすへんは正式には「ネ」の形という指定が存在しているようで、公式サイトでもわざわざフォントを変えて1、禰のしめすへんを「ネ」に変えています。中国語のフォントでは、しめすへんは常用漢字かどうかに関わらず、いつでも「ネ」の形をしているからですね。2 日本語フォント 禰 中国語フォント 禰 この、フォントを変える手法での字形変更は昔から行われていますが、中国語のフォントを使うわけなので、日本語のフォントのしめすへんとは形が少し違う問題があります。 他の方法としては、異体字セレクタと呼ばれる仕組みを使うと禰󠄁(しめすへんが「示」)と禰󠄀(しめすへんが「ネ」)は区別して出せます。この方法で変えられる字形は、日本語フォントの中で用意されている、他の字になじんだ字形を使うことがで

                          竈門禰豆子の禰の字について - Ryusei’s Notes (a.k.a. M59のブログ)
                        • 平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」

                          シャポコ🌵 @shapoco 絵を描く、電気で遊ぶ、通知を無視する。 同じ名前で Misskey\.io と Bluesky にもいます。 お題箱 : https://t.co/TcgjTuG4wh shapoco.net

                            平成30年2月(新元号発表前)に「令和」を言い当てた超人がTwitterに居た!そのからくりはズバリ「Unicode」
                          • MySQLに独自charsetを追加する - tmtms のメモ

                            MySQL に独自 charset を追加できる…という話はずっと前に聞いたことあったけど、やったことなかったんでやってみた。 詳しくは MySQL :: MySQL 8.0 リファレンスマニュアル :: 10.13 文字セットの追加 を。 マルチバイト charset は C でプログラムを書いてコンパイルする必要があるけど、1バイト charset はファイルを置くだけで追加できる。 1バイトの charset と言えばみんなご存知の JIS X 0201 ですよね。ということで、jisx0201 という charset を作ってみる。 JIS X 0201 のコードはこんな感じ: x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF 0x NUL SOH STX ETX EOT ENQ ACK BEL BS HT LF VT FF CR SO

                              MySQLに独自charsetを追加する - tmtms のメモ
                            • Haruhiko Okumura on Twitter: "このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu"

                              このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu

                                Haruhiko Okumura on Twitter: "このツイート、Twitterアカウントへのリンクにならないように、@ の直後にU+FFF0を入れている https://t.co/uHT2FZjWcu"
                              • Macで濁点とかが起こす文字化け問題について

                                B! 24 0 0 0 Macの中でGNU screenなどを立ち上げると文字化けすることがありますが、 その辺の問題についてのメモ。 Macでの文字化け問題 問題の確認 Windowsでの文字化け問題 HomebrewでインストールするGNU screenの文字化け対策 Macでの文字化け問題 Macの中でGNU screenを立ち上げたらファイル名の表示などが文字化けしたりすることがあります。 殆どの場合は日本語ファイル名で濁点を使ってる場合で、文字コードの問題です。 ただ、単純にUTF-8かShift_JISか、とかそういったものではなく、濁点や半濁点の扱いの特殊さによります。 MacではFinderでもターミナル上でも基本的にUTF-8で文字を扱いますが、 UTF-8の中でもいくつか文字の取り扱いに対して違うものが存在します。 FinderではNFD(Normalization F

                                • 文字ときどきRuby / Character and Ruby (NSEG)

                                  MySQL徹底入門 第4版 - ユーザー管理とか文字コードとか / MySQL Book 4 - User and Charset

                                    文字ときどきRuby / Character and Ruby (NSEG)
                                  • JavaScript の正規表現で複数文字からなる絵文字を扱えるようにする提案: Days on the Moon

                                    この記事は JavaScript アドベントカレンダーの 4 日目の分です。 今やあちこちで使われている絵文字ですが、その中には 1 文字に見えるのに複数の文字 (符号位置) から構成されるものがあります。例えば「👨‍👩」という男女が並んだ絵文字は、U+1F468 MAN、U+200D ZERO WIDTH JOINER、U+1F469 WOMAN の 3 つの符号位置からなります。 JavaScript の正規表現でこのような絵文字にマッチさせようとすると正規表現パターンが長大になってしまいます。また、文字クラス [...] 内にこのような絵文字を記述すると、「U+1F468、U+200D、U+1F469 という符号位置の並び」ではなく「U+1F468、U+200D、U+1F469 のいずれかの符号位置」にマッチしてしまいます (/u フラグが有効な場合)。 これを解決するための提案

                                    • オノッチ on Twitter: "友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこか… https://t.co/oGDPTCHM2s"

                                      友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこか… https://t.co/oGDPTCHM2s

                                        オノッチ on Twitter: "友人から渡されたexeファイルによるウイルス感染問題、「流石にexeファイルは開かない」なんて人も騙されるのが、Unicodeの制御文字(RLO)で文字方向を途中から入れ替える手法。 ファイル名の途中にこの制御文字を入れ、そこか… https://t.co/oGDPTCHM2s"
                                      • SJIS-macに変換したはずなのにSJIS-winになる - Qiita

                                        $utf8Str = "❶❷❸❹❺"; $sjisStr = mb_convert_encoding($utf8Str, 'SJIS-mac'); echo(mb_detect_encoding($sjisStr, ['UTF-8','SJIS-mac', 'SJIS-win', 'SJIS'])); // SJIS-win ← SJIS-macに変換したはずなのに、何故かSJIS-winと判定されてしまいます。 そもそもSJIS-macってなんだよって話ですが、単にMacJapaneseのエイリアスです。 従ってMacJapaneseと書いても同じく、正しく誤判定されます。 そしてコメント欄にThis is a bug in PHP's mbstring extension『mbstringエクステンションのバグじゃよ』という人が現れています。 間違ったコードを書いたときに自分のせいでは

                                          SJIS-macに変換したはずなのにSJIS-winになる - Qiita
                                        • AV1 Patent Issue

                                          WebRTC Meetup Tokyo #21 で使用したスライド (改) https://atnd.org/events/105581 更新履歴: ・AV1 の商用リアルタイム 4K ハードウェアエンコーダ IP 事例を追記 ・ロイヤリティーフリーという用語を正しく使うよう修正 ・AoM Patent License の防衛的契約解除の影響範囲に関して修正・大幅追記 ・動画配信サービスの体感品質評価に関するプロジェクト情報を拡充

                                            AV1 Patent Issue
                                          • Zero Width Shortener

                                            ZWS uses zero width characters instead of the typical alphanumeric ones that URL shorteners use. When rendered, these characters appear invisible, but they're still there, which means that ZWS is able to use them to encode information about your URL. Hi, I'm Jonah, the creator of ZWS. I hacked together the first version of ZWS back in 2019, mostly just to see if the concept would actually work. It

                                              Zero Width Shortener
                                            • ショートカットと端末 - SmartHR Tech Blog

                                              SmartHR でプロダクトエンジニアをしている tmtms です。読み方がわからない(自分でもわからない)ので社内では tommy と名乗ってます。 2月に開催された社内LT大会第3回で「ショートカットと端末」というネタで発表したのですが、とても5分に収まる量ではなかったのでここにしたためておきます。 キーバインド macOSのテキスト編集のショートカットとEmacsとbashのキーバインドを比較するとこんな感じです。 control macOS Emacs bash A 行頭に移動 行頭に移動 行頭に移動 B 左に移動 左に移動 左に移動 C - prefix 中断 D 右文字削除 右文字削除 右文字削除/入力終了 E 行末に移動 行末に移動 行末に移動 F 右に移動 右に移動 右に移動 G - 中断 中断 H 左文字削除 ヘルプ 左文字削除 I - タブ タブ J - 改行 改行 K

                                                ショートカットと端末 - SmartHR Tech Blog
                                              • UTF-8のバリデーションとモノイドと半群

                                                この記事はUTF-8のバリデーションとオートマトンの続きです。 前回はUTF-8のバリデーションが8状態のオートマトン (DFA) で表現できることを見ました。状態と遷移を擬似コードで書けば次のようになるでしょう: -- 8つの状態 data State = START | TAILx1 | TAILx2 | TAILx3 | A | B | C | D -- 入力バイトに応じて次の状態を返す。次の状態が該当しなかったら Nothing を返す next :: Word8 -> State -> Maybe State +----+----+-----+----+ | a0 | a1 | ... | aN | 8ビット整数列 +----+----+-----+----+ | | | v v v +----+----+-----+----+ | m0 | m1 | ... | mN | モノ

                                                  UTF-8のバリデーションとモノイドと半群
                                                • How to Speed Up JSON Encoding and Decoding in Golang

                                                  Custom software development Tailored software solutions and software augmentation services to meet unique business needs, drive operational efficiency, and stimulate business expansion Read more Development teams Dedicated development teams and professionals that work exclusively on your project and ensure top-notch tailored solutions Read more IT consulting Expert guidance on leveraging advanced

                                                    How to Speed Up JSON Encoding and Decoding in Golang
                                                  • 日本語で絵文字入力するための IME 追加辞書を公開しました - Qiita

                                                    概要 - Overview この辞書を Google日本語入力・ATOK・Microsoft IME などに導入することで、 GitHub, Slack, Qiita のようにコロン : をトリガーとして IME でも絵文字を入力することができるようになります。 「GitHub, Slack, Qiita 以外のアプリケーションでも GitHub, Slack, Qiita のように絵文字を入力したい」 という要望に応えるための IME 追加辞書です。 ちなみに GitHub や Qiita は英語で絵文字を探す必要がありますが、この辞書を利用することで GitHub や Qiita でも Slack のように日本語で絵文字を入力することができるようになります。 GitHub に MIT License で公開しており、現在は 8264 ペアの絵文字とその読みが収録されています。 👇辞書

                                                      日本語で絵文字入力するための IME 追加辞書を公開しました - Qiita
                                                    • 「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】

                                                        「Twitter」改め「X」のロゴはUnicodeの「U+1D54F」らしい/「黒板文字」や「重ね打ち体」と呼ばれる文字の1つ【やじうまの杜】
                                                      • Unicode変体仮名一覧

                                                        Unicode(ユニコード)に登録されている変体仮名(へんたいがな)286文字(U+1B001〜U+1B11E)を、現代のひらがなごとにまとめ直し、ひらがなごとに字母を確認できるようにしました。 表の左列のリンクから、日本古典籍くずし字データセットに収録された実際の字形を確認できます。ただしすべての字母に対応する字形が収録されているわけではない点にご注意下さい。なお、変体仮名や字母の説明については、くずし字とは?をご覧下さい。くずし字の字形については、くずし字データベース検索(ひらがな(変体仮名)・カタカナ・漢字)やくずし字データセット 文字種(くずし字)一覧をご利用ください。

                                                          Unicode変体仮名一覧
                                                        • Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策

                                                          環境依存文字を含むデータをCSV形式でやりとりするには 人名や地名の中には、環境依存文字(異字体など)が含まれていることがある。環境依存文字を含むExcelのシートをCSV形式でやりとりしなければならない場合、文字コードにUTF-8を指定するとよい。なお画面の住所録は、「テストデータ・ジェネレータ」によって作成した架空のサンプル用のデータを記事用に修正したものである。 「Microsoft Excel(エクセル)」で作成した表を、CSV形式で保存し、別のアプリケーションに読み込ませることはないだろうか。また、取引先にデータを送る際に、XLSX形式ではなく、CSV形式が要求されることもあるだろう。逆にCSV形式で受け取ったデータをExcelで読み込んで処理したいというケースもあり得る。 このような場合、環境依存文字(機種依存文字)が含まれていると、CSV形式に変換する際に、正しく文字が出力さ

                                                            Excel CSV形式ファイルにおける今どきUTF-8文字コード問題の傾向と対策
                                                          • ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた

                                                            「『生成AIを使ってこんなもの作ってみました』開発者LT大会」は、急速に発展しているChatGPTや生成AIといったAI技術を使って何かを作ってみた人たちがアイデアや成果を共有する、ログミーTech主催のイベントです。ここでPR TIMES社の土屋氏が登壇。「ChatGPTを使って文字コードを扱う負担を軽減できるか」という調査の内容と結果について紹介します。 Shun氏の自己紹介と、本セッションのアジェンダ Shun氏(以下、Shun):それでは、PR TIMES社の土屋が発表します。私の名前はShunといいます。PR TIMESに勤めていて、ソフトウェアエンジニアをやっています。 本日のアジェンダです。私の発表はどちらかというと、個人開発でChatGPTを使ったものを作って、それで実験をしてみたという内容になっております。 表題にもあるとおり、ChatGPTに文字コードのことを聞いてどん

                                                              ChatGPTを使って、文字コードの理解と記述の負担を軽減できるのか 「日本語と認識しているUnicodeの範囲」「括弧の検出」「新字体への変換」を調査してみた
                                                            • String meets Encoding

                                                              https://rubykaigi.org/2022/presentations/ima1zumi.html#day3

                                                                String meets Encoding
                                                              • Adobe-Japan1/README-JP.md at master · adobe-type-tools/Adobe-Japan1

                                                                ある文字コレクション中の個々の CID(文字 ID)は、ある(文字形状やグリフによって決めらる)クラスに関連づけられています。あるグリフクラス中の特別なグリフの形状は、対応するタイプフェースの形式やその他の要因に依存して形成されます。この文書では、あらゆる CID のグリフを列挙し、各 CID とそのグリフ形状クラスとの対応関係を例をあげて具体的に示しています。フォント開発者は、文字コレクションに含まれる各 CID に対してそれぞれグリフをデザインすることが望ましく、CIDFont リソースの検査・確認を行う際には本文書を参考としてご利用いただけます。 以下では、Adobe-Japan1-7 文字コレクションの八つの追補のそれぞれの開発の経緯と内容を説明します。 追補 0:Adobe-Japan1-0 この追補(グリフ数 8,284、CID 番号 0~8283)は、OCF(Original

                                                                  Adobe-Japan1/README-JP.md at master · adobe-type-tools/Adobe-Japan1
                                                                • GitHub - unicode-org/last-resort-font: Last Resort Font

                                                                  This repository includes two versions of the Last Resort font: Last Resort and Last Resort High-Efficiency. Although both fonts can be installed at the same time—because they have different names—you are encouraged to download and install only the one that is expected to work in the environments that you use: The file LastResort-Regular.ttf is a font named Last Resort, and its 'cmap' table include

                                                                    GitHub - unicode-org/last-resort-font: Last Resort Font
                                                                  • 検索画面:奈良文化財研究所 史的文字データベース連携検索システム

                                                                    検索文字 検索する ・調べたい文字を入力してください。(単文字のみで指定可能です) By using this site, you are allowing the configuration and use of cookies. For details, please see our Privacy Policy. Agree

                                                                    • It’s not wrong that "🤦🏼‍♂️".length == 7

                                                                      The string that contains one graphical unit consists of 5 Unicode scalar values. First, there’s a base character that means a person face palming. By default, the person would have a cartoonish yellow color. The next character is an emoji skintone modifier the changes the color of the person’s skin (and, in practice, also the color of the person’s hair). By default, the gender of the person is und

                                                                      • SwiftのStringの文字の数え方を完全理解する

                                                                        SwiftはUnicodeの扱いに非常に長けた言語であり、絵文字を含む文字列でも正しい文字数を計算してくれます。 その反面、Unicodeの複雑さに引きずられてしまい、直感的な操作ができない時もあります。たとえば、 string[2] と書いても3番目の文字を取得することはできません。 そんな複雑なところのあるSwiftの文字列処理ですが、複雑なものを受け入れてきちんと理解するのはそこまで難しいものではありません。 このトークでは、Unicodeとの関係を意識しながら、Swiftの文字数の扱い方とその裏にある考え方を解説します。

                                                                          SwiftのStringの文字の数え方を完全理解する
                                                                        • ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ

                                                                          こんにちは、MNTSQでSREとして勤務している中原といいます。 プライベートも含めて、技術記事は久しぶりな気がします。がんばります。 さて、さっそくですが、日本人にとって、あるいは、韓国の方や中国の方も含めて、コンピュータ上でそれぞれの国の言葉を扱おうとしたときに苦労するのが文字コードです。 かつては(あるいは今も)、Shift JIS、EUC-JPなど、OSや環境などによって使われる文字コードが異なり、相互の連携や、同じOSでも設定次第で大いに苦労したものでした(と聞いておりますし、個人でPCを楽しんでいたときには苦しんだりした記憶があります)。 そうこうしているうち、多くのOSで標準的な文字コードとしてUnicodeが採用されるようになりました。Windowsでは内部でUTF-16LEを採用しています。Linuxでは、UTF-8を標準とすることが多くなりました。 Unicodeに統一

                                                                            ファイルシステムとS3でのユニコード正規化の関係を調べてみた2021 - MNTSQ Techブログ
                                                                          • 正規表現を豊かにする ES2024 RegExp v (unicodeSets) フラグ

                                                                            【2023/05/17 変更】 2023年5月の TC39 会議で Stage 4 になったため、タイトルを変更 HTML Standard の pattern 属性に取り込まれたので修正 ES2024 RegExp v (unicodeSets) フラグ ES2024 に RegExp v (unicodeSets) フラグというものがあります。これは既存の u (unicode) フラグを改善して置き換え、機能追加することを目的としています。 詳しい内容については V8 や 2ality による解説記事が詳しいです。ここではその概要をピックアップして述べたいと思います。 複数のコードポイントからなる絵文字の対応(Unicode Properties of Strings) ES2015 に u (unicode) フラグが導入され、コードポイント単位で正規表現を扱えるようになりました。

                                                                              正規表現を豊かにする ES2024 RegExp v (unicodeSets) フラグ
                                                                            • メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見される。

                                                                              メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見されています。詳細は以下から。 9to5Macなどによると、現在Appleが正式にリリースしている最新のiOS 13.4.1やmacOS 10.15.4 Catalinaなどを搭載したiPhoneやiPad、Apple Watch、Macで、メッセージやTwitterアプリなどに表示させるだけで、システムがクラッシュする文字列(いわゆる「強いUnicode」)が発見され、拡散されているそうです。 The string of text, which we aren’t going to share here, includes the Italian flag emoji and characters in

                                                                                メッセージやTwitterなどのアプリで表示されると、iOS 13.4.1やmacOS 10.15.4までのiPhone、Mac、Apple Watchがクラッシュしてしまう文字列が発見される。
                                                                              • 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る

                                                                                The woman who will decide what emoji we get to use 世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る 絵文字(emoji)は、テキストメッセージに微妙なニュアンスを追加する手法としてネットで多用されている。絵文字を標準化するユニコード・コンソーシアムの絵文字小委員会の委員長に就任したジェニファー・ダニエルが、自らの役割や絵文字の未来について語った。 by Tanya Basu2021.05.24 45 18 3 「絵文字(emoji)」は、今では人々の言語の一部となっている。よほど変わった人でない限り、メールやインスタグラムの投稿、ティックトック(TikTok)の動画に、表現力を高めるさまざまな小さな画像をちりばめていることだろう。例えば、予防接種を受けた時の血が少し滴る注射器💉 や、「ありがとう」の意味を込めた祈りの手🙏

                                                                                  世界共通言語になった 「絵文字」の未来、 初の女性委員長が語る
                                                                                • 開発から 45 年、プログラミング言語 AWK に Unicode サポートが追加 | スラド デベロッパー

                                                                                  プログラミング言語 AWK が最初に開発された 1977 年から 45 年後の2022年、Brian Kernighan 氏により Unicode サポートが追加されたそうだ (README.unicode、 The Register の記事、 Ars Technica の記事、 Computerphile 動画)。 Kernighan 氏は AWK (Aho Weinberger Kernighan) の「K」の由来でもあるオリジナル開発者で、80 歳になる。GitHub の「The One True Awk」リポジトリに Unicode サポートがコミットされたのは 6 月 1 日だったが、先週 Kernighan 氏が YouTube の Computerphile に出演するまで注目されずにいたようだ。Kernighan 氏によれば、AWK が Unicode をサポートしていない