並び順

ブックマーク数

期間指定

  • から
  • まで

281 - 320 件 / 1895件

新着順 人気順

Unicodeの検索結果281 - 320 件 / 1895件

  • The Invisible JavaScript Backdoor – Certitude Blog

    A few months ago we saw a post on the r/programminghorror subreddit: A developer describes the struggle of identifying a syntax error resulting from an invisible Unicode character hidden in JavaScript source code. This post inspired an idea: What if a backdoor literally cannot be seen and thus evades detection even from thorough code reviews? Just as we were finishing up this blog post, a team at

    • 波ダッシュ・全角チルダ問題 - とほほのWWW入門

      波ダッシュは「上がって下がる」字形で中国や日本では長音符や「~から」を示す文字として使用されます。 しかし Unicode 7.0 以前では「上がって下がる」ではなく「下がって上がる」字形として定義されていました(字形誤り)。 これは Unicode 8.0 で「下がって上がる」字形から「上がって下がる」に修正されました。 Windows XP 以前では「下がって上がる」表記、Windows Vista 以降では「上がって下がる」表記となります。 上記の理由からか Windows では今でも「~から」を示す文字として波ダッシュではなく全角チルダを用いています。 JIS準拠の Shift_JIS では 0x81 0x60 を U+301C とみなします。 Windows版シフトJISの CP932 では 0x81 0x60 を U+FF5E とみなします。 0x81 0x60 を U+301

      • PlainStyle (プレーンスタイル)

        PlainStyle を友だちに教える 𝕏 Facebook はてブ 説明 文字を学術用の記号に置き換えることによって、擬似的にフォントをつけることができるツールです。 Unicode に対応しているアプリケーションであれば、X 以外にもコピペできます。 テキストの一部を選択してからフォントを選ぶと、その部分だけフォントが変わります。 フォントを指定できるのは英数字のみです。 length は X での消費文字数の目安です。 ご注意 重要な文書には使わないでください。音声読み上げやその他の機械処理で不具合が生じる恐れがあります。 URL やハッシュタグにフォントを付けるとリンクにならないかもしれません。 古い端末や OSバージョンによって正しく表示されない可能性があります。 当サイトは趣味で運営されています。環境によってうまく動かないかもしれませんが勘弁してください。 偽サイトにご注意く

          PlainStyle (プレーンスタイル)
        • UAX31: Unicode Identifier の話

          今日はまた去年の作業が元ネタで、プログラミング言語の識別子に使える文字に関する話です。 レターか数字 「1文字目にはアルファベットか _、2文字目以降にはそれに加えて数字を使えます。」 30年くらい前にはこれが「プログラミング言語の識別子(変数名など)に使える文字列」の定義でした。 _ の部分はプログラミング言語次第ですが、「1文字目にアルファベット、2文字目以降に数字」の部分は結構いろんな言語でそうだったんじゃないかと思います。 まあ、昔のプログラミング言語は ASCII コードで書く物だったので、上記の条件は [a-zA-Z] とか [0-9] みたいな正規表現で書けたんですが。 Unicode の時代になると「アルファベットだけでいいのか」とか「アルファベットって何だ」という話になります。 レター まず、「アルファベット(alphabet)」というと母音と子音が分かれてる文字のことで

            UAX31: Unicode Identifier の話
          • クメール文字が書けない - Helpfeel社のScrapboxを一部公開

            https://twitter.com/shiology/status/844712311885586433 https://gyazo.com/2d3a265a45cde946b3238a76789ce4ac

              クメール文字が書けない - Helpfeel社のScrapboxを一部公開
            • 【💡名案】0~9の代わりにUnicode全文字を使えば「65536進法」になり,なんでも1桁で表現できるから2桁の計算が不要! ・・・ためしに「65021-65018=3」ってどう書くの?

              ルワンダ語たん(キニヤルワンダ語・キニャルワンダ語・キニアルワンダ語の語学たん・学術たん) @rwanda_go_tan <Unicodeで1桁を表す> 65536進法で「65018」を表す文字は「 ﷺ 」※これで1文字 次に,65536進法で「65021」を表す文字は「 ﷽ 」※これで1文字 出典 compart.com/en/unicode/U+F… ・U+FDFA,ﷺ compart.com/en/unicode/U+F… ・U+FDFD,﷽ 2019-08-29 16:13:08 ルワンダ語たん(キニヤルワンダ語・キニャルワンダ語・キニアルワンダ語の語学たん・学術たん) @rwanda_go_tan ちなみに,65536進法で 「3」という数値を表す文字は… Unicode Character 'END OF TEXT' (U+0003) filefor

                【💡名案】0~9の代わりにUnicode全文字を使えば「65536進法」になり,なんでも1桁で表現できるから2桁の計算が不要! ・・・ためしに「65021-65018=3」ってどう書くの?
              • とほほの文字コード入門 - とほほのWWW入門

                「文字コード」とは、文字をコンピューターで表現する際にどのようなバイト表現にするかを定めるもので、下記の概念を持ちます。 符号化文字集合(CCS:Coded Caracter Set)、キャラクタセット とも呼びます。文字に番号を割り振ります。主な文字集合として JIS X 0208 や Unicode があります。これらの規約では、文字に「群・面・区・点」の番号を割り振ります。群は 0~127、面・区・点は 0~255 の数値をとります。すべて使用すると 128×256×256×256=2,147,483,648文字を表すことができますが、JIS X 0208 では1~94区×1~94点のみの 94×94=8,836文字、Unicode では 0~16面×0~255区×0~255点の 17×256×256=1,114,112文字の範囲で文字を定義しています。例えば文字の「あ」は、JIS

                • 半角ひらがなってなんでないの?

                  絶対カタカナよりひらがなのが便利じゃん

                    半角ひらがなってなんでないの?
                  • 絵文字の文字列操作: '👨🏻‍💻'.replace('💻', '🏫') === '👨🏻‍🏫' - Qiita

                    Unicodeの絵文字の文字列操作は興味深い。 前提知識 「👨‍👩‍👧‍👦」という絵文字は、そういう1文字(コードポイント)が存在するわけではない。 「👨‍👩‍👧‍👦」は「👨」「👩」「👧」「👦」という4つの絵文字とZero Width Joiner(U+200D)という文字の組み合わせのデータで表現される: console.log( '👨' + '\u{200D}' + '👩' + '\u{200D}' + '👧' + '\u{200D}' + '👦' ) //=> 👨‍👩‍👧‍👦 上記のとおり、「👨‍👩‍👧‍👦」はデータとしては7文字なのだが、表示上1文字分の幅になっているだけなのである。 ちなみにJavaScriptのfor ... ofは文字列をコードポイントごとにループできるので、「👨‍👩‍👧‍👦」をforで回すと構成文字に分

                      絵文字の文字列操作: '👨🏻‍💻'.replace('💻', '🏫') === '👨🏻‍🏫' - Qiita
                    • Google で絵文字の数を検索するとサーバーエラーになる問題 | スラド IT

                      現在は再現しなくなっているが、Google でプラットフォームごとの絵文字の数を検索するとサーバーエラーになる問題が発生していたそうだ (Bleeping Computer の記事、 Hacker News の記事、 BetaNews の記事、 エラー画面の Archive.today アーカイブ)。 エラーの内容としては、通常は検索結果が表示される部分に「Server Error」として説明が表示されるものだ。説明部分では要求を処理中に内部のサーバーエラーが発生したようだとして謝罪し、エンジニアが通知を受けて解決に向けて作業しているとして、あとでやり直すよう求めている。 エラーが発生する検索語句は英文で「how many emojis on ios|apple|windows|lumia」といったもので、「how may emojis on macos|linux|ipados」では問題

                      • 3年ぶりに無料の老舗アーカイバー「Explzh」がメジャーバージョンアップ ~v9に到達/Unicode 64bit版の自己解凍書庫を作成可能に

                          3年ぶりに無料の老舗アーカイバー「Explzh」がメジャーバージョンアップ ~v9に到達/Unicode 64bit版の自己解凍書庫を作成可能に
                        • MySQL5.7と8.0における文字コード/照合順序の設定方法 - 雑記帳

                          前置き ・パラメータ名がハイフン表記か、アンダースコア表記か常に意識しておく必要有 ・初めてMySQLを起動する前に設定すべき 後でも直せなくはないが、苦行 また、mysql/performance/sysスキーマをalter文で変更するの怖い(一部放置している…) 前提 ・MySQL5.7/8.0におけるmy.cnf(Linux)/パラメータグループ(AmazonRDS)での設定を考慮 ・文字コードはutf8mb4、照合順序はutf8mb4_general_ciに設定 ・データベースのことをスキーマ、MySQLサーバーのプロセス全体をサーバーと記述する 文字コード 1.文字コードとは ・みんな大好き文字コードのため割愛 ・MySQL5.7も8.0もutf8mb4が無難 (cp932で保管しないといけないシステムもあるであろうが…) 2.文字コードに関するパラメータ 2.1.charact

                            MySQL5.7と8.0における文字コード/照合順序の設定方法 - 雑記帳
                          • Shift_JISとWindows-31J(CP932)とJIS漢字水準の関係について

                            はじめに こんにちは!なたでです! 今回は文字コードの話、特に日本語についての話です。皆さん、第1水準、第2水準、拡張文字、Windows-31J(CP932)に入る文字は一体何かとか、自信を持って把握していますでしょうか。今回は、その辺のワードを一度整理して、まとめてみました。 基本用語 文字コード 文字コードには2つの意味がある。文字集合と符号化方式である。 文字集合 JIS X 0208など、文字の集合である。これをどのように記録するかは符号化方式による。 符号化方式 上記で規定した文字集合を符号化する方式の種類である。ISO-2022-JP、EUC-JP、Shift_JISなどがある。 コードセット 文字集合と符号化方式をまとめたもの。 常用漢字 学校で習う基本的な漢字。1923年に文字集合が生まれ、1981年の時点での常用漢字は1945文字である。 後程説明するが、この漢字が19

                              Shift_JISとWindows-31J(CP932)とJIS漢字水準の関係について
                            • シナ「プ」スで困った話~Macの濁点、半濁点問題 - シナプス技術者ブログ

                              田畑2回目です。よろしくお願いします。 先日業務中に困ってしまったMacの濁点、半濁点問題についてお話ししたいと思います。 仕事環境概要 起きたこと 試してみたこと Macの濁点、半濁点問題 シナフスだったら… 仕事環境概要 現在WindowsとMacを二台使っています。 Windows(Windows10)はサイボウズなどの社内との情報のやり取りや、ExcelやWordなどを使う作業などに使っています。 Mac(macOS Mojave)ではVScodeやAdobeXDやIllustratorなどを使ってサイトの運用を行っています。そしてターミナルでgitを使ってファイルのバージョン管理を行っています。 二台体制になったのはここ1年くらい。その前はWindowsのみ使ってました。 起きたこと 社内からPDFファイルの差し替え依頼あり。ファイル名は「シナプス○○申込書.pdf」というような

                                シナ「プ」スで困った話~Macの濁点、半濁点問題 - シナプス技術者ブログ
                              • Unicodeエスケープシーケンス変換|コードをホームページに載せる時に便利 | すぐに使える便利なWEBツール | Tech-Unlimited

                                このツールでできること テキストに含まれるマルチバイト文字を6桁のUnicodeエスケープシーケンスに変換します 通常テキストへの逆変換も可能です

                                • ¥を巡る不都合な真実 - モディファイド・シフトJISという化石|kzn

                                  パソコンの世界で漢字を含む日本語を扱えるようにするために、処理が煩雑になるJISコードをそのまま扱うのではなく、文字コードセットの切り替え処理が不要になるシフトJISというコードが発明されました。 このコードがどのような経緯でMS-DOSなどで採用されたのかは、あまり詳しくわからないのですが、この文字コードは規格ではなくあくまで実装に過ぎなかったので、メーカー独自の判断で構わないと思われていたようです。 MULTI16 - 遂に三菱電機もパソコンを出した この文字コードが身近に使われるようになったのは、MS-DOSが日本語に対応した1983年にリリースされた「日本語MS-DOS Ver2.x」からだと思います。この段階で階層化ディレクトリもサポートされ、CP/Mから継承したコマンドオプションは”/”で始まるというルールが仇となりパスの区切り文字がUNIXなどで使われていた”/”の代わりに”

                                    ¥を巡る不都合な真実 - モディファイド・シフトJISという化石|kzn
                                  • https://unicode.org/emoji/charts-13.0/emoji-released.html

                                    • 「Unicode Emoji 13.0」決定──タピオカドリンクも遅まきながら登場

                                      Unicodeの開発を調整する非営利団体Unicode Consortiumは1月29日、2020年中に各種サービスで利用できるようになる新しい絵文字セット「Emoji 13.0」が確定したと発表した。メーカーなどへのリリースは3月で、iOSやAndroidなどで使えるようになるのは9月か10月になる見込みだ。 新たに62の絵文字が追加された。昨年大流行した「タピオカドリンク」やダイバーシティに配慮した「赤ちゃんにミルクをあげる男性」などもある。

                                        「Unicode Emoji 13.0」決定──タピオカドリンクも遅まきながら登場
                                      • Visual C++ 文字列 まとめ - Qiita

                                        第2.0版 (自作)文字列変換関数を追加 はじめに C# では文字列型は System.String だけです。一方、Visual C++ では、C 言語との互換性、Win16 との互換性、Win32 との互換性、テンプレート等々の関連で文字列とみなされる型はいろいろあります。 文字列は Visual Studio 2003 までは SJIS が標準だったらしいですが、Visual Studio 2005 からは Unicode (ワイド文字列) が標準になったそうで、混乱に輪がかかっています。よって、古いソースを Visual Studio 2017 でビルドすると、エラーがずらりと表示されます。 ここでは、それらについてまとめてみました。 どんな「文字列」があるか? Visual C++ にはどんな「文字列」があるか、ざっくり見てみましょう。もしかしたら、もっとあるかもしれませんが、比

                                          Visual C++ 文字列 まとめ - Qiita
                                        • NFD→NFC変換ツール

                                          (バージョンアップ)NFD→NFC変換ツール ※濁点や半濁点が別(U+3099,U+309A)の合成文字を単体の文字に変換するツール。 詳しくはこちらを参照。【変換したいテキスト】 【変換後のテキスト】

                                          • Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき?

                                            「Windows 10ミニTips」は各回の作成時点で最新のWindows 10環境を使用しています。 UTF-8化は世界的な流れだがトラブルを招く可能性アリ Windows 10の日本語ロケール(日本語文字コード)は慣例的にShift_JISとなっていたが、時代の流れと共にUTF-8化が進んできた。例えばメモ帳で作成したテキストファイルのファイル形式は、すでにANSI(Shift_JIS)からBOMなしUTF-8に変更されている。 バージョン1903では、メモ帳で使用する既定の文字コードがUTF-8になった このUTF-8を、Windows全体に適用するオプション(日本語ロケール)はバージョン1803で加わった。下図に示した手順で日本語ロケールをShift_JISからUTF-8に変更できるが、気になるのはバージョン1803でも“ベータ”だった本機能が、現時点での最新となるバージョン190

                                              Windows 10ミニTips(444) 「ワールドワイド言語サポートでUnicode UTF-8を使用」は有効にすべき?
                                            • MySQLと令和 / MySQL to Reiwa

                                              B2C、B2B プロダクトマネジメントの違い(および思考の罠) / B2C, B2B PM and reduction fallacy

                                                MySQLと令和 / MySQL to Reiwa
                                              • StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita

                                                Original article:https://dev.to/dotnetsafer/rip-copy-and-paste-from-stackoverflow-trojan-source-solution-4p8f その昔コピペできない文章というものがありました。 実際は単にフォントを変えているだけというものですが、人間の目に見える文字と実際の文字が異なることを利用した攻撃の一種と見ることもできます。 さて、最近になって似たような攻撃に関する論文が公開されました。 人間には見えない文字を織り交ぜることによって、一見問題ないコードが実は脆弱になってしまうというものです。 ただ論文は堅苦しいうえに長くて読むのがつらいので、具体的に何がどうなのかよくわかりません。 平易に解説している記事があったので紹介してみます。 以下はDotnetsafer( Twitter / GitHub / Web

                                                  StackOverflowからのコピペをやめろ。今すぐにだ。 - Qiita
                                                • RubyではなぜUCS正規化を採用していないのでしょうか?に対するYukihiro Matsumotoさんの回答 - Quora

                                                  • GitHub - tonton-pixel/unicopedia-plus: Developer-oriented set of Unicode, Unihan & emoji utilities wrapped into one single app, built with Electron.

                                                    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session.

                                                      GitHub - tonton-pixel/unicopedia-plus: Developer-oriented set of Unicode, Unihan & emoji utilities wrapped into one single app, built with Electron.
                                                    • 平衡点(2020-12-18)

                                                      I use cookies to analyze how visitors use my website via Google Analytics: Accept Reject Dismiss _ emacs -nw でこの先生きのこるには。 🍄 (2020/12/20 ひっそりと修正。 mintty, wsltty はファイルに設定を書くのであった)。 はじめに. この文書はEmacs Advent Calendar 2020の12/18(金)分の記事です。 昨日はfiboさんのemacs -nw のコピペ事情でした。 手元では gpaste + xclip で生活してますが、 …ネットワークごしのコピペは面倒そうですね。 さて。 最近Emacs絡みで頑張った事と言えば, ターミナルでもall-the-icons.elしたくて, isfit-plusを作ったぐらいだったので, 特に記事

                                                        平衡点(2020-12-18)
                                                      • HTMLの絵文字 文字コード表 | GRAYCODE HTML&CSS

                                                        HTMLで使用することのできる絵文字の文字コード一覧です。入力方法についても解説します。 この記事のポイント 絵文字は「数値文字参照」で入力する 数値文字参照は「10進数」と「16進数」の2種類の書き方から選ぶことができる 絵文字が記号として表示されてしまうときはCSSでfont-familyプロパティを指定する 絵文字の書き方 HTMLで「😀」「👍」のような絵文字を表示したい場合は、記号・特殊文字と同じように「数値文字参照」を使います。 iOSの絵文字 絵文字の入力で使用する「数値文字参照」はUnicodeで定められた16進数、または10進数の値を以下のフォーマットで指定して表示させます。 数値文字参照 (10進数)の書き方 10進数のフォーマットで絵文字のコードを書くときは「&#」と「;」で囲みます。 文字実体参照(10進数)の入力例 😀 // => 😀 &#12

                                                          HTMLの絵文字 文字コード表 | GRAYCODE HTML&CSS
                                                        • ECMAScript proposal: RegExp flag `/v` makes character classes and character class escapes more powerful

                                                          ECMAScript proposal: RegExp flag /v makes character classes and character class escapes more powerful In this blog post, we look at the ECMAScript proposal “RegExp v flag with set notation + properties of strings” by Markus Scherer and Mathias Bynens. The new flag /v  # The proposed new regular expression flag /v (.unicodeSets) enables three features: Support for multi-code-point graphemes (such a

                                                          • Fadis on Twitter: "ソースコードにUnicode制御文字を挟むことで人間には違う意味に見えるソースを作るトロイのソースが出てから各言語で対応が議論されている。対応が早かったRustは問題となっているコードポイントがコード中に現れるのを禁止したが、Py… https://t.co/h9KJeXHK5b"

                                                            ソースコードにUnicode制御文字を挟むことで人間には違う意味に見えるソースを作るトロイのソースが出てから各言語で対応が議論されている。対応が早かったRustは問題となっているコードポイントがコード中に現れるのを禁止したが、Py… https://t.co/h9KJeXHK5b

                                                              Fadis on Twitter: "ソースコードにUnicode制御文字を挟むことで人間には違う意味に見えるソースを作るトロイのソースが出てから各言語で対応が議論されている。対応が早かったRustは問題となっているコードポイントがコード中に現れるのを禁止したが、Py… https://t.co/h9KJeXHK5b"
                                                            • CP932とMS932の違いを調べて知ったCP932とSJISの違い - ponsuke_tarou’s blog

                                                              「統合したCP932」とMS932は同じようなもんです。 CP932の歴史 「誕生したばかりのCP932」とSJISと同じですが、「統合されたCP932」とSJISには違いがあります。 「統合されたCP932」にはあるけどSJISにはない文字があります。 SJISやCP932で2byte目が「5C」「7E」の文字には問題が起こることがあります。 2byte目が5cと7eの一例 「統合したCP932」とMS932は同じようなもんです。 「統合したCP932」をJavaではMS932といいます。 わざわざ「統合したCP932」としたのには理由があります。 CP932は時代によってものがちょっとずつ違うのです。 CP932の歴史 西暦 CP932 の歴史 ざっくり説明 1982 CP932誕生 マイクロソフトが日本語ようにSJISという文字コードを作りました。このSJISの管理番号はコードページ

                                                                CP932とMS932の違いを調べて知ったCP932とSJISの違い - ponsuke_tarou’s blog
                                                              • Python で zip 展開(日本語ファイル名対応) - Qiita

                                                                zip の中のファイル名 zip ファイルを展開(解凍)すると、書庫内の各データは元のファイル名で展開されます。すなわちファイル名情報も zip ファイル内に格納されています。 zip ファイル内に格納されている各ファイル名のエンコーディングは、現バージョンの zip の仕様だと UTF-8 フラグの有無を指定することができるようですが、 UTF-8 以外のエンコーディングを具体的に指定することができません。 歴史的に、従来より日本語ロケールの Windows で zip ファイルを作成すると(ツールにもよりますが)、ファイル名情報は Shift_JIS (CP932) で書き込まれます。最近の Linux や Mac は UTF-8 がほとんどです。 異なる OS で作成された zip ファイルを展開するときに、 UTF-8 フラグが付いていれば(最近の展開ツールであれば)問題なく展開す

                                                                  Python で zip 展開(日本語ファイル名対応) - Qiita
                                                                • Shapecatcher: Draw the Unicode character you want!

                                                                  You need to find a specific Unicode character? With Shapecatcher.com you can search through a database of characters by simply drawing your character into a box. It can find the most similar character shapes for your drawing.

                                                                  • C# XmlSerializerの使い方 - け日記

                                                                    XMLでリクエスト/レスポンスするAPIへアクセスする機会がありましたので、XmlSerializerの使い方を備忘録にしておきます。 XMLをシリアライズ/デシリアライズする まずはC#オブジェクト(ここではBook)とXML形式の文字列でシリアライズ/デシリアライズさせる方法です。 Bookクラス用のXmlSerializer(System.Xml.Serialization名前空間)を定義して、Serializeメソッドでシリアライズできます。 publicのフィールドまたはプロパティがXML要素になりますが、XmlRootAttribute、XmlElementAttributeで要素名を指定しています これらの属性が無い場合は、フィールド名・プロパティ名がそのまま要素名になります XMLの繰り返し構造を定義することもでき、その場合はXmlArrayAttributeで親要素名、X

                                                                      C# XmlSerializerの使い方 - け日記
                                                                    • GB18030-2022が来た!詳細編—内容から読み取る本質〈エリックの多言語文字散歩〉|ヒラギノフォント公式note

                                                                      前回の概要編では、じっくりとGB18030-2022の表紙を見ながら、中国におけるGBの定義、GB18030規格改定の概要、製品への搭載義務などについて解説しました。今回は、いよいよ表紙をめくって更新された内容について詳しく解説していきます。 漢字はとにかく多いGB18030-2022の規格書の実物を見ると、まずその厚みに圧倒されるでしょう。700ページを超えるページをパラパラとめくってみてわかるのは、本文はわずか8ページ程度で、残りのほとんどは付属書である長い文字コード表ばかりです。 文字コードの国際標準としてISO/IEC 10646があります。そして業界規格のUnicodeとおおむね互換しています。一方でGB18030は中国独自の規格です。GB18030は策定当初から国際標準の存在を意識して設計され、膨大な量のコードポイント(符号位置)と、各文字コードを相互変換するための対応表を用意

                                                                        GB18030-2022が来た!詳細編—内容から読み取る本質〈エリックの多言語文字散歩〉|ヒラギノフォント公式note
                                                                      • Perl のユーザ定義文字特性 - ┗┐<(՞ਊ՞)>┌┛

                                                                        めっちゃ久々に Perl5系 書いたのですが、そのときに今更 Perl にはユーザ定義文字特性というものがあることを知りました。 perlunicode - Perl における Unicode サポート - perldoc.jp ユーザ定義文字特性によって、例えば半角のカタカナだけヒットさせるのを作ろうとなった場合、半角カタカナの範囲をユニコードの表で確認して https://unicode.org/charts/PDF/UFF00.pdf `ヲ`である `FF66` から `゚` の `FF9F` までヒットさせようと試みる場合、以下のような文字特性をかけます package Experopero::Sample; use utf8; use strict; use warnings; ... # 半角カナ文字 `ヲ` ~ `゚` を指定したユーザ定義文字特性 # see: https:

                                                                          Perl のユーザ定義文字特性 - ┗┐<(՞ਊ՞)>┌┛
                                                                        • Windows のコンソール端末と Unicode の相性

                                                                          MacType が効いている MSYS2 の mintty は、雪だるまと令和合字の字送りの幅が半角扱いなことを除けば、概ね合格です。 サロゲートペアを扱えないのは、マルチバイトの文字コードを扱えない、シングルバイト圏のソフトウェアのような話です。 FontLinkレジストリの FontLink で欧文フォント等に和文フォント結び付けていると、意図しない形で FontLink と異なるフォントになることがあります。メモ帳で先ほど同様に試してみると、次のように。 どうやらコードポイントによって、FontLink のフォントでなく、システムの他のフォントで描画されてしまうようです。 ☃ U+2603 が Segoe UI Emoji𠮟 U+20B9F や 𠮷 U+20BB7 が 游明朝しかも、混入した 游明朝 の文字は、なぜか一回り大きな文字サイズです。標準の Segoe UI や Tah

                                                                            Windows のコンソール端末と Unicode の相性
                                                                          • PHPカンファレンスの過去14+3回の登壇を振り返る - Qiita

                                                                            PHP Advent Calendar 2023の18日目の記事です。 PHPカンファレンスに登壇した記録を書きたいと思います。数えてみますと、2009年から昨年(2022年)までのPHPカンファレンス14回と、北海道2回、関西1回の合計17回登壇したことになります。 最初の登壇は14年前ですので、私の考えも当時からは変化していますので、そのあたりも触れながら紹介していきたいと思います。 PHP カンファレンス 2009 最初の登壇は2009年のPHPカンファレンスでした。この年はビジネスデイとテックデイに分かれていまして、ビジネスデイで登壇依頼を頂きましたので、当時温めていた「ウェブサイトを発注する際のセキュリティ」についてお話しました。 スライドの中で「脅威分析やってもあまり意味ない」みたいな物騒な意見が書いてあります。当時はそのように考えていたわけですが、これは当時のサイトがECサイ

                                                                              PHPカンファレンスの過去14+3回の登壇を振り返る - Qiita
                                                                            • 「Unicode 15.0」が公開 ~新しい絵文字20種を含む4,489の新たな文字が追加/「Noto Emoji」や「Last Resort Font」もさっそく対応

                                                                                「Unicode 15.0」が公開 ~新しい絵文字20種を含む4,489の新たな文字が追加/「Noto Emoji」や「Last Resort Font」もさっそく対応
                                                                              • 念のためもう一度トルコ語(等)で起こる問題について整理する - Qiita

                                                                                Qiita Advent Calendar 2020のJava Advent Calendarの12月7日のエントリです。12月9日付けで追記と内容修正あります。 トルコ語問題については、ご存知の方はご存知だと思いますが、聞いたことがない人にはなかなか理解できない問題なので2020年の今、もう一回おさらいしておくのもいいかと思い書いています。(ほかにネタがなかった、とも言う。) トルコ語の何が特殊なのか トルコ語(とアゼルバイジャン語)には、dotted-iとdotless-iの二つのアルファベットがあります。 通常私たちは「i」の大文字が「I」であり、「I」の小文字が「i」であると理解しています。しかし、トルコ語ロケール(とアゼルバイジャン語ロケール)では「I」はドットなしIであるとみなされ、その小文字は「ı」になります。逆に「i」の大文字はドットありの「İ」なのです。 このため、以下の

                                                                                  念のためもう一度トルコ語(等)で起こる問題について整理する - Qiita
                                                                                • Go言語のorderedmapパッケージを改善した - プログラムモグモグ

                                                                                  Go言語で書かれたorderedmapというサードパーティパッケージがあります。 github.com Goのmapには順序がなく、JSONをデコードすると順序が失われ、それをエンコードするとオブジェクトのキーの順序にソートされます。 これに困る人はそこそこいるようで、順序を保持するmapはいくつか実装されてきました。 その中の一つが、orderedmapというパッケージです。 シンプルなインターフェイスが気に入っています。 orderedmapパッケージの利用例 package main import ( "encoding/json" "fmt" "log" "github.com/iancoleman/orderedmap" ) func main() { src := `{ "z": 1, "x": 2, "y": 3 }` fmt.Println("# map[string]in

                                                                                    Go言語のorderedmapパッケージを改善した - プログラムモグモグ