並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 120 件 / 235件

新着順 人気順

Unicodeの検索結果81 - 120 件 / 235件

  • 君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita

    import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。 一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね???? 実は正規表現にマッチします!!!というのが今回の記事の内容になります。 そもそも正規表現における数字の扱いとは 今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。 該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を

      君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita
    • 「絶対アップデートしたくない」…iOS 14.2の「とある仕様」にユーザーが強烈な拒否反応【やじうまWatch】

        「絶対アップデートしたくない」…iOS 14.2の「とある仕様」にユーザーが強烈な拒否反応【やじうまWatch】
      • プロと読み解くRuby 2.7 NEWS - クックパッド開発者ブログ

        技術部の笹田(ko1)と遠藤(mame)です。クックパッドで Ruby (MRI: Matz Ruby Implementation、いわゆる ruby コマンド) の開発をしています。お金をもらって Ruby を開発しているのでプロの Ruby コミッタです。 去年の記事「プロと読み解く Ruby 2.6 NEWS ファイル」に続き、今年も本日 12/25 リリース予定の Ruby 2.7 の NEWS ファイルの解説をしてみようと思います。NEWS ファイルとは何か、というのは去年の記事を見て下さい。 実は最近、NEWS ファイルを読みやすくしよう、と例を入れたりしていて、以前のものに比べて読みやすくはなっています(英語だけど)。記事中のコードも、NEWS ファイルから引用しているものがあります。本記事では、変更の解説に加え、執筆者らが開発に携わっているということを活かして、「なぜ変更

          プロと読み解くRuby 2.7 NEWS - クックパッド開発者ブログ
        • 「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字

          HTMLファイルで特殊記号を使う際、① は ①、© は © のように置き換えて書かないといけないものだと思いこんでいないでしょうか。 現代ではそれは誤解です。 UTF-8では特殊記号の文字参照は不要 そもそも環境依存文字とは、データを扱う機種・ソフトウェアなどの違い(文字コードの割り当ての違い)により表示に違いが出てしまう文字のことでした。 例えばShift_JISには © が含まれておらずそもそも保存できなかったり、 ① などの丸数字は含まれているものの、WindowsとMac OS(当時)の割り当ての違いにより正しく表示できなかったりしました。[1] しかし現在ではUnicodeによって文字コードは統一化されており、その問題はほとんど起きなくなっています。 近年では多くの場合 UTF-8 でファイルを記述すると思います。 HTMLファイルの文字エンコーディングが

            「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字
          • JavaScript: 文字数を正確にカウントするには? - Qiita

            この投稿ではJavaScriptで文字数をできるだけ正確にカウントする方法について取り上げます。 文字数とは? 要件で「文字数を表示してほしい」「○文字以上はバリデーションエラーにしたい」と文字数を考慮しないとならないことがあります。 そもそも文字数とは何でしょうか。 たとえば、アルファベットの「A」は1文字と数えられそうです。 次の絵文字は、何文字になるでしょうか? この絵文字はiOSであれば14.5の環境では、UI上では上のように1文字のように表示されます。しかし、それ以前のバージョンでは、同じ文字列データでも😵💫のように2文字で表示されます。なお、この絵文字は3つのコードポイントU+1F635 U+200D U+1F4ABからなります。この絵文字の「文字数」はいったい何文字として扱ったらよいのでしょうか。 以上のように、ひとことで文字数と言ってもデータと見た目と環境の3つのややこ

              JavaScript: 文字数を正確にカウントするには? - Qiita
            • Markdown(マークダウン)をVSCodeの拡張機能とスニペットで効率良く書く - Qiita

              Markdownをはやく効率よく書くために 前提として、マークダウンを編集するエディタはVSCodeを使います。 Markdownファイルを使って記事を管理している場合、マークダウンを効率良く書けるかどうかは生産性に直結します。 VSCodeの拡張機能と基本設定(スニペット)を使ってマークダウンを速やかに編集する方法について書いていきます。 よく使う機能にフォーカスしてその操作をイメージできる一般的なショートカットキーを使う(覚える)のがポイントです。 拡張機能があるならそれを使う Markdown All in One ショートカットや便利なコマンドが有効になる拡張機能です。たくさんの機能がありますが、利用頻度が高いものだけ使います。 太字にするショートカット テキストを選択した状態で、Macなら ⌘ + B 、Windowsなら Ctrl + B で太字になります。多くのエディタで採用

                Markdown(マークダウン)をVSCodeの拡張機能とスニペットで効率良く書く - Qiita
              • 中国人を悩ませるレアな名字の文字コード問題

                印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。 中国の面積は日本の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

                  中国人を悩ませるレアな名字の文字コード問題
                • JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。

                  はじめに 明けましておめでとうございます。 (一週間遅れ) この記事はJavaScriptの組み込みAPI Intl の紹介と解説です。 Intl とは? MDN から引用すると Intl オブジェクトは、 ECMAScript の国際化 API の名前空間で、言語に依存した文字列の比較、数値の書式化と、日付の書式化を提供します。 Intl オブジェクトは、いくつかのコンストラクターに加え、国際化コンストラクターや他の言語に関する関数に共通する機能へのアクセスを提供します 用はi18nの書式版です。 例を出すより見たほうが早いので実際に機能解説します。 (先に言っておきますが、実はこれバックエンド無しで自然言語処理が出来る優れものです。) 用語解説 localesって何?そもそもnewって何?って人がいるかもしれないので locales https://developer.mozilla.

                    JavaScriptの組み込みAPIのIntlが凄いので紹介してみた。
                  • Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*

                    Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackで&#xE000;タイトルをハイライト&#xE001;する" /> <meta property="og:description" content="Slackで&#xE000;説明&#xE001;も&#xE000;好きな部分をハイライト&#xE001;する" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。 ちなみに printf "\ue000寿司\ue001が光ったら成功"

                      Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*
                    • JavaScript における文字コードの初歩 - 30歳からのプログラミング

                      この記事では、 JavaScript で文字コードを扱う際に知っておくべき概念である Code Point や Code Unit、サロゲートペア、といったものについて説明していく。 また、具体的にそれらの概念を使ってどのようにコードを書いていくのかについても扱う。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 Code Point (符号位置) プログラムで文字を表現する方法は複数あるが、 JavaScript では Unicode という方法を採用している。 Unicode ではあらゆる文字に対して一意の値を割り振ることを目的としており、この値のことを Code Point (符号位置)という。 Code Point は 16 進数の非負整数で、文章中で表記するときは接頭辞としてU+をつける。 例えばAという文字の

                        JavaScript における文字コードの初歩 - 30歳からのプログラミング
                      • 35年ぶりの第2版「プログラミング言語AWK 第2版」、オライリーから5月発売

                        awkは、UNIX登場初期からgrepやsedなどと並んで代表的なコマンドラインツールとして使われてきました。その名称が、作者であるAho氏、Weinberger氏、Kernighan氏の三者の名前からとったものであるというエピソードも非常に有名です。 そしてこの三人の作者が執筆した書籍「The AWK Programming Language」(邦題:プログラミング言語AWK)は、awkのバイブルと言ってよい書籍でしょう。 日本で1989年に第1版が発行されたこの「プログラミング言語AWK」が、35年ぶりに第2版に改訂され、今年(2024年)5月16日にオライリー・ジャパンから発売されることが分かりました(Amazon、楽天ブックス)。 著者は第1版と変わらず、Alfred V. Aho氏、Brian W. Kernighan氏、Peter J. Weinberger氏です。 下記はAm

                          35年ぶりの第2版「プログラミング言語AWK 第2版」、オライリーから5月発売
                        • MySQLのutf8mb4と戦った話 - Uzabase for Engineers

                          皆様こんにちは、NewsPicksエンジニアの米澤です。 先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。 今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。 ことの始まり やったこと 方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する 影響範囲を調べる 開発環境でリハーサルを行う メンテナンスの日 最後に ことの始まり NewsPicksではバグの検知にBugSnagを利用しています。 ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti

                            MySQLのutf8mb4と戦った話 - Uzabase for Engineers
                          • ロリコンオタクのせいで日本人がネットから排除されていた

                            はてな村村長の語りに便乗して昔話しちゃおうかな 結構多くのWEBサーバのアクセス制限で.co.jp .ne.jp .jpがdeny設定されていたって話である。 https://b.hatena.ne.jp/entry/s/twitter.com/kanose/status/1601270223386324992 2005年までの個人サイト&自宅サーバブーム個人のネット利用で大きな転換点は2005年くらいで、例えばブログのはしりのはてなダイアリーサービス開始は2003年でアルファブロガー選考開始は2004年、youtubeサービスインが2005年だが、これらの特徴は「アカウントをとって企業のWEBサービスを利用する」という、今では当たり前の方法だ。 だがこの以前にはそういう方式のものは少なく、ISPや借りたレンタルサーバに自分でコンテンツをアップロードして構築するというのが主流だった。 これ

                              ロリコンオタクのせいで日本人がネットから排除されていた
                            • TypeScriptにヤバい機能が入りそうなのでひとしきり遊んでみる|TechRacho by BPS株式会社

                              こんにちは。yoshiです。 先日(9月1日)にオープンされた TypeScript のプルリクエストがヤバいわよ!という話をします。 ※※※注意ここから※※※ 一応先に言っておきますと、これからする話はまだ PR 段階なのでそのまま取り込まれるかどうか分からないし、どのバージョンでリリースされるかも分かりません。ここで書いていることはリリース時には仕様が変わっている可能性は大いにあり、リリース後に検索等でこの記事にたどり着いた方は、もっと良い解説がどこかにあると思うのでそちらを参照することをおすすめします。 ※※※注意ここまで※※※ 該当の PR はこれです。 Template string types and mapped type 'as' clauses by ahejlsberg · Pull Request #40336 · microsoft/TypeScript この PR

                                TypeScriptにヤバい機能が入りそうなのでひとしきり遊んでみる|TechRacho by BPS株式会社
                              • 米Gizmodoの元記者、退職時にSlack上の名前を「Slackbot」に変えて数か月間なりすましていたことを告白 | テクノエッジ TechnoEdge

                                ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 ビジネス向けIT技術情報サイトIT Brewのシニアレポーター、トム・マッケイ氏は、所属していた米Gizmodoを2022年に退職した際、Slackアカウントの名前を「Slackbot」に書き換え、その後数か月間、偽SlackbotとしてこっそりアクセスしていたことをX(Twitter)で明かしました。 マッケイ氏は、このことについてGizmodoの親会社であるG/O Mediaが「何か月も発見も削除もできなかった」と述べています。 Slackbotとは、Slackユーザーの特定の投稿に対して自動的にレスポンスを返したり、リマインダーを知らせたりする機能を持つBotのこと。 条件や応答内容を設定してカスタマイ

                                  米Gizmodoの元記者、退職時にSlack上の名前を「Slackbot」に変えて数か月間なりすましていたことを告白 | テクノエッジ TechnoEdge
                                • 誰でも簡単⁉️👀 絵文字ができるまで😃👍

                                  現在の私たちが何気なく使っている絵文字たち(😀🥺💦💕🏠💻🌊😈🐱💢…)って、実は誰でも提案📝📮することができて、「この絵文字はワシが作った👴」と言えるチャンス💪があることをご存知ですか❓🤔 このスライド📄では、普段あまり知ることのないUnicode Emoji😀(絵文字の代表格)の仕様策定の流れ💨や、Emojiを提案する方法🙆‍♀️を簡単にご紹介👩‍🏫します! ✅ Zennに本スライド以外の内容(📊通過率・🗑️Emoijのボツ案など)を含めて載せてます↓ https://zenn.dev/cybozu_frontend/articles/how_to_propose_a_new_emoji ※本資料は、2023年6月30日にサイボウズで開催された社内イベント「フロントエンドデー」における登壇資料に一部編集を加えたものです。 ※ここに掲載の内容は2

                                    誰でも簡単⁉️👀 絵文字ができるまで😃👍
                                  • NestJSをゼロから学ぶ - TypeORMの活用などをREST APIの実装から身に付けよう【Node.jsフレームワークの基本】|ハイクラス転職・求人情報サイト AMBI(アンビ)

                                    このようにさまざまなデコレータが用意されていますが、今回はサンプルで利用するデコレータに絞って説明します。他のデコレータについては、NestJSの公式ドキュメントなどを参照してください。 依存性注入(DI) 依存性注入(DI、Dependency Injection)とは、クラスの依存関係を解決する仕組みです。NestJSでは、依存性注入を使ってクラスの依存関係を解決します。 クラスの依存関係とは、クラスが他のクラスに依存している関係のことです。例えば、次のようなクラスAがあったとします。このクラスは他のクラスに依存していません。@Injectable()デコレータを使って、サービスを定義します。 @Injectable() class A { constructor() {} } そして、次のようなクラスBがあったとします。このクラスは、@Inject()デコレータを使って依存性を注入し

                                      NestJSをゼロから学ぶ - TypeORMの活用などをREST APIの実装から身に付けよう【Node.jsフレームワークの基本】|ハイクラス転職・求人情報サイト AMBI(アンビ)
                                    • Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始

                                      米Googleは2月12日(現地時間)、Android向けキーボードアプリ「Gboard」の新機能「Emoji Kitchen」を発表した。2つの絵文字をミックスしてカスタマイズした絵文字を使える。同日からすべてのGboardユーザー向けにロールアウトしていく。 Gboardをメインのキーボードに設定し、Gmail、Googleのメッセージ、メッセンジャー、Snapchat、Telegram、WhatsAppなどのアプリでの入力で絵文字を選ぶと使える(本稿執筆現在、筆者のGboardではまだできない)。 自分で新しい絵文字を作れるわけではないようだ。公式ブログには、「絵文字をタップすると、Googleのデザイナーが特別に手作りしたステッカーが(候補として)多数表示される」とある。 関連記事 「Unicode Emoji 13.0」決定──タピオカドリンクも遅まきながら登場 Unicode

                                        Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
                                      • gihyo.jp編集部におけるMarkdown記法 | gihyo.jp

                                        本稿では、gihyo.jp編集部で利用しているMarkdownファイルの記述方法を主に解説します。 注意:gihyo.jp編集部内でのみ採用しているMarkdownの書き方をまとめた文書を、記事の体裁を取って公開したものです。なお、記事公開後に記述方法を追加・変更する可能性もあります。 Markdownとは? はじめに、筆者の把握している範囲でMarkdownについて概説しておきます。 近年は一般向けのウェブサービスやテキストエディタでも利用されてきているMarkdown。端的に言えば、テキストファイル上で文書を書くための構文です。文書の読みやすさに焦点を当てており、Markdown形式のテキストファイル(=Markdownファイル)をそのまま見れば文書とその構造が理解できるように、Markdown特有の編集記号や字下げを用いて表現します。また、MarkdownファイルをHTMLファイルに

                                          gihyo.jp編集部におけるMarkdown記法 | gihyo.jp
                                        • awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita

                                          はじめに 2023年、長い時を経て awk がとうとう Unicode (UTF-8) と CSV に対応しました 🎉🎉🎉 awk で日本語がうまく扱えない(場合がある)、Excel が出力する CSV ファイルが扱えない(場合がある)、といった問題が解決に向けて一歩に進みます。 去年、本家 awk (One True Awk, nawk) に Unicode サポートが Brian Kernighan の手によって追加されたと話題になった(参照)ことを覚えているでしょうか? Brian Kernighan が誰だか知らない方がいるかもしれないので説明すると、オリジナルの awk の開発者の一人で awk の頭文字、Alfred Aho、Peter Weinberger、Brian Kernighan の一人です。通称「K&R」の「プログラミング言語C」や「プログラミング言語AWK」

                                            awkが新しくなる!? 本家AwkがUnicode (UTF-8)とCSV対応に! - Qiita
                                          • C# Win32API完全入門 - Qiita

                                            はじめに 対象とする読者について 本記事の対象者としては以下のような人を想定しています。 C#でこれからWin32APIを使ってみたい。 C言語のことがあまりよく分かっていない。 今までは適当に使っていたので一度きちんと理解したい。 自分が同じような状況であったため、一から調べて整理してみました。自分が理解した順番や内容で記載することで、また、具体的な使用例によってできることの広さや動作を感じ取ってもらうことで、理解の助けになればと思っています。 但し、分かっている人からすると冗長な説明になっている部分や好ましくない内容、正確性に欠ける内容などもあると思います。実際に使用する場合はその点にご留意願います。 Win32APIについて Windows API - Wikipedia Microsoft Windowsのシステムコール用APIのこと。特に32ビットプロセッサで動作するWindow

                                              C# Win32API完全入門 - Qiita
                                            • 海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に

                                              日本で誕生し、現在では世界中の人たちが、 文字通り日常的に活用している「絵文字」。 海外でもそのまま「EMOJI」で通じる世界語となっており、 日本独自の絵文字がそのまま海外でも使用されていますが、 日本の文化に根差している絵文字は、 外国人には通じないこともしばしばあるようです。 今回ご紹介する写真は、日本人の方がドイツで撮影したもので、 フランクフルト国際空港のロゴが写っています。 そのロゴが漫画やアニメで多用される「怒りマーク💢」に見える事から、 投稿者のTatsunoshin(@tatsunoshin_ofc)さんは、 「フランクフルト空港常にキレてるんやけど何?💢」と、 率直な疑問をぶつけておられます。 海外の多くの人々にとって「💢」に「怒り」のイメージはなく、 むしろ漠然と見ていた謎のマークである事から、 この疑問が外国人には非常に面白く、興味深かったようで、 多くのサイ

                                                海外「日本には昔から存在するが…」 日本人だけが理解できる謎の世界的マークが話題に
                                              • UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside

                                                こんにちは。 メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。 本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。 前提知識 文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストする べた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受ける おまけ: ユーザのブラウザにShift_JISでPOSTさせる

                                                  UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
                                                • ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ

                                                  今回は「異体字」についてお話しします。すこし専門的な部分もあるので、適宜不要な部分は読み飛ばすことをお勧めします。 こんな問題から始めてみましょう。世田谷区の区章とその説明文は以下のように書かれています。 外輪の円は区内の平和、中心は「世」の文字が三方に広がり、人びとの協力と区の発展を意味しています。(世田谷区の紋章、シンボル | 世田谷区ホームページより) 「中心は『世』の文字」とありますが、そうは見えません。なぜこのような形なのでしょうか。 前回の記事 本記事は連載形式で、前回の補足のような内容になっています。前回の記事もご参照ください。 shokaki.hatenablog.jp クリックで目次の表示/非表示 前回の記事 異体字とは 異体字の認識 異体字の使われ方 どこまでが同じ漢字か 誤字か異体字か 異体字はどうできるのか よく使う字は略字化する 画数の多い字は正確でなくても読める

                                                    ゼロから始める異体字の世界【レトロデザインのための近代日本語講座〈2〉】 - マチポンブログ
                                                  • 『なぜインライン要素・ブロック要素概念は依然として有用なのか:現代的なWeb制作への適用』という記事について

                                                    なぜインライン要素・ブロック要素概念は依然として有用なのか:現代的なWeb制作への適用 https://zenn.dev/coedo/articles/html-css-inline-element-block-level-element この記事では、『なぜインライン要素・ブロック要素概念は依然として有用なのか』という記事(以下「元記事」といいます)の説明について見ていきます。 この記事の対象者 この記事は、ウェブ制作を学んでいる人や、「インライン要素」「ブロック要素」という用語の扱いに困っている人を想定しています。 はじめに: 結論 この記事の結論は次の2つです。 今日のHTMLから「インライン要素」「ブロックレベル要素」という表記はなくなった。 ある要素にどのような要素を入れるのかは、「インライン要素」「ブロック要素」という考え方を使わなくてもできる。 詳しく説明したいと思います。

                                                      『なぜインライン要素・ブロック要素概念は依然として有用なのか:現代的なWeb制作への適用』という記事について
                                                    • PDF に謎の漢字が含まれるとき

                                                      gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた? この文字は 康煕部首 (Kangxi Radicals) というもので、部首としての文字である MS ゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすい どこから来たのか? これらは(フォントに

                                                        PDF に謎の漢字が含まれるとき
                                                      • A Field Guide to Japanese Mojibake

                                                        When you open a document with an encoding different than the one it was created with, it's not possible to display the original text, and instead a garbled mess of corrupted characters are printed out. These are called "mojibake" in Japanese, and the word has also been borrowed into English. While mojibake aren't readable by humans, it turns out that different kinds of mojibake have different visu

                                                          A Field Guide to Japanese Mojibake
                                                        • マルチバイト文字とURL | 技術者ブログ | 三井物産セキュアディレクション株式会社

                                                          MBSDでWebアプリケーションスキャナの開発をしている寺田です。 前記事では正規表現でのURLのチェックについて書きました。今回はその続きでマルチバイト文字を使った攻撃について書きたいと思います。 前提条件 本記事で想定するのは、ブラウザからパラメータとして渡されて来るURLを、リダイレクトやリンク等のURLとして使うケースです。その中でも、以下のようにサブドメイン部分(★の部分)を可変にする状況を主に想定します。 https://★.example.jp/… 攻撃の目標は、異なるドメイン(evil)のURLを与えてチェックをすり抜けることです。前回の記事にも書きましたが、この状況は(半角英数等のサブドメインしか受け入れないような場合を除き)「/」「?」「#」「\」のいずれかをサブドメインに入れることで攻略できることが大半です。 今回はこれらの記号が全て使用できないように対策されているこ

                                                            マルチバイト文字とURL | 技術者ブログ | 三井物産セキュアディレクション株式会社
                                                          • Google DomainsからCloudflare registrarにドメインとメールを移管した

                                                            Google DomainsがSquarespaceに買収されるので、持っているドメインとカスタムドメインのメールアドレスをCloudflare Registrarに移管した。 Cloudflare Registrar · Cloudflare Registrar docs 基本的にはCloudflare Registrarに表示される手順でやっておけば、問題は起きなかったので、よくできてると思った。 次のような手順で順番に移管していたので、移管時のメモ。 手順 Google Domainsの移行準備 Cloudflareのname serverを使うように移行する ドメインの移管 メールの転送設定 Google Domainsの移行準備 移管する前に、Google Domainに登録しているドメインの設定を変更しておく。 それぞれONになってると移管時に問題が発生する。 DNSSECを無

                                                              Google DomainsからCloudflare registrarにドメインとメールを移管した
                                                            • PHPからJavaScriptにデータを受け渡すときに考えること - Qiita

                                                              PHPのstringは任意のバイト列を扱えますが、JavaScript/JSONはUnicodeで扱える文字しか扱えません PHPのint / floatはプラットフォーム依存ですが、JavaScriptのnumberは整数と小数を型レベルで区別しません JSONのarrayに対応する型はPHPのarrayのうちリストであるものです PHPは配列(リスト)と連想配列を型レベルで区別せず、どちらもarrayです リストはキーが0からの抜けがない連番になっている要素が0個以上の配列です array_is_list()関数で連想配列とリストを判別できます array_values()で連想配列をリストに変換できます array_filter()の結果はフィルタされたキーがスキップされるのでリストではありませんが、結果をarray_values()に通すことでリストにできます JsonSerial

                                                                PHPからJavaScriptにデータを受け渡すときに考えること - Qiita
                                                              • 🚭ด้้้้็็็็็้้้้้็็็็็้้้้้้้้🔞龴⟿ﬨ֞ꆸ௵冫ם෴. ﷼ ℳ✧ ۞ on Twitter: "見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。 女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9"

                                                                見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。 女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9

                                                                  🚭ด้้้้็็็็็้้้้้็็็็็้้้้้้้้🔞龴⟿ﬨ֞ꆸ௵冫ם෴. ﷼ ℳ✧ ۞ on Twitter: "見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。 女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9"
                                                                • 漢和辞典が「絶滅」してしまう? 窮状伝えた投稿拡散、心配広がる...その現状を出版社に聞いた

                                                                  漢和辞典は将来的に「絶滅」してしまうのか――。2022年8月上旬、こんな心配の声がインターネット上に飛び交った。 きっかけは、編集者だというユーザーのツイートだ。投稿によれば、漢和辞典の売れ行きは厳しく、内容を改訂できる編集者もほとんどいないという。SNS上では「漢和辞典無くなったら困る」などと動揺する声が相次いだ。 実際、現在の漢和辞典の売り上げはどうなっているのか。改訂の予定はあるのか。漢和辞典を出版する小学館と三省堂、漢字・日本語検索サイト「漢字ペディア」を運営する日本漢字能力検定協会に話を聞いた。 漢和辞典の改訂は難しい状況なのか 漢和辞典とは、漢字・漢語の読み方や意味について説明する辞典だ。漢字の画数や部首、筆順、音訓読み、意味、語源などが一般的に記されている。紙の辞書だけでなく、電子辞書やアプリ辞書、ウェブ辞書といった形のデジタル辞書も存在する。 話題の発端になったのは、編集者

                                                                    漢和辞典が「絶滅」してしまう? 窮状伝えた投稿拡散、心配広がる...その現状を出版社に聞いた
                                                                  • ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ

                                                                    まえがき ミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか? それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。 目次 まえがき 目次 凡例 この記事で使う名称について ビルマ語表記 コードポイント ラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯 複雑なビルマ文字 ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装 実装の方針 文字の並べ替えをせず、左から右に書く 文字の形のバリエーション

                                                                      ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
                                                                    • 技術書籍をシンタックスハイライトする話 | blog.jxck.io

                                                                      Intro 「連載するけど、代わりにコードはハイライトさせてほしい」 それが Web+DB Press 編集長に俺が出した条件だった。 技術書籍のシンタックスハイライト エンジニアは普段から、エディタ上でも、リポジトリ上でも、ブログ上でも、何かしらハイライトされたコードを見ている。 そんなエンジニアに向けて書かれた技術書籍でありながら、書籍のコードがハイライトされているのはみたことがない。 「技術書籍がシンタックスハイライトされてないのは、出版社の怠慢だ」 と、割と本気で思っていた。そして、今でも思っている。 特にページを跨ぐような長いサンプルコードを、単色で印刷されても、正直読む気になれない。 白黒だからしょうがないと思われているかもしれないが、白黒だとしても、文字の太さ、濃淡、フォントの微妙な使いわけなどで、かなり見やすくすることができる。 今はやっていないが、このブログでも、印刷用の

                                                                        技術書籍をシンタックスハイライトする話 | blog.jxck.io
                                                                      • Windows上でユニコードを「見る」方法

                                                                        Windowsでは、文字コードに「ユニコード」を使う。Windowsに搭載されているフォントはさまざまあるが、ユニコード文字を表示できるように、多数の文字の形が組み込まれている。 今回は、Windowsでユニコードを“見る”方法について解説する。なお、WindowsではUTF-16LEエンコードをUnicodeと表記する。ここでは、エンコードと混同されないために、文字仕様のUnicodeは「ユニコード」とカナ書きすることにする。 GUIアプリでユニコードを使う ユニコード文字は多数ある。それぞれの文字に割り当てられた文字コードをユニコードでは「コードポイント」と呼ぶ。コードポイントは、「U+」の後ろに16進数4桁または6桁で指定するのが正式な表記方法だ。たとえば、「漢」は「U+6F22」となる。ユニコード関連の文書やもちろん、インターネット内のウェブページでも同様の表記をすることが多い。

                                                                          Windows上でユニコードを「見る」方法
                                                                        • Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】

                                                                            Unicodeコンソーシアムが提供する“最後の手段”フォント「Last Resort Font」/フォールバック指定しておけばフォントに含まれていないグリフを突き止められる【レビュー】
                                                                          • macOS 13.3 VenturaではNFC/NFD問題が再発し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意を。

                                                                            macOS 13.3 VenturaではNFD/NFC問題が復活し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意してください。詳細は以下から。 Appleは2017年に開催したWWDC17において、同年末にリリースされるmacOS 10.13 High Sierraでは同社が開発する新しいファイルフォーマット「APFS」を正式導入すると発表しましたが、Macよりも先行してAPFSが採用されたiPhone (iOS 13.3から)では初期段階でUnicodeの正規化形式(NFD/NFC)問題により、アプリがファイルにアクセスできない不具合が確認されていました。 表題の件、Acrobat Reader for mobileをiOS 10.3でご利用のお客様において、以下の現象が発生しております。 既知の問題: ファイル名に下記の文字を使用した場

                                                                              macOS 13.3 VenturaではNFC/NFD問題が再発し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意を。
                                                                            • Misskeyのパフォーマンス改善の取り組み・2023年7月 | gihyo.jp

                                                                              本連載は分散型マイクロブログ用ソフトウェアMisskeyの開発に関する紹介と、関連するWeb技術について解説を行っています。 ここ最近でMisskeyのユーザー数がさらに急激に増えています。そのため、運営者がより少ないコストでサーバーを維持できるよう、Misskeyのスケーラビリティ改善を急いでいます。 今回は、そういった最近のMisskeyのパフォーマンス改善の取り組みについて、検討中のものも含めて紹介したいと思います。 misskey.ioの登録ユーザー数の推移 Identicon生成の無効化オプション Identiconはユーザーが自身のアイコンを設定していないときに代わりに表示されるアイコンで、これはユーザーごとに異なるようになっています。 仕組みとしては、https://misskey.example.com/identicon/hogeにリクエストされた際に、hoge部分をシー

                                                                                Misskeyのパフォーマンス改善の取り組み・2023年7月 | gihyo.jp
                                                                              • 漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社

                                                                                きっかけ 以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。 「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは ⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica

                                                                                  漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」|TechRacho by BPS株式会社
                                                                                • DockerでDevOps環境を整える - Qiita

                                                                                  DockerでDevOpsな環境を整える ここ数年、炎上してる案件にアサインされてる。。 傾向として、svnでブランチがいっぱい作ってマージでデグレしたり、 Excelでバグ表を管理したり、ガントチャートを手作業で管理したり、 結合テストの段階までプログラムを動かしたテストをしてない、 テストが自動化されていないと惨憺たる状況が見られる。。。 正直、付き合ってられない😭 チンパンジーを相手にしてる気分、 ということで、docker-composeを使って、進捗/バグ管理にRedmine ソース管理と自動テストのためにgitlab,gitlab-runnerの環境を整えてみました。 ソースコードやバグの管理、テストの自動化などに使っていただければ幸いです。 docker-compose.ymlファイル version: "3" volumes: # gitlab関連Volume gitla

                                                                                    DockerでDevOps環境を整える - Qiita