並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 293件

新着順 人気順

UTF-8の検索結果41 - 80 件 / 293件

  • 海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される

    by Whooym 文字が適切に表示されずに読めなくなってしまう「文字化け」は、海外の技術者の間でも「Mojibake」で通用するとのこと。そんな文字化けの種類について、東京で自然言語処理(NLP)の開発をしているポール・オリーリ・マッキャン氏が解説しました。 A Field Guide to Japanese Mojibake https://www.dampfkraft.com/mojibake-field-guide.html マッキャン氏によると、文字化けは作成した時と異なる文字コードで文書を開くことで発生するとのこと。文章が文字化けすると無意味な文字列になってしまうので読めませんが、どのような文字コードが使われたかによって異なるパターンが表れるので、慣れると使われている文字コードの種類を推測することができるそうです。 ◆UTF-8 UTF-8はインターネット上では最も一般的な文字

      海外の技術者が日本語の「文字化け」を本気で解説、日本人顔負けの日本通っぷりが披露される
    • 「炒」「爆」「炸」…中華料理のメニューで使われる漢字を学ぶ

      海外旅行とピクニック、あとビールが好き。なで肩が過ぎるので、サラリーマンのくせに側頭部と肩で受話器をホールドするやつができない。 前の記事:「非常用持ち出し袋」は旅行気分で用意しよう > 個人サイト つるんとしている 深遠なる中華炒めの世界 おれが以前から秘かに興味を持っている語学といえば、アラスカ先住民文字、エスペラント語、宜蘭クレオール、ゲール語、モンゴル文字など、日常生活で役に立つ場面がきわめて少ない(趣味性の高い)言葉ばかり。それらと比較すれば、10億人が話す中国語を勉強すれば圧倒的な実益が見込めるだろう。 特に「料理分野」なら、最近は日本の街中でも生身の中国語に触れる機会がそれなりにある。池袋や西川口は日本人向けにアレンジされていない中華料理屋=「ガチ中華」の街として有名だけど、いま全国的にこうした全力投球の中華料理が体験できる街が注目されつつあるからだ。 おれが住む大阪の場合は

        「炒」「爆」「炸」…中華料理のメニューで使われる漢字を学ぶ
      • 「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか

        携帯電話を用いたコミュニケーションの手法の1つに「絵文字」がある。日本で生まれたこの絵文字は、GoogleとAppleによって標準化され、今ではさまざまなスマートフォンやPCでもでも閲覧できる。 その一方、ドコモで販売されるAndroidスマートフォンには、いまだフィーチャーフォン時代の絵文字が表示される。しかしこれが今のスマートフォンにそぐわない側面が出ている。この絵文字問題について考察したい。 今の絵文字は日本のものをベースにGoogleとAppleが標準化を提案 絵文字を携帯電話に採用したのは、NTTドコモが最初だ。この後にDDI(現au)、J-フォン(現ソフトバンク)が採用する形で続く。絵文字にはシフトJISというコードが用いられていたが、互換性維持の空き領域に絵文字を割り当てたことから、キャリア間で互換性がなく、文字化けの要因となっていた。 後に自動変換サービスも展開されたが、使

          「ドコモの絵文字が見づらい問題」を考える なぜ、今のスマホにそぐわないのか
        • 役所の文書には全角と半角を混ぜて書く謎ルールがあるらしい→ちゃんと歴史や理由があった

          うすば【主事】 @ajakatuki @lilia_lia_ff14 県庁勤務ですがガチですね、、、。 入庁2ヶ月経った今でもたまに年月日を半角で入れてしまって、決裁おりないことがあります😔 2022-06-04 06:30:47

            役所の文書には全角と半角を混ぜて書く謎ルールがあるらしい→ちゃんと歴史や理由があった
          • 「Googleでもダメか」 チャットAI「Bard」日本語対応プレゼンに落胆の声 原因はフォント

            米Googleが5月10日(現地時間)に日本語対応を発表したチャットAI「Bard」。ChatGPTなどの対抗馬とも目されるサービスで、SNSでも注目が集まっている。一方、発表時のプレゼンテーションに対して「Googleでもダメか」などと、落胆の声も出ている。原因はプレゼン資料で使っていたフォントだ。 GoogleはBardの日本語対応を発表する際、「Japanese」ではなく、大きく「日本語」と書いたスライドを使用。同時に対応を発表した韓国語と合わせ、各国の言語への理解をアピールしていた。ただし、使っていたフォントは中国語繁体字と思しきもの。「語」のごんべんの点がはねており、間違いではないものの、日本語ネイティブからすると少し違和感があるものだった。 Twitterでは「Googleに日本語フォントが理解されていない」「Googleの人、知らない言語のフォントとか興味ないんだね……」とい

              「Googleでもダメか」 チャットAI「Bard」日本語対応プレゼンに落胆の声 原因はフォント
            • 「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita

              物語の始まり 事の発端は納品後。 先方からメッセージが届きました。 クライアント様「このファイルの文字コードがShift_JISになっておりますので、UTF-8で再納品をお願いいたします。」 拙者(あれ…UTF-8にしてたと思うんだけどな) 拙者「確認いたします。」 文字コードを確認する 本案件はいわゆる更新案件で、今回の納品時に言われていたのは、「文字コードがUTF-8ではないものは変換して納品してくれ」ということ。 そして、ご指摘いただいたのは、今回の更新案件で中身はいじらなかったJavaScriptファイル。 本来ならば納品するファイルではないのですが、文字コード変換という要件があったため、納品ファイルとして加えられたものでした。 一括で文字コードを変えたので作業漏れかなぁと思っていました。 ファイルの中身は記事用にかなり適当につくったものですが、まあだいたいこんな感じです。

                「ASCIIをUTF-8にして」それが『できない』ことを理解してもらえなかった話 - Qiita
              • Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー

                  Googleが変体仮名フォント「Noto Hentaigana」をリリース ~蕎麦屋の看板などを再現可能/Unicodeに登録されている変体仮名286文字をカバー
                • Windows と日本語のテキストについて - Windows Blog for Japan

                  すべての Microsoft 製品 Global Microsoft 365 Teams Copilot Windows Surface Xbox セール 法人向け サポート ソフトウェア Windows アプリ AI OneDrive Outlook Skype OneNote Microsoft Teams PC とデバイス Xbox を購入する アクセサリ VR & 複合現実 エンタメ Xbox Game Pass Ultimate Xbox Live Gold Xbox とゲーム PC ゲーム Windows ゲーム 映画とテレビ番組 法人向け Microsoft Cloud Microsoft Security Azure Dynamics 365 一般法人向け Microsoft 365 Microsoft Industry Microsoft Power Platform W

                    Windows と日本語のテキストについて - Windows Blog for Japan
                  • AV1リアルタイムハードウェアエンコーダを開発しました - dwango on GitHub

                    選定作業にはAOMが公開しているソフトウェアエンコーダaomを使用し、改造によってツールを削減したときの映像品質を比較しました。 映像品質は一般的にビットレートと客観/主観画質のバランスで表されます。 客観画質とは計算によって数値化した画質のことで、代表的な手法としてはPSNRやSSIMがあります。 主観画質とは人の目で映像を評価した画質のことです。 今回は、客観画質としてPSNRを用いた指標(RD性能)を用い、映像品質を比較しました。 PSNRには"30dBを下回ると低品質である"といった基準はありますが、人の目で見たときの評価と必ずしも一致するわけではありません。 そこで、主観画質の評価も並行して実施し、多角的に映像品質低下を防止しました。 選定結果 まず、Superblockサイズを64X64と128X128とで比較しました。 その結果、テストケースのうち約75%でRD性能に変化がな

                      AV1リアルタイムハードウェアエンコーダを開発しました - dwango on GitHub
                    • 端末の文字幅問題の傾向と対策 | IIJ Engineers Blog

                      電子メール、ネットワーク機器集中管理、異常検知、分散処理、クラウド基盤などのシステム開発に従事。古代Rubyist。 CLI や TUI なアプリケーションを使っていると、端末の画面が崩れてしまうことがよくあります。 たとえば、こんな TUI が、 環境によってはこんな感じで崩れます。 スクロールなどをしながらしばらく使っているとさらにどんどん崩れていきます。 こうなってしまった場合、とりあえず Ctrl-l で画面を再描画することで、大抵はなんとか読める程度にリセットできますので、ことあるごとに Ctrl-l を連打することになります。 ですが、どうしようもないケースもままあります。 例えば、私の場合は以下のようなシチュエーションで困ります。 w3m でテーブルなどを表示するとレンダリングが崩れる less でログの閲覧の際に表示されるべき文字が表示されず見落としが発生する Wander

                        端末の文字幅問題の傾向と対策 | IIJ Engineers Blog
                      • PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~

                        PGOを用いたPostgreSQL on Kubernetes入門(Open Source Conference 2023 Online/Hokkaido...NTT DATA Technology & Innovation

                          PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~
                        • pLaTeX が本格的にやばいかもという話 - Acetaminophen’s diary

                          最近(この1週間ほど)で LaTeX 周りで起きていることについて,声明を出しておきます。端的に言うと「pLaTeX,本格的にやばい」。 pLaTeX hyperref error with pdfmanagement-testphase 今 LaTeX の世界で何が起きているのか,ざっと説明します。 ここ1年ほどの LaTeX は大きく変わっている 2020-02-02 以降,本家の LaTeX2e に多くの変更が入っています。2020 年の2回のリリースについては,Online.tex 2020 での私の講演資料「最近の LaTeX は〇〇」【PDF 直リンク】も参考になるでしょう。 LaTeX2e 2020-02-02: 新 NFSS 導入(シリーズとシェープの多軸化,ファミリ毎の実際のシリーズ値の設定,…),カーネルへの expl3 読込 LaTeX2e 2020-10-01: フ

                            pLaTeX が本格的にやばいかもという話 - Acetaminophen’s diary
                          • 受検票(受験票)が文字化け、印刷できない 神奈川出願

                            「出願システム」トラブルまとめ https://kanagaku.com/toraburu 広告 Twitter「受検票が印刷できない」 文字化けの様子 神奈川県の受験サイトでの受験票印刷、iPadとスマホから印刷しようとしたら文字化けしてしまった。 PCから無事印刷できたから良かったけど、ちょっと焦ったよね pic.twitter.com/LcDbrGdRYj — ころ (@koronosuke01) February 9, 2024 https://web.archive.org/web/20240209035717/https://pbs.twimg.com/media/GF2xYdBagAA0NOG?format=jpg https://megalodon.jp/2024-0209-1257-08/https://pbs.twimg.com:443/media/GF2xYdBagA

                              受検票(受験票)が文字化け、印刷できない 神奈川出願
                            • 朝日新聞デジタル、英数字をついに全角から半角へ 広報「特に全角表示にこだわっていたわけではない」

                              朝日新聞デジタルが2020年1月14日から、記事内の英数字を半角に変更しています。これは実に読みやすい……! 長きにわたり全角英数字表記を貫いてきた朝日新聞デジタル。日時をはじめ、URLなども全角で記載していたことから、URLをコピー&ペーストしにくいといった不満の声や単純に読みづらいという声が定期的に上がっており、2014年10月12日には朝日新聞 国際報道部が公式Twitterにて「『全角、読みにくい』というご意見をいただいます。すみません。技術的なことがわかる人に対応可能か聞いてみます」とツイートすることもありました。 過去には朝日新聞 国際報道部が公式Twitterからこんなツイートも(朝日新聞 国際報道部が公式Twitter) 朝日新聞デジタル「特に全角表示にこだわっていたわけではない」 半角英数字表記になった理由について、ねとらぼ編集部は朝日新聞に問い合わせました。 半角英数字

                                朝日新聞デジタル、英数字をついに全角から半角へ 広報「特に全角表示にこだわっていたわけではない」
                              • 「H.265/HEVC」と同じ画質でファイルサイズを50%削減できる次世代動画圧縮規格「H.266/VVC」が登場

                                Fraunhofer Heinrich Hertz Instituteが、Windows/macOS/Android/iOSといった各種OSでデフォルトでサポートされている動画圧縮規格「H.265/HEVC」の次世代規格となる「H.266/VVC」を発表しました。「H.266/VVC」はデータの圧縮効率を改善し、約50%ビットレートを削減することが可能となります。 Fraunhofer Heinrich Hertz Institute HHI https://newsletter.fraunhofer.de/-viewonline2/17386/465/11/14SHcBTt/V44RELLZBp/1 記事作成時点で、インターネットトラフィックの80%を占めているのが圧縮されたムービーデータです。Fraunhofer Heinrich Hertz Instituteが発表した新しい動画圧縮

                                  「H.265/HEVC」と同じ画質でファイルサイズを50%削減できる次世代動画圧縮規格「H.266/VVC」が登場
                                • 新しく登場したエモい絵文字たちをご紹介します

                                  メディア関係者向けお問い合わせ先 メールでのお問い合わせ: pr-jp@google.com メディア関係者以外からのお問い合わせにはお答えいたしかねます。 その他すべてのお問い合わせにつきましては、ヘルプセンターをご覧ください。

                                    新しく登場したエモい絵文字たちをご紹介します
                                  • 🀈🀉🀊🀈🀉🀊🀈🀉🀊🀚🀚🀚🀋 🀋

                                    タ ン ヤ オ

                                      🀈🀉🀊🀈🀉🀊🀈🀉🀊🀚🀚🀚🀋 🀋
                                    • アイヌ語仮名「ㇷ゚」に対する正規表現の罠

                                      導入 アイヌ語は日本語と異なり、閉音節(子音で終わる音節)も存在するので、表記の際音素文字であるラテン文字なら、そのまま p, t, k, m, n, s, r などの子音文字を後ろの付ければ良いわけなので、アイヌ語ローマ字表記では、何も問題が生じない。しかし、元々開音節言語である日本語に特化したカタカナのような仮名文字で表記する際、鼻音 n は「ン」でなんとかなる(実はそれでもまずい事になっているけどここでは割愛する)が、p, t, k, m, n, s, r, h はどうしようもないので、特殊の捨て仮名(小書き仮名文字)を利用することになっている。 具体的には以下のような特殊仮名文字(通称 アイヌ語仮名)である。 ㇷ゚ -p ッ -t ㇰ -k ㇺ -m ㇱ -s ㇻ -(a)r, ㇼ -(i)r, ㇽ -(u)r, ㇾ -(e)r, ㇿ -(o)r お分かり頂けただろうか… 問題 r

                                        アイヌ語仮名「ㇷ゚」に対する正規表現の罠
                                      • 風になりたい奴だけがEmacsを使えばいい 2020

                                        先日、Emacsに一生入門できねえ2020という記事を目にした。 確かにEmacsは難しい。まったくもって増田の言う通りだ。うんうんと頷きながら、過去に自分が書いた「風になりたい奴だけが Emacs を使えばいい。」という記事が脳裏に浮かんだ。 10年間の出来事 # 僕が「風になりたい奴だけがEmacsを使えばいい」と言った記事は2010年9月4日に投稿されていて、あれから実に10年の月日が経過していた。とても懐しい。 振り返ればこの10年間でエディタの世界は大きく変わった。次世代エディタを銘打ったAtomが誕生し、エディタにおける表現の限界をぶち壊した。そして後続で登場したVSCodeが一気にシェアを奪い、一瞬でトップシェアの座に立ってしまった。予想しなかった未来があった。 一方、Emacsはどうなったかと言えば、メジャーバージョンが23から27になった。しかし、起動したてのEmacsは

                                          風になりたい奴だけがEmacsを使えばいい 2020
                                        • Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ

                                          Pythonがファイルを開くときなどに使われるエンコーディングはロケール(WindowsではANSIコードページ)依存でした。 Unixの世界ではどんどんUTF-8ロケールが一般的になっている一方、WindowsのANSIコードページはなかなかUTF-8になりません。 そのために、Unixユーザーが open(filepath) のようにエンコーディングを指定しないままUTF-8を仮定するコードを気軽に書いてしまって、Windowsユーザーがエラーで困るといった問題が発生します。 また、Windowsでもメモ帳(Notepad.exe)やVSCodeはすでにUTF-8をデフォルトのエンコーディングで使用しています。ANSIコードページがUTF-8になるのを待っていたらどんどん周りの環境から置いていかれ、レガシー化してしまいます。 Pythonがデフォルトで利用するエンコーディングをWind

                                            Python 3.15からデフォルトのエンコーディングがUTF-8になります - methaneのブログ
                                          • 新聞のお悔やみ欄に載っていた人の名前が読み方も何ていうフォントなのかもわかんない文字だった「ウルトラサインじゃね?」「これは読めない」

                                            三条友美 @tomomisanjo 《少女の絵本》イラスト&少女の恐るべき告白 dlsite.com/maniax/work/=/… 仕事の御依頼はこちらに! tomomihaluna@gmail.com

                                              新聞のお悔やみ欄に載っていた人の名前が読み方も何ていうフォントなのかもわかんない文字だった「ウルトラサインじゃね?」「これは読めない」
                                            • 観光船の捜索 救助された10人の死亡確認 北海道 知床半島沖 | NHK | 事故

                                              23日、北海道の知床半島の沖合で乗員 乗客26人が乗った観光船が遭難した事故で、これまでに救助されていた男女合わせて10人の死亡が確認されました。海上保安本部が身元の確認を進めるとともに、現場海域の周辺でほかに人がいないか引き続き、捜索にあたっています。 23日、北海道斜里町ウトロを出港し知床半島の沖合を航行していた観光船「KAZU 1(19トン)」から「船首が浸水し、沈みかかっている」と救助要請の通報があり、その後連絡が取れなくなった遭難事故では、子ども2人を含む24人の乗客のほか、斜里町に住む豊田徳幸船長(54)と甲板員の合わせて26人の行方が分からなくなっています。 海上保安庁や災害派遣要請を受けた自衛隊などが斜里町の「カシュニの滝」近くの海域で捜索を続けた結果、24日はこれまでに知床岬の先端付近の海上や岩場などで合わせて10人が相次いで救助されました。 第1管区海上保安本部によりま

                                                観光船の捜索 救助された10人の死亡確認 北海道 知床半島沖 | NHK | 事故
                                              • 不便で仕方ない「住所入力の全角・半角問題」はなぜなくならないのか 専門家に原因を聞く

                                                ECサイトやSaaSのアカウントを作るため、入力フォームに全角で住所を打ち込み。番地や郵便番号などの数字は半角で書き、情報を登録しようとしたら「この情報は半角では入力できません。全角で入力してください」。よく見るとページ内に「番地は全角で入力してください」という注意書きがあったので、再度打ち直し──入力フォームを使ったことがある人なら、多くの人がこんな面倒な経験を味わっているのではないだろうか。 こういった仕様は巷(ちまた)にあふれており、ネットで「全角・半角問題」などと呼ばれている。ユーザーに不便を強いているにもかかわらず、このような入力フォームはなぜなくならないのか。 この課題のソリューションとして、ユーザーが入力フォームに打ち込んだ文を自動で半角・全角に統一するなどの機能を持つJavaScriptライブラリ「InputManJS」を提供するグレープシティ(仙台市)の若生尚徳さん(ツー

                                                  不便で仕方ない「住所入力の全角・半角問題」はなぜなくならないのか 専門家に原因を聞く
                                                • [速報]Windows Terminal 1.0正式リリース。7月からは毎月アップデートへ。Microsoft Build 2020

                                                  [速報]Windows Terminal 1.0正式リリース。7月からは毎月アップデートへ。Microsoft Build 2020 オンラインイベント「Microsoft Build 2020」を開催中のマイクロソフトは、Windows Terminal 1.0正式リリースを発表しました。 下記はWindows Terminalのプログラムマネージャ Kayla Cinnamon氏のツイートです。 Windows Terminal 1.0 has been released!! A huge thank you to everyone who has helped contribute! https://t.co/VpnwIDHCxM — Kayla Cinnamon ☕ @ #MSBuild (@cinnamon_msft) May 19, 2020 Windows Terminalは

                                                    [速報]Windows Terminal 1.0正式リリース。7月からは毎月アップデートへ。Microsoft Build 2020
                                                  • マイクロソフトが絵文字データ1538種をオープンソース提供。改変・商用利用も自由 | テクノエッジ TechnoEdge

                                                    マイクロソフトが独自デザインの絵文字『Fluent emoji』1538種のデータをオープンソースで公開しました。 Microsoft 365のリアクション等でも使われるマイクロソフト版の最新デザイン絵文字 Fluent emoji 1538種について、3D表現のPNGファイルやベクタのSVG版、フラット版やハイコントラスト版など一式を含み、Github や Figma で誰でも自由に利用したり入手できます。 制限の少ないMITライセンスのため、自由に改変や配布、商用利用も可能(著作権表示と許諾表示は必要。MITライセンスを参照)。 現在の絵文字に欠けた新しい絵文字の素材にすることも、顔や動物や食べ物のアレンジ版を作ることも、自分のアプリや作品に導入することもできます。 Fluent Emoji は、マイクロソフトが2021年に全面刷新したスタイルの絵文字。モバイル機器やチャットアプリ、リ

                                                      マイクロソフトが絵文字データ1538種をオープンソース提供。改変・商用利用も自由 | テクノエッジ TechnoEdge
                                                    • ロシアの一修道院に保管されている教会スラヴ語訳聖書に一回だけ登場する文字「ꙮ」

                                                      ティラノサウルス @7XL03 多眼O、ロシアの一修道院に保管されている教会スラヴ語訳聖書に一回だけ登場する「мн҄оꙮ҄читїи҄(たくさんの眼がある)」という語彙を表すためだけにあるらしくて熱すぎる pic.twitter.com/N5Th6O5B2H 2022-05-06 19:11:34

                                                        ロシアの一修道院に保管されている教会スラヴ語訳聖書に一回だけ登場する文字「ꙮ」
                                                      • 「コカ・コーラ」ではなく「コカ・コーラ」?間違えやすい企業や商品の「正式名称」調べてみた | おたくま経済新聞

                                                        企業や商品の名前は、広く認知してもらうためにも非常に重要なもの。しかしながら、その正式名称、意外と間違って覚えられているパターンが多いんです。 そこで今回は、誤認されがちな企業・商品名をまとめてみました。思わず「え?そうだったの?」とびっくりすることもあるかもしれません。ちなみに弊媒体は「おくたま」ではなく「おたくま経済新聞」です! ■ 特に誤認されがち「大文字小文字」「清音濁音」系 こうした話題の時に、まず真っ先に名前が上がる企業と言えば「キヤノン」「シヤチハタ」「キユーピー」といった、大文字小文字の誤認系。 これは全体の文字バランスを考慮し、本来小文字である表記を大文字にしたという理由が主である模様。なお発音する際は、「キャノン」「キューピー」「シャチハタ」と小文字で読むのが正です。ちなみにタレントの「中川翔子」さんの本名は「しょうこ」ではなく「しようこ」が正しい表記となります。 続け

                                                          「コカ・コーラ」ではなく「コカ・コーラ」?間違えやすい企業や商品の「正式名称」調べてみた | おたくま経済新聞
                                                        • grep の「バイナリファイル (標準入力) に一致しました」が出る条件を調べていたらそれは長い旅路の始まりだった。

                                                          はじめに 昨今では1行につき、1つの JSON を出力する様なログファイル形式も珍しくはありません。 grep しやすい データベース化しやすい これらの理由で各所で多く使われています。僕も仕事で普通に使っているのですが、ある日突然そのログファイルを集計するスクリプトで以下の様なエラーが出始めました。

                                                            grep の「バイナリファイル (標準入力) に一致しました」が出る条件を調べていたらそれは長い旅路の始まりだった。
                                                          • GitHub - trueroad/tr-NTTtech05: NTT Tech Conference #5 Presentation 「PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~」関連資料

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - trueroad/tr-NTTtech05: NTT Tech Conference #5 Presentation 「PDFのコピペが文字化けするのはなぜか?~CID/GIDと原ノ味フォント~」関連資料
                                                            • 君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita

                                                              import re re.match(r'\d{4}-\d{2}', '٢٠٢٢-٠٦') Pythonで書いてはいますが、内容を補足します。「'٢٠٢٢-٠٦'」という文字列が、数字4文字+ハイフン+数字2文字にマッチするかどうか、という正規表現を書いています。 一見するとどう見ても数字4桁ではないので、正規表現にマッチしないように見えますよね???? 実は正規表現にマッチします!!!というのが今回の記事の内容になります。 そもそも正規表現における数字の扱いとは 今回はPythonの正規表現のライブラリを利用しているので、公式のリファレンスを見てみましょう。 該当の部分には以下のような記述があります。 \d Unicode (str) パターンでは: 任意の Unicode 10 進数字 (Unicode 文字カテゴリ [Nd]) にマッチします。これは [0-9] とその他多数の数字を

                                                                君たちは正規表現におけるインド数字の罠にハマったことはあるかい?(١٢٣٤٥٦٧٨٩) - Qiita
                                                              • 「絶対アップデートしたくない」…iOS 14.2の「とある仕様」にユーザーが強烈な拒否反応【やじうまWatch】

                                                                  「絶対アップデートしたくない」…iOS 14.2の「とある仕様」にユーザーが強烈な拒否反応【やじうまWatch】
                                                                • 「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字

                                                                  HTMLファイルで特殊記号を使う際、① は ①、© は © のように置き換えて書かないといけないものだと思いこんでいないでしょうか。 現代ではそれは誤解です。 UTF-8では特殊記号の文字参照は不要 そもそも環境依存文字とは、データを扱う機種・ソフトウェアなどの違い(文字コードの割り当ての違い)により表示に違いが出てしまう文字のことでした。 例えばShift_JISには © が含まれておらずそもそも保存できなかったり、 ① などの丸数字は含まれているものの、WindowsとMac OS(当時)の割り当ての違いにより正しく表示できなかったりしました。[1] しかし現在ではUnicodeによって文字コードは統一化されており、その問題はほとんど起きなくなっています。 近年では多くの場合 UTF-8 でファイルを記述すると思います。 HTMLファイルの文字エンコーディングが

                                                                    「HTMLでは環境依存文字(①や©など)を文字参照にしなければいけない」という誤解と、本当に置換すべき文字
                                                                  • Webアプリケーション設計の第一歩は
ディレクトリの整理から / Encraft 1

                                                                    2023/3/24、Encraft #1 フロントエンド×設計にて発表した資料です。

                                                                      Webアプリケーション設計の第一歩は
ディレクトリの整理から / Encraft 1
                                                                    • 中国人を悩ませるレアな名字の文字コード問題

                                                                      印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 中国では、2023年8月1日に強制力のある国家標準規格「GB 18030-2022」(信息技術中文編碼字符集)が施行される。中国で「強制」という言葉が出ると「また締め付けが強化される」と反射的に考えてしまうかもしれないが、これは文字コードの標準規格を新たに導入するという話だ。珍しい名字などに使われ、既存の文字コードに未登録の漢字に対応しようというものになる。 中国の面積は日本の国土の約25倍で、約14億人の人口を擁している。一部の地域限定で使われている漢字や、少数民族の固有名詞でのみ用いられている漢字もある。文字コードに含まれない漢字を使っている人は約6000万人もいるそうだ。例えば、山東省青島市郊外にシュイユー村という地元ではまあまあ

                                                                        中国人を悩ませるレアな名字の文字コード問題
                                                                      • おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary

                                                                        2021/9/10 追記: 改めて更新された話を統合して整理して書き直しました. 以降はこちらを参考にしてください: ill-identified.hatenablog.com 2021/1/15 追記: RStudio 1.4 がリリースされたのでなるべくアップデートしましょう 2020/12/06 追記: Japan.R で今回の話の要約+新情報を『Mac でも Windows でも, PNG でも PDF でもRのグラフに好きなフォントで日本語を表示したい (2020年最終版)/Display-CJK-Font-in-Any-Gpraphic-Device-and-Platform-2020 - Speaker Deck』として発表した. ハイライトは「近々出るRStudio 1.4 があれば fontregisterer はほぼいらなくなる」 2020/10/31 追記: geom

                                                                          おまえはもうRのグラフの日本語表示に悩まない (各OS対応) - ill-identified diary
                                                                        • Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*

                                                                          Slack は、メッセージのどこからどこまでハイライトするかを、 Unicode の私用領域 *1の U+E000 と U+E001 を使って表しているらしく、こういう HTML を glitch とかで書いて、 <html> <head> <meta property="og:title" content="Slackで&#xE000;タイトルをハイライト&#xE001;する" /> <meta property="og:description" content="Slackで&#xE000;説明&#xE001;も&#xE000;好きな部分をハイライト&#xE001;する" /> </head> </html> そのページを Slack で展開させたりすることで、好きな部分を勝手にハイライトできて面白い *2 *3。 ちなみに printf "\ue000寿司\ue001が光ったら成功"

                                                                            Slackはハイライト部分をU+E000とU+E001で囲って表していそう - hogashi.*
                                                                          • JavaScript における文字コードの初歩 - 30歳からのプログラミング

                                                                            この記事では、 JavaScript で文字コードを扱う際に知っておくべき概念である Code Point や Code Unit、サロゲートペア、といったものについて説明していく。 また、具体的にそれらの概念を使ってどのようにコードを書いていくのかについても扱う。 この記事に出てくるコードの動作確認は以下の環境で行った。 Deno 1.26.0 TypeScript 4.8.3 Code Point (符号位置) プログラムで文字を表現する方法は複数あるが、 JavaScript では Unicode という方法を採用している。 Unicode ではあらゆる文字に対して一意の値を割り振ることを目的としており、この値のことを Code Point (符号位置)という。 Code Point は 16 進数の非負整数で、文章中で表記するときは接頭辞としてU+をつける。 例えばAという文字の

                                                                              JavaScript における文字コードの初歩 - 30歳からのプログラミング
                                                                            • MySQLのutf8mb4と戦った話 - Uzabase for Engineers

                                                                              皆様こんにちは、NewsPicksエンジニアの米澤です。 先日 2023/03/30は、こちらでアナウンスしていた通り、サービスの停止を伴うシステムメンテナンスを実施させて頂きました。 NewsPicksをご利用頂いている皆様には、ご迷惑おかけいたしました。 今回はこのメンテナンスの中で行われたDBテーブルのmigrationについてお話ししたいと思います。 ことの始まり やったこと 方針決め utf8mb4に対応していないテーブルを調べる migrationを作成する 影響範囲を調べる 開発環境でリハーサルを行う メンテナンスの日 最後に ことの始まり NewsPicksではバグの検知にBugSnagを利用しています。 ある時、BugSnagにこんなエラーが通知されてきました。 org.springframework.orm.hibernate4.HibernateJdbcExcepti

                                                                                MySQLのutf8mb4と戦った話 - Uzabase for Engineers
                                                                              • Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始

                                                                                Googleのキーボードアプリ「Gboard」で、「ハート付きうんち」や「悲しい顔をしてキス」などの“ミックス絵文字”を使えるようになる。 米Googleは2月12日(現地時間)、Android向けキーボードアプリ「Gboard」の新機能「Emoji Kitchen」を発表した。2つの絵文字をミックスしてカスタマイズした絵文字を使える。同日からすべてのGboardユーザー向けにロールアウトしていく。 Gboardをメインのキーボードに設定し、Gmail、Googleのメッセージ、メッセンジャー、Snapchat、Telegram、WhatsAppなどのアプリでの入力で絵文字を選ぶと使える(本稿執筆現在、筆者のGboardではまだできない)。 自分で新しい絵文字を作れるわけではないようだ。公式ブログには、「絵文字をタップすると、Googleのデザイナーが特別に手作りしたステッカーが(候補とし

                                                                                  Google、絵文字を組み合わせた「ハート付きうんち」などを使える「Emoji Kitchen」開始
                                                                                • 誰でも簡単⁉️👀 絵文字ができるまで😃👍

                                                                                  現在の私たちが何気なく使っている絵文字たち(😀🥺💦💕🏠💻🌊😈🐱💢…)って、実は誰でも提案📝📮することができて、「この絵文字はワシが作った👴」と言えるチャンス💪があることをご存知ですか❓🤔 このスライド📄では、普段あまり知ることのないUnicode Emoji😀(絵文字の代表格)の仕様策定の流れ💨や、Emojiを提案する方法🙆‍♀️を簡単にご紹介👩‍🏫します! ✅ Zennに本スライド以外の内容(📊通過率・🗑️Emoijのボツ案など)を含めて載せてます↓ https://zenn.dev/cybozu_frontend/articles/how_to_propose_a_new_emoji ※本資料は、2023年6月30日にサイボウズで開催された社内イベント「フロントエンドデー」における登壇資料に一部編集を加えたものです。 ※ここに掲載の内容は2

                                                                                    誰でも簡単⁉️👀 絵文字ができるまで😃👍