[3ページ] 文字化けの人気記事 395件

81 - 120 件 / 395件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

文字化けの検索結果81 - 120 件 / 395件

島根１区〝かめいあきこ〟問題に終止符　渦中の同名「亀井彰子」氏が出現し陰謀論一蹴！（東スポWeb） - Yahoo!ニュース
- 169 users
- news.yahoo.co.jp
- 世の中
- 2021/10/30
与野党一騎打ちのはずが、野党候補と名前の読みが同じ「かめいあきこ」氏の出馬表明で注目の衆院選島根１区。渦中の無所属新人・亀井彰子氏（６４）が３０日、松江市内で個人演説会を開いた。【写真】こちらが亀井彰子氏　ラフな格好だった島根１区は、自民党細田派会長の前職・細田博之氏（７７）に対し、前回は比例復活した立憲民主党前職・亀井亜紀子氏（５６）が挑む。地元政界関係者によると、思わぬ〝ダークホース〟の参戦で、亜紀子氏は「名前を漢字で書いてほしい」と票の取りこぼしを防ごうと必死。当初は窮地に追い込まれる見方もあったが、むしろ浮動票層から注目が集まっているという。一方の彰子氏は、選挙カーがなく運動員もいない。選挙ポスターの掲示も少ないため、多くの有権者に「謎の人物」として受け止められていた。そんな中この日午後、市内の会議室で開かれた３回目の個人演説会には、有権者１５人ほどが「どんな人なんだ？」と集
- 選挙
- 政治
- あとで読む
- 東スポ
- 名前
- インタビュー
- politics
- ネタ
UTF-8で動くRailsがShift_JISな外部システムと通信する方法 - BOOK☆WALKER inside
- 166 users
- developers.bookwalker.jp
- テクノロジー
- 2022/09/02
こんにちは。メディアサービス開発部Webアプリケーション開発課のフサギコ(髙﨑)です。部署名が変わりました。 Ruby on Railsによるバックエンドの実装運用と、AWSによるサービスインフラの設計構築を中心とした、いわゆるテックリードのような立ち位置で働いています。本記事では、UTF-8環境下で動くRailsがShift_JISな外部APIと通信する方法についてお話しします。前提知識文字コード UTF-8環境下で動くRailsがShift_JISな外部システムと通信するには Shift_JISな外部APIに対してPOSTリクエストするべた書きとしては Railsにおいては Shift_JISで使用できない文字が混ざっていないかをバリデーションする Shift_JISな外部システムからPOSTリクエストを受けるおまけ: ユーザのブラウザにShift_JISでPOSTさせる
- rails
- 文字コード
- あとで読む
- unicode
- ruby
- プログラミング
- 通信
- API
- programming
ヤフコメ欄で天心vs亀田のどちらが強いか揉めてお互い会いに行ったら殴り付けて逮捕された41歳無職男
- 165 users
- togetter.com
- 世の中
- 2019/07/24
NHK@首都圏 @nhk_shutoken 品川区旗の台の路上で４０代の男性に殴る蹴るの暴行を加えてけがをさせたとして、４１歳の男逮捕。「ヤフーニュース」に掲載された格闘技のニュースコメント欄で、面識のない被害者の男性と意見が対立して実際に会うことになり、初めて会ったその場で暴行したという。 www3.nhk.or.jp/shutoken-news/… 2019-07-23 12:02:57
PDF に謎の漢字が含まれるとき
- 161 users
- gist.github.com/xl1
- テクノロジー
- 2020/10/01
gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた？この文字は康煕部首 (Kangxi Radicals) というもので、部首としての文字であるＭＳゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすいどこから来たのか？これらは（フォントに
- pdf
- unicode
- 文字コード
- font
- textlint
- フォント
- あとで読む
- 漢字
- 文字
- pc
A Field Guide to Japanese Mojibake
- 157 users
- www.dampfkraft.com
- テクノロジー
- 2021/11/01
When you open a document with an encoding different than the one it was created with, it's not possible to display the original text, and instead a garbled mess of corrupted characters are printed out. These are called "mojibake" in Japanese, and the word has also been borrowed into English. While mojibake aren't readable by humans, it turns out that different kinds of mojibake have different visu
マルチバイト文字とURL | 技術者ブログ | 三井物産セキュアディレクション株式会社
- 155 users
- www.mbsd.jp
- テクノロジー
- 2023/02/16
MBSDでWebアプリケーションスキャナの開発をしている寺田です。前記事では正規表現でのURLのチェックについて書きました。今回はその続きでマルチバイト文字を使った攻撃について書きたいと思います。前提条件本記事で想定するのは、ブラウザからパラメータとして渡されて来るURLを、リダイレクトやリンク等のURLとして使うケースです。その中でも、以下のようにサブドメイン部分（★の部分）を可変にする状況を主に想定します。 https://★.example.jp/… 攻撃の目標は、異なるドメイン（evil）のURLを与えてチェックをすり抜けることです。前回の記事にも書きましたが、この状況は（半角英数等のサブドメインしか受け入れないような場合を除き）「/」「?」「#」「\」のいずれかをサブドメインに入れることで攻略できることが大半です。今回はこれらの記号が全て使用できないように対策されているこ
🚭ด้้้้็็็็็้้้้้็็็็็้้้้้้้้🔞龴⟿ﬨ֞ꆸ௵冫ם෴. ﷼ ℳ✧ ۞ on Twitter: "見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9"
- 151 users
- twitter.com/IEEE1394beta
- 世の中
- 2019/11/05
見事なまでの「あ、男性でしたか。失礼しました」現象。そもそも自分が男であるか女であるかがその主張に対して重要であるのかつー話。女性差別はやっぱり本当にあるんだなぁ。 https://t.co/G5flEPxAo9
ZawgyiとUnicode: ミャンマーの文字の電子化について - にせねこメモ
- 147 users
- nixeneko.hatenablog.com
- テクノロジー
- 2023/12/19
まえがきミャンマーでは公用語としてビルマ語が使われている。ビルマ語の表記にはビルマ文字を用いるのだが、このビルマ文字のインターネット上での使用は、混迷を極めていた。そしておそらく今もまだ…。なぜか？それは、Unicodeという文字コードの標準がありながら、Zawgyiというものが広く使われていたためである。なぜそのようなものが登場し、普及することとなったのか、この記事で解説する。目次まえがき目次凡例この記事で使う名称についてビルマ語表記コードポイントラテン文字表記について Zawgyiの概説と歴史 Zawgyiとは Zawgyiのダウンロード Zawgyi誕生・普及の経緯複雑なビルマ文字ビルマ文字とUnicode 回避策としてのビルマ文字フォントの登場 Zawgyiの普及 Zawgyiの実装実装の方針文字の並べ替えをせず、左から右に書く文字の形のバリエーション
- unicode
- 文字コード
- 文字
- あとで読む
- フォント
- ミャンマー
- font
- 言語
- 著作権
有名人の名前について知っていることを語る会
- 145 users
- dailyportalz.jp
- おもしろ
- 2020/02/05
鳥取県出身。東京都中央区在住。フリーライター（自称）。境界や境目がとてもきになる。尊敬する人はバッハ。（動画インタビュー）前の記事：ついに出た！　過去最多＆最高の正解率！〜「ここはどこでしょう？」46回＞個人サイト新ニホンケミカル TwitterID：tokyo26 一般人にとって全く不要な情報有名人の名前はいろいろと面倒くさそうである。藤岡弘、の最後は読点（、）が必要とか、伊東四朗は、伊藤四郎じゃないぞとか、水卜麻美の「卜」はカタカナじゃないぞ……といったようなことは、一般のひとが普通に生活するうえでまったく必要ない情報だが、メディア関係者はきちんと真面目に向き合わなければいけない。そこで、大手出版社で週刊誌の校正を担当していた方と、テレビ局の広報部門で働いている方に集まってもらい、知っていることを話してもらった。右から、出版社で校正を担当する稲川さん、テレビ局勤務のN子
Windows上でユニコードを「見る」方法
- 143 users
- ascii.jp
- テクノロジー
- 2024/05/12
Windowsでは、文字コードに「ユニコード」を使う。Windowsに搭載されているフォントはさまざまあるが、ユニコード文字を表示できるように、多数の文字の形が組み込まれている。今回は、Windowsでユニコードを“見る”方法について解説する。なお、WindowsではUTF-16LEエンコードをUnicodeと表記する。ここでは、エンコードと混同されないために、文字仕様のUnicodeは「ユニコード」とカナ書きすることにする。 GUIアプリでユニコードを使うユニコード文字は多数ある。それぞれの文字に割り当てられた文字コードをユニコードでは「コードポイント」と呼ぶ。コードポイントは、「U+」の後ろに16進数4桁または6桁で指定するのが正式な表記方法だ。たとえば、「漢」は「U+6F22」となる。ユニコード関連の文書やもちろん、インターネット内のウェブページでも同様の表記をすることが多い。
iTerm2 で `cat /dev/urandom` すると印刷ダイアログが出ることがある - mizdra's blog
- 141 users
- www.mizdra.net
- テクノロジー
- 2019/12/04
皆さんは /dev/urandom と呼ばれるUnixデバイスをご存知でしょうか. /dev/urandom は一言でいうと擬似乱数を出力する疑似デバイスで, catすると以下のようにランダムなバイト列を逐次的に出力してくれます. 出力するバイトの値域に特に制限は無いため, ターミナルに印字不可能な文字が表示されたりします. 良い具合にバイト列が揃うと漢字が流れてきたり, 異国の文字が流れてきたりと眺めているだけでも結構面白いです. 皆さんも是非お試し下さい. 私は絵文字が流れてきたのを見て大喜びしてました. ところでこの cat /dev/urandom ですが, iTerm2でひたすら動かしていると稀に印刷ダイアログが開くことがあります. 印刷するともれなく異国の文字たちがお出迎えしてくれます実は cat /dev/urandom しなくても echo コマンドで簡単に再現できます.
macOS 13.3 VenturaではNFC/NFD問題が再発し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意を。
- 135 users
- applech2.com
- テクノロジー
- 2023/04/02
macOS 13.3 VenturaではNFD/NFC問題が復活し、濁音やアクセント記号が付いたファイルをダブルクリックしてもアプリで開けない不具合があるので注意してください。詳細は以下から。 Appleは2017年に開催したWWDC17において、同年末にリリースされるmacOS 10.13 High Sierraでは同社が開発する新しいファイルフォーマット「APFS」を正式導入すると発表しましたが、Macよりも先行してAPFSが採用されたiPhone (iOS 13.3から)では初期段階でUnicodeの正規化形式(NFD/NFC)問題により、アプリがファイルにアクセスできない不具合が確認されていました。表題の件、Acrobat Reader for mobileをiOS 10.3でご利用のお客様において、以下の現象が発生しております。既知の問題：ファイル名に下記の文字を使用した場
- Mac
- apple
- Unicode
- あとで読む
- 不具合
- macOS
- IoT
- 未分類
漢字のようで漢字でないUnicodeの「康熙部首」と「CJK部首補助」｜TechRacho by BPS株式会社
- 132 users
- techracho.bpsinc.jp
- テクノロジー
- 2020/10/07
きっかけ以下のツイートで「埼玉埼⽟問題」と康煕部首を知りました。「埼玉」と「埼⽟」の話。unicodedata.normalize('NFKC', '「埼玉」と「埼⽟」') でいけそう https://t.co/kte0sxDvZT — Haruhiko Okumura (@h_okumura) July 11, 2020 康煕部首とは⼀⼁⼂⼃⼄⼅⼆⼇⼈⼉⼊⼋⼌⼍⼎⼏⼐⼑⼒⼓⼔⼕⼖⼗⼘⼙⼚⼛⼜⼝⼞⼟⼠⼡⼢⼣⼤⼥⼦⼧⼨⼩⼪⼫⼬⼭⼮⼯⼰⼱⼲⼳⼴⼵⼶⼷⼸⼹⼺⼻⼼⼽⼾⼿⽀⽁⽂⽃⽄⽅⽆⽇⽈⽉⽊⽋⽌⽍⽎⽏⽐⽑⽒⽓⽔⽕⽖⽗⽘⽙⽚⽛⽜⽝⽞⽟⽠⽡⽢⽣⽤⽥⽦⽧⽨⽩⽪⽫⽬⽭⽮⽯⽰⽱⽲⽳⽴⽵⽶⽷⽸⽹⽺⽻⽼⽽⽾⽿⾀⾁⾂⾃⾄⾅⾆⾇⾈⾉⾊⾋⾌⾍⾎⾏⾐⾑⾒⾓⾔⾕⾖⾗⾘⾙⾚⾛⾜⾝⾞⾟⾠⾡⾢⾣⾤⾥⾦⾧⾨⾩⾪⾫⾬⾭⾮⾯⾰⾱⾲⾳⾴⾵⾶⾷⾸⾹⾺⾻⾼⾽⾾⾿⿀⿁⿂⿃⿄⿅⿆⿇⿈⿉⿊⿋⿌⿍⿎⿏⿐⿑⿒⿓⿔⿕ KangXi Radica
- 文字コード
- unicode
- 漢字
- あとで読む
- 日本語
- encoding
- bug
- 文字
- slide
「その日本語、ちょっと違うよ」中国語フォントとの違いを見せる海外開発者向けページ　「例が秀逸」と話題 - ITmedia NEWS
- 132 users
- www.itmedia.co.jp
- テクノロジー
- 2021/10/29
「日本語で繁体字や簡体字（のフォント）を使うと、日本語ネイティブには奇妙に見える。aとαどころではなく、英語をキリル文字など形の似た字を交えて書くくらい変だ」──海外開発者に向け、日本語の文章で中国語のフォントを使ってしまうことをこのように注意喚起した英語のWebページが「例が秀逸」「全ての開発関係者が目を通してほしい」と話題を集めている。日本語を繁体字や簡体字のフォントで書く違和感を英文で例えた文章。「It would be looking something like this」をキリル文字などアルファベットに似た言語を交えて書いている（Needleさんが公開しているページから引用） Webページではフォントの違いがもたらす違和感に加え、繁体字、簡体字、日本語フォントの違いを図説。「刃」の字を使ってそれぞれの違いを説明している他、フォントの間違いを確認する方法やその原因、解決方法など
- フォント
- font
- あとで読む
- ITmedia
- techfeed
- 開発
- ゲーム
- web
ChatGPTは文字コードをどのように解釈しているか　Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた
- 126 users
- logmi.jp
- テクノロジー
- 2023/05/09
「YAPC（Yet Another Perl Conference）」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか土屋俊介氏：こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。（スライドを示して）昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、（ChatGPTが）文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。（スライ
Unicodeに含まれる謎の記号「⍼」の起源を追ったレポートが公開中
- 125 users
- gigazine.net
- テクノロジー
- 2022/04/14
大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指して策定されており、「溶解する顔」や「妊娠中の人」といった個性的な絵文字も数多く登録されています。そんなUnicodeに登録されている正体不明の記号「⍼」について、ブリティッシュコロンビア大学でソフトウェアについて学んでいるジョナサン・チャン氏がまとめています。 U+237C ⍼ RIGHT ANGLE WITH DOWNWARDS ZIGZAG ARROW · Jonathan Chan https://ionathan.ch/2022/04/09/angzarr.html 「⍼」は数学記号用のフォントなどに含まれている記号です。例えば、数式・化学式用フォント「Cambria Math」に含まれる「⍼」を拡大してみるとこんな感じ。カギカッコのような直角と稲妻形の矢印が組み合わさった日常生活では全く目にすることのない
- フォント
- unicode
- 文字コード
- 文字
- あとで読む
- GIGAZINE
- font
\と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース　プログラミング言語サポートページ
- 124 users
- scrapbox.io/Ritsumei-ISE-SN
- テクノロジー
- 2021/09/21
バックスラッシュ\を入力する時に円記号¥に文字化けが起きる理由プログラムのソースプログラムは(LaTeXのソースファイルやWebページのHTMLファイル等と同様に)テキストファイル(教科書ではテキスト形式と呼ばれています。プレーンテキスト(plain text)とも呼ばれることがあります)というファイル形式で書かれます。このテキストファイルはどのようなOSでも必ずサポートされている最も基本的なファイル形式であり、実体は1バイトを単位として文字コードで表現されたデータが先頭から順に並んでいるだけのファイルです。その文字コードは歴史的にはさまざまなものがありましたが、次第にアメリカで定められたASCIIコードが主流になり、世界中で使われるようになりました。これが国際的な規格になったものがISO/IEC 646です。これらは7ビットの文字コードなので2の7乗つまり128種類の文字が表現でき、
$\と¥の問題 - 立命館大学情報理工学部セキュリティ・ネットワークコース　プログラミング言語サポートページ$
ユニコード15.1に採用された漢字構成記述文字記号｜Qvarie
- 122 users
- note.com/qvarie
- 暮らし
- 2023/10/03
令和5年9/12にユニコード15.1が正式公開され、CJK漢字拡張-Iの他に“漢字構成記述文字”に指示記号4種、“CJK筆画”に拡張漢字構成記述文字の指示記号が1種類追加されました。ユニコードに採用されていない字の説明がしやすくなったのが重要です。𝚄+𝟹𝟷𝙴𝙵の一部除去指示記号は文字構成要素の一部が削除されていることを示す記号です。漢字構成記述文字記号をラテン・ギリシャ・キリル各文字体系に応用した例で、ユニコードに採用されていない左右逆になる字形と逆になる字形を説明しやすくなりそうです。画像はにしき的フォントに含まれるユニコード未登録のラテン・ギリシャ・キリル各種字母を漢字構成記述文字記号で説明した例です。
- unicode
- フォント
- 文字コード
- あとで読む
- 漢字
- 言語
- 文字
- font
- 技術
非公式 PHP 8.1のmbstringアップグレードガイド - てきとうなさいと。べぇたばん
- 113 users
- tekitoh-memdhoi.info
- テクノロジー
- 2022/11/27
PHP 8.1へのアップグレードにまつわるまとめ PHP 8.1へのアップグレードには、mbstringにまつわるマニュアルに記述されない後方互換性のない変更が含まれることがあります。そのことを周知するべく、この記事を書くことにしました。私てきめんは、PHPカンファレンス 2022にて、「治っていくmbstring 令和時代の文字化け」というタイトルでトークしています。以下スライドも参考にしてください。 Major overhaul of mbstringについて PHP 8.1から、Major overhaul of mbstringと呼ばれる、mbstringの大規模改修の内容が反映されるようになりました。困ったことに、RFC(Request For Comments)やChangelog、マニュアルにない内容で、mbstringを多用するPHPユーザーにとてつもない困惑をもたらすこ
- php
- あとで読む
- PHP 8.1
- mbstring
- 正規表現
- 開発
- Tips
(プログラマのための) いまさら聞けない標準規格の話第1回文字コード概要編 | オブジェクトの広場
- 112 users
- www.ogis-ri.co.jp
- テクノロジー
- 2021/07/14
プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第1回は文字コードの概要編です。 0. はじめに業務システムを開発する場合、プログラミング言語、フレームワーク、ミドルウェア、業務知識など以外に、共通で必要となる知識があります。文字コード、国際化、日付・時刻の扱い、住所コード、郵便番号、電話番号などの各種コード、…。本連載では、プログラマがシステム開発で必要となる、技術と業務の狭間の共通知識を解説して行きたいと思います。連載第1回は文字コードの概要編です。コンピュータシステムにおいて、文字情報は文字コードを用いて処理されます。文字コードとは、各文字に対応付けられた数値 (符号) のことです。近年、新規に開発される業務システムでは Unicode が使われることが多いと思いますが、既存システムとの連携など他の文字コードが使用されることもまだま
JavaScript で文字数を length で数えるのはやめようの実例
- 107 users
- zenn.dev/sosukesuzuki
- テクノロジー
- 2021/08/04
はじめに JavaScript において文字数を String の length で取得すると、期待した値が得られないことがある。この記事では、実際に String の length を使うことによって発生した Prettier のバグを紹介する。前提 JavaScript の String には length というプロパティが存在する。このlengthプロパティは文字列の文字数を表すものではない。実際には、文字列中に含まれるUTF-16のコードユニットの数を返す。つまり、ASCIIをはじめとしたBMPに含まれるものであれば我々の期待する文字数が返ってくるが、一部の漢字やemojiなどについてはそうはならない。たとえば、漢字の𠮟(U+20B9F)はサロゲートペアであり、２つのコードユニットで表される。そのため、length は 2 になる。
ChatGPTを使っていたら「視覴」という見慣れない言葉を吐き出したのだがAIが生み出した存在しない単語なのでは…？
- 107 users
- togetter.com
- 学び
- 2023/06/08
フガクラ @fugakura 怖ぇー、chat gpt使ってたら「視覴」という見慣れない言葉を吐き出したので検索したところ、ヒットするサイトがほとんど直近日付のAI出力された文章だったこれっていわばAIのハルシネーションが生み出した存在しない単語なのでは…？ pic.twitter.com/TVXWcNlVWh 2023-06-08 08:51:02
- AI
- ChatGPT
- あとで読む
- togetter
- 文章
- 言語
- Twitter
Re: Goでcsvを操作するための基本的な知識
- 100 users
- zenn.dev/mattn
- テクノロジー
- 2022/04/22
はじめに Println で標準出力してみると以下のように表示されるかと思います。（SHIFT-JIS形式なのでmacでみると文字化けしていますがひとまず置いておきます）日本では一般的に CSV ファイルは　Shift_JIS でエンコードされている事が多いです。Go 言語は内部のエンコーディングが UTF-8 なので、Shift_JIS な CSV ファイルを読み込むと文字化けします。そこで便利なのがエンコーディングの変換は golang.org/x/text/transform が便利です。このパッケージと、golang.org/x/text/encoding/japanese を使う事で、os.Open で開いたファイルがさも初めから UTF-8 であるかの様に扱う事ができます。どんな風に扱うか japanese パッケージには japanese.ShiftJIS や jap
- golang
- csv
- go
- encoding
- あとで読む
- memory
- コーディング
- programming
コモンエイジ：文字を決めるのは誰?「ガラパゴスの元凶」戸籍70万字が阻むDX | 毎日新聞
- 95 users
- mainichi.jp
- 世の中
- 2024/01/05
行政機関が管理する膨大な数の「文字」がデジタル改革を阻んでいる。字形がわずかに異なる文字も含め、戸籍だけで約70万字。岸田文雄政権は自治体の情報システムを効率化するため、約7万字に絞り込む計画だ。だが、人によっては名前の漢字が変わる可能性があり、慎重論もくすぶる。文字を決めるのは誰なのか――。スマホに表示できない「スマートフォンやパソコンで表示できない文字がある。魑魅魍魎（ちみもうりょう）とした世界だ」デジタル庁幹部は、戸籍などで使われてきた文字の特異性をそう表現し、「自治体システムを複雑にし、ガラパゴス化させた元凶だ」と言い切った。政府は、自治体ごとに仕様がばらばらな戸籍や住民基本台帳、国民年金など20業務の情報システムを2025年度末までに標準化する方針を掲げている。人口減少で公務員の確保が難しくなる中、システムの効率的な運用で行政サービスの質を維持する目的だ。多すぎる文字を
- 行政
- 漢字
- あとで読む
- マイナンバー
- 文化
- 文字
- ICT
PHPでログファイルへの読み書きを通して任意コード実行をする方法 - knqyf263's blog
- 95 users
- knqyf263.hatenablog.com
- テクノロジー
- 2021/10/09
以前少し話題になったLaravelのデバッグモード有効時の脆弱性であるCVE-2021-3129のPoCを読んでいたのですが、思ったより難しくて何でこんなことをしているんだろうと思ったら発見者による解説ブログがありました。読んでみたらバイパスのために思ったより色々していて普通に勉強になったのでメモを残しておきます。CTFerからすると常識な内容かもしれないので、何か間違いや補足があれば指摘をお願いします。 www.ambionics.io 前提知識1 前提知識2 本題問題点 = によるエラー日付のデコードログファイル内の他エントリバイパス方法 consumedの利用 iconvの利用パディングの利用 UTF-16のための調整 NULLバイトの回避最終形まとめ前提知識1 上の脆弱性を理解するためにはいくつかの前提知識を必要とするため最初にまとめておきます。まず、PHPでは外
- php
- Laravel
- セキュリティ
- あとで読む
- security
- tech
Python で Unicode 正規化 NFC/NFD の文字列を扱う - forest book
- 92 users
- t2y.hatenablog.jp
- テクノロジー
- 2019/06/30
先日、ビジネスパーソン向けの Python 本を執筆したことを書きました。 t2y.hatenablog.jp 本稿では本書のことを「できるPy」と呼びます。 Amazon でいくつかカスタマーレビューもいただいて次のコメントをみつけました。 python3.7 対応ということで、pathlib を使ってる点が（古いpython は切り捨てる！的なところは）潔いと言えば潔いし、日本語のファイル名にも気を配っている記述はオライリーに期待するのは酷なところもある。でもこの本でもNFD問題は全くの記述無し。だめだろ、それじゃ。 Amazon CAPTCHA まさに仰る通りです。執筆時にそのことに気づかずご指摘いただいてありがとうございます。ここでご指摘されている NFD 問題というのは、ファイル名のみに限った問題ではなく、Unicode の文字集合を扱ってエンコード／デコードするときに発生する
- python
- あとで読む
- 文字コード
- programming
- unicode
- macOS
- Mac
- 本
Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能
- 90 users
- www.publickey1.jp
- テクノロジー
- 2022/03/23
Java 18正式リリース。デフォルトのCharsetが「UTF-8」に、シンプルWebサーバ搭載など新機能 Javaの新バージョン「Java 18」が正式にリリースされました。 Java 18 is now available! #Java18 #JDK18 #openjdk Download now: https://t.co/hTJU1ZzAWQ Release notes: https://t.co/Xdkj5TObNP API Javadoc: https://t.co/izFBPlYkd9 Features: https://t.co/3z0l5sXyDX pic.twitter.com/Ct1BvYmDYs — Java (@java) March 22, 2022 Javaは6カ月ごとに「フィーチャーリリース」と呼ばれるバージョンアップが行われ、そのなかの1つのバージョンが
- java
- api
- あとで読む
- web
- Software
- 開発
- サーバ
- 未分類
マイナンバーカード作成時に氏名の常用漢字「樹」が代替文字になる問題
- 90 users
- ashphy.hateblo.jp
- 世の中
- 2023/04/06
重い腰を上げマイナンバーカードを作成しようと申請したところ、気になることが発生しました。代替文字とはなんでしょうか。署名用電子証明書は、コンピュータで使用されるものであるため、氏名、住所は、文字化けせずにコンピュータで表示されるものとする必要があります。このため署名用電子証明書で利用可能な文字は、JIS（日本工業規格）の漢字の規格の内、日常的に使用頻度の高い常用漢字と人名用漢字を含むJIS第一水準、第二水準（JISX0208）と補助漢字（JISX0212）の範囲としています。住民基本台帳の氏名または住所が電子証明書に記載するコード取扱範囲外の場合は、コンピュータでの表示に類似の字形を指定し、代替文字として登録します。（公的個人認証サービスポータルサイトより）平たく言えば、「パソコンで普通に打てない名前は置き換えるよ」という意味です。名字が旧字体で変換しても出てこない人も多いでしょ
- 文字コード
- マイナカード
- 文字
- 住基ネット
- 行政
- 漢字
- 氏名
- 足立区
- システム
- 言語
ファイルアップロードではNFC/NFD問題に気をつけろ！~MacファイルシステムにおけるUnicode正規化の闇~
- 89 users
- zenn.dev/hacobell_dev
- テクノロジー
- 2023/08/29
NFCではそのまま「パ」として表されますが、NFDでは「ハ」（基底文字）と「゜」（結合文字）の組み合わせとしての「パ(UTF-8でe3 83 8f e3 82 9a)」（合成文字）で表されます。試しにNFDで正規化された「パ(e3 83 8f e3 82 9a)」を任意のテキストエリアに貼り付けて削除してみると、半濁音のみが取れて「ハ」のみになると思います。このように文字列の正規化形式が異なる場合、単純な比較演算子での評価は困難であり、文字列によっては想定外の挙動を引き起こす可能性があります。特にMacファイルシステムではNFDを正規化方式と採用しているため、NFC/NFD問題が度々引き起こされています。先日(2023年03月27日)リリースされた「macOS 13.3 Ventura (22E252)」では、ファイル名に濁音や半濁音が含まれるファイルがFinderから開けなくなる
- Mac
- unicode
- 文字コード
- あとで読む
- development
- システム
- Chrome
- 開発
trimやstripが全角スペースをトリミングしない理由で盛り上がったのでまとめてみた - Qiita
- 87 users
- qiita.com/sanfrecce-osaka
- テクノロジー
- 2019/06/19
はじめに RubyのString#stripが全角スペースをトリミングしてくれないことにこの間初めて気づきました。そこでフィヨルドブートキャンプのSlackで質問してみたところ、結構盛り上がったので記事にまとめます。本編自分で調べたことまず自力で調査したことをまとめます。 Javaのtrimメソッド Javaのtrimのロジックは「\u0020(半角スペース）の文字コードより大きいか小さいか」が判断基準になっています。ただ、それが他の言語の場合同様のロジックで実装されているのかまではわかりませんでした。 RubyのString#strip(Cのコード) 前後のオフセット値を算出してそれを利用して前後のスペースのトリミングを実現しています。ただ、C力が圧倒的に足りないのでどういうロジックでそのオフセット値を算出しているかまではわかりませんでした。追記 RubyのRuby実装、R
アプリの国際化の舞台裏
- 85 users
- speakerdeck.com/niw
- テクノロジー
- 2019/09/01
アプリの国際化は単に表示されるテキストの翻訳にとどまるものではありません。このセッションでは、開発者とユーザーの双方の視点から、様々な地域で使われる iOS アプリの開発を通して得られた具体的な事例を踏まえ、アプリの国際化で必要となる技術的な知識、避けては通れない問題とその対策、そして今後のアプリ開発における課題について検討します。自分のアプリを海外のユーザーにも使ってもらいたい。アプリを翻訳したのにあまり使ってもらえない。あるいは、海外のアプリで日本語が使えないのは何故なのか。海外のアプリの挙動がおかしいけれど何故そうなるのかわからない。そんな疑問を持った方を対象とします。このセッションでは以下のトピックについて扱う予定です - Unicode についての知識と絵文字の貢献 - 日本語入力や複雑な文字の問題 - ユーザーインターフェイスとコンテンツの国際化 - 開発チームの国際化
- i18n
- あとで読む
- 開発
- unicode
- slide
- 国際化
- iOS
- アプリ
- Development
Unicode をレンダリングするときは言語情報を渡しましょう - blog.8-p.info
- 84 users
- blog.8-p.info
- テクノロジー
- 2022/10/01
ソフトウェアの日本語文字が中華フォントに侵食されていて想像以上の危機らしい「違和感すごい」というのが盛り上がっていた。「想像以上」は主観的だけど、個人的にはちょっと煽りすぎのように思った。前提: Han Unification はひっくりかえせないそもそも、UTF-8 がよく使われるようになって、絵文字もはいった UCS で、Han Unification しなくてもいいのでは、という話はある。でもこれは後の祭りで、今更ひっくりかえすのは無理だと思うので、ここでは検討しません。ユーザー側の言語情報を参照すれば、日本語のグリフは選べるほとんどの OS には、このユーザーの言語はこれですよ、という情報があって、それでメニューやボタンの文字が日本語になる。日付の表示方法とかも、これを参照する。統合漢字でも日本語のグリフでレンダリングしたい、というのは、8割くらいはこれで解決するはな
UTF-8 の文字列をできる限り Shift_JIS に変換したい - きりきりやま
- 82 users
- kirikiriyamama.hatenablog.com
- テクノロジー
- 2020/08/05
Shift_JIS の CSV で連携する外部サービスがあり、DB では UTF-8 でテキストを持っていたため文字コードを変換する必要が生じた。ところが UTF-8 に存在する多くの文字は Shift_JIS に対応がないため変換することができない1。そこで、事前に NFKC 形式で Unicode 正規化することで変換可能な文字を増やすことを試みた。まずは Unicode 正規化の前提として、Unicode の正準等価と互換等価について説明する。以降の U+16進数という表記は Unicode のコードポイント (文字に ID のようなものが割り当てられている) を示す。また、コードポイントに対応する文字の詳細は https://codepoints.net/ といったサイトで確認することができる。正準等価例として、ひらがなの「が」について考える。Unicode では「
What is black and white and read all over?
- 81 users
- developers.googleblog.com
- テクノロジー
- 2022/05/01
Noto emoji, a new black and white emoji font with less color, may gain us more in the long run Posted by Jennifer Daniel, Creative Director - Emoji & Expression In 1999 — back when Snake 🐍 was the best thing about your phone 📱 — there were three phone carriers in Japan 🗾 . On these phones were tiny, beautiful pictures called emoji (meaning “picture” and “character” in Japanese 🥰). These 176 im
- font
- emoji
- 絵文字
- フォント
- あとで読む
- icon
- google
キャラ名に「ソ」をいれるとバグる！　古参開発者「うっ……頭の中で何かが……」／「ドカポンキングダムコネクト」で起きたShift_JIS文字コードの「ダメ文字」問題って？【やじうまの杜】
- 80 users
- forest.watch.impress.co.jp
- テクノロジー
- 2023/04/14
- 文字コード
- programming
- bug
- プログラミング
- ブログ
- ゲーム
- 開発
- development
- game
(プログラマのための)いまさら聞けない標準規格の話第2回文字コード実践編 | オブジェクトの広場
- 79 users
- www.ogis-ri.co.jp
- テクノロジー
- 2021/08/19
プログラマがシステム開発において共通で必要となる、技術と業務の狭間の共通知識を解説します。連載第2回は文字コードの実践編です。 0. 前回の復習と今回の概要システム開発で必要となる標準規格の話、前回は文字コードの概要について説明しました。ざっくりまとめるとこんな内容でした。「符号化文字集合」で文字集合と符号位置を定義し、「符号化方式」でバイト表現に変換していること。日本では、しばらく文字集合 JIS X 0208 を、ISO-2022-JP、EUC-JP、Shift_JIS の符号化方式で利用してきたこと。近年は、世界中の文字が扱える Unicode が主流となっており、UTF-8、UTF-16 などの符号化方式があること。常用漢字、人名用漢字に限っても、字体を正確に扱おうとすると、JIS X 0208 の範囲では不十分であり、JIS X 0213、Unicode、サロゲートペ
- 文字コード
- java
- あとで読む
- Encoding
- Unicode
- コード
- 漢字
- エンジニア
Windows 11、レジストリの非ASCII文字利用で動作不良に
- 77 users
- pc.watch.impress.co.jp
- テクノロジー
- 2021/10/12
MySQL 8.0のクライアントでMySQL 5.7のサーバーに接続するとcharsetが設定されないかもしれない - かみぽわーる
- 73 users
- blog.kamipo.net
- テクノロジー
- 2021/02/21
mysql_options(mysql, MYSQL_SET_CHARSET_NAME, cs_name) だけして mysql_real_connect(mysql, ...) した後SHOW VARIABLESしてみたら接続のcharsetが設定済みの挙動をするんやけどmysql_real_connectからの一連のコード読んでもどこでそれが起きるのかわからん誰かたすけて🥲https://t.co/ZScoD3tIQ8— Ryuta Kamizono (@kamipo) February 20, 2021 MySQLのハンドシェイクパケットにcollation_idを1バイトだけ入れられるところがあって、charset name のデフォルトの collation_id を送っています。クライアントとサーバーのバージョンが違うとデフォルトのcollation_idが違うことがあって
- mysql
- encoding
- あとで読む
- DB
`<meta charset="UTF-8">` を書く必要性があるケースとデメリット
- 73 users
- blog.w0s.jp
- テクノロジー
- 2021/02/09
HTML 文書内に <meta charset="UTF-8"> を書いていますか? 書いているとしたら、その必要性を問われた時に理由を説明できますか? 実は私も勘違いしていた部分があり[1]、改めてまとめてみました。 <meta> による文字エンコーディング指定の歴史 Content-Type ヘッダーと <meta> の関係性と優先度 <meta> が必要なケース <meta> で文字エンコーディングを指定するデメリット <meta> による文字エンコーディング指定の歴史 § まず基本的なおさらいをします。<meta charset="UTF-8"> は HTML5 で登場した新しい記法で、 HTML4 以前は <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> などという長くて覚えにくい書き方をしてい
文字エンコーディングの検出方法
- 72 users
- heartbeats.jp
- テクノロジー
- 2021/05/13
こんにちは、技術開発室の滝澤です。最近（2021年春）、Go言語でメールパーサーを書く機会があり、備忘録的な意味でも知見をまとめておこうかなと思い、この記事を書きました。メールパーサーを書いていて考慮しないといけないことの一つは、文字エンコーディング（charset）が正しく指定されていないメールがときどきあることです。 MIME（Multipurpose Internet Mail Extensions）関連のインターネット標準であるRFCが公開された1990年代や世間一般にインターネットメールが利用され始めた2000年代初期ならともかくとして、2021年にもなってまだその点を考慮しないといけないのはなかなかつらいことです。そのようなメールを取り扱うときには、文字エンコーディングの検出を行う必要があります。本記事ではその文字エンコーディングの検出方法について書いてみました。なお、