[B! 文字コード] gogatsu26のブックマーク

変体仮名を使える「Android 15 Beta 2」が公開～「プライベートスペース」なども追加／今秋にも正式リリース

gogatsu26 2024/05/21

“「Android 15」には変体仮名フォントも含まれるとのこと。古いひらがなも表現できるようになる”

リンク

松竹梅はsortしても松竹梅になる - Lambdaカクテル

物事の順位付けをするとき、松竹梅という雅な表現がよく使われる。自分もよく使う。 blog.3qe.us コンピュータにとってもそうなのだろうか？そう考えた私は実際にソートしてみることにした。 % echo $LANG ja_JP.UTF-8 % sort --version sort (GNU coreutils) 9.3 Copyright (C) 2023 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>. This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permit

gogatsu26 2023/09/05

文字コード

リンク

文字化けした迷惑メールを自動翻訳してみたら… | BrainDead World

数多く届けられる迷惑メールの中で、最近、以下のように「文字化け」（正確には文字化けというより、訳のわからない日本語が示されている）で来るものがあります。「Amaおピげzon」という企業からのお知らせということになっています。何がどうなってこうなるのかわからないですが、ふと、「これ自動翻訳で英語にしたらどうなる？」と思い、Google で翻訳しましたら、何と、「ある程度ちゃんとした英語になる」のでした。以下のように翻訳が示されました。 Thank you for using Amd●●●zon. There is something wrong with your account. I’m going to roll it out, and I’m going to roll it out. Yano, I’m going to put my personal account on

gogatsu26 2023/09/04

文字コード

リンク

文字コード | 衆議院議員河野太郎公式サイト

2023.05.10 官報に使われる「官報文字」というものがあります。そこには渡辺さんの「辺」の異体字が１４０文字も登録されています。日本語の常用漢字には２１３６文字ありますが、そこには邉や邊などは入っていません。そこでＪＩＳの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも５５，２７０文字もあります。全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を２０１１年に策定し、それにあわせたフォントを作成し、無償で提供しています。この「文字情報基盤」（ＭＪ）には、５８，８６２文字が含まれています。しかし、このＭＪを全庁的に採用している自治体は、川口

gogatsu26 2023/05/11

文字コード

リンク

ChatGPTは文字コードをどのように解釈しているか　Unicodeの「日本語認識」「括弧の抽出」「旧字体と新字体の変換」を実験してみた

「YAPC（Yet Another Perl Conference）」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか土屋俊介氏：こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。（スライドを示して）昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、（ChatGPTが）文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。（スライ

gogatsu26 2023/05/10

文字コード

リンク

シナ「プ」スで困った話～Macの濁点、半濁点問題 - シナプス技術者ブログ

田畑2回目です。よろしくお願いします。先日業務中に困ってしまったMacの濁点、半濁点問題についてお話ししたいと思います。仕事環境概要起きたこと試してみたこと Macの濁点、半濁点問題シナフスだったら… 仕事環境概要現在WindowsとMacを二台使っています。 Windows(Windows10)はサイボウズなどの社内との情報のやり取りや、ExcelやWordなどを使う作業などに使っています。 Mac（macOS Mojave)ではVScodeやAdobeXDやIllustratorなどを使ってサイトの運用を行っています。そしてターミナルでgitを使ってファイルのバージョン管理を行っています。二台体制になったのはここ1年くらい。その前はWindowsのみ使ってました。起きたこと社内からPDFファイルの差し替え依頼あり。ファイル名は「シナプス○○申込書.pdf」というような

gogatsu26 2022/10/26

リンク

https://twitter.com/account_for_off/status/1509196707950645249

gogatsu26 2022/04/01

文字コード

リンク

UTF-8のテーブル(MySQL5.6)に竈門禰󠄀豆子が格納できない問題を調べてみた - Qiita

竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。実践まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse

gogatsu26 2022/02/03

リンク

浜尻六彁 🍄💨 はまじりろっか on Twitter: "西アフリカのリベリアやシエラレオネに12万人くらい話者がいるヴァイ語のヴァイ文字、グラフィカルで良いだけでなく、代用アルファベットとしても使えて有能 ꗇ ꕙ ꕆ ꕒ ꗍ ꗕ ꔈ ꖂ ꖔ ꔕ ꗣ ꘢ ꘈ ꖦ ꖴ ꘝ ꖶ ꕨ ꕷ ꔉ… https://t.co/aAJ2AhxHBx"

gogatsu26 2021/09/03

リンク

PDFをコピペするとなぜ“文字化け”が起きてしまうのか　変換テーブル“ToUnicode CMap”が原因だった

NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか？〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。原ノ味フォントの作成者細田真道氏（以下、細田）：細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という

gogatsu26 2021/05/26

“PDFの中にはToUnicode CMapが入っています。…コピペできるPDFには、これが入っています。逆にいうと、コピペできないPDFには入っていないということになります”

リンク

NFD → NFC - ganaware’s blog

nfd2c-0.1.zip 「OSXでUSBメモリ上のNFDファイル名のファイルへアクセス不能 - GANAwareはてな版」という問題をなんとかするために、ディレクトリを再帰的に辿り NFD なファイルを発見するプログラムを C# で書いてみました。 Usage: nfd2c [OPTIONS]... DIRECTORIES...: -R : ディレクトリを再帰的に辿る -r : NFD なファイル名を発見したら NFC へリネームする -d DEST_DIR : NFD なファイル名を持つファイルを見つけたら、DEST_DIR へ NFC 名でコピーする例: C:\> nfd2c.exe -R -d D:\copied\ .

gogatsu26 2020/11/15

リンク

PDF に謎の漢字が含まれるとき

gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた？この文字は康煕部首 (Kangxi Radicals) というもので、部首としての文字であるＭＳゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすいどこから来たのか？これらは（フォントに

gogatsu26 2020/10/02

“フォントに「メイリオ」を指定して長崎県とだけ書いた .docx ファイルを用意し、Microsoft Print to PDF を使って PDF に変換すると、「長 (U+9577)」が「⾧ (U+2FA7)」に変換される”

リンク

どうして？　「メモ帳」アプリで“々”を検索すると“々”以外の文字までマッチする／「ワードパッド」や「Microsoft Office」アプリでも……OSによっても違うらしい【やじうまの杜】

gogatsu26 2020/05/19

リンク

テキスト広告が文字化け→実は意図的だった？ Twitterのプロモーションが話題に【やじうまWatch】

gogatsu26 2020/04/27

“ハッシュタグも「#謾ｻ谿ｻ讖溷虚髫SAC_2045」と読めない状態になっており、一見するとテキストデータの入稿ミスに見えるのだが、実はミスを装って注目を集めるキャンペーンの一環だったのではという指摘がなされ”

文字コード

リンク

技術情報｜インクジェットプリンターのKGK紀州技研工業

文字コード検索このページでは入力した文字のコードを検索し、表示します。下の覧に文字を入力し、「検索」をクリックしてください。 ※表示するのは一文字だけです。複数の文字列を入力しても、最初の一文字だけが有効になります。 ※表示するコードは「区点番号」「JIS」「EUC-JP」「Shift-JIS」「ユニコード（utf-16）」「ユニコード（utf-8）」です。 ※部首、読みの例も同時に表示します。あくまで一例ですので、参考にどうぞ。 ※中国の規格（GB2312）に同じ文字がある場合はそのコードと読み（ピンイン）の例を表示します。 ※相当する簡体字がある場合はその簡体字と読みの例、GB2312コードを表示します。 ※正さを保証するものではありませんので、あらかじめご了承ください。

gogatsu26 2020/04/19

“文字コード検索このページでは入力した文字のコードを検索し、表示します。下の覧に文字を入力し、「検索」をクリックしてください。”

リンク

IPAが無償で提供している文字の検索システムがなかなかイケていると話題に／関連する文字をグラフで表示。異体字の一覧も可能【やじうまの杜】

gogatsu26 2020/04/19

リンク

文字化けでよく出てくる漢字の意味を調べて愛でる

1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。前の記事：無糖の飲みものに砂糖を入れる＞個人サイトほりげーインターネットは文字化けと共にあるインターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す

gogatsu26 2020/03/27

“極度乾燥(しなさい)を文字化けさせると、「讌ｵ蠎ｦ荵ｾ辯･(縺励↑縺輔＞)」になる。かっこいい！”

リンク

ゆうちょPayアプリで「佐々木」姓が認識されず、アカウント登録できないと話題に　現在は修正済み

ゆうちょ銀行のモバイル決済サービス「ゆうちょPay」で、「『佐々木』姓がアカウント登録できない」と話題になった。現在は修正済み。ゆうちょ銀行が5月8日に開始したモバイル決済サービス「ゆうちょPay」だが、「『佐々木』姓がアカウント登録できない」と、8日夜からTwitterなどで話題になった。ゆうちょ銀行は9日午後1時に、修正版を配信した。【修正：2019年5月9日午後3時　第1段落の文言の一部を変更しました】ゆうちょPayのスマートフォンアプリは、初回利用時にアカウント登録をする必要がある。アカウント登録はメールアドレスを入力した後に氏名やパスワード入力に進むのだが、9日11時に試したところ、Android版アプリで氏名の登録時に「佐々木」を入力すると、「ひらがな、カタカナ、漢字、アルファベットのみ入力してください」というエラーが出てしまい、先に進めなかった。名字を削ってみると、「

gogatsu26 2019/05/09

“名字を削ってみると、「々」の字がエラーの原因と分かる。つまり、「佐々木」の他、「佐々」「等々力」などの名字も登録できない。”

文字コード

リンク

知ってた？令和の「令」はそっくりな文字が文字コード上にもう1つ存在する【やじうまWatch】

gogatsu26 2019/04/03

中途半端に「気の利いた」OCR使うとそっちのほうばっかりで変換されたり

リンク

新元号「令和」と文字コード(主にUnicode)の問題

境真良@iU/GLOCOM/IPA（あーりん推し/芸能人スキャンダルネタ要らない） @sakaima 「令和」ですが、「令」はUnicode「U+4EE4」、UTF-8だと「E4 BB A4」、シフトJISだと「97DF」、また「和」はUnicode「U+548C」、UTF-8で「E5 92 8C」、シフトJISだと「9861」です。とりあえずご参考まで。 #さてお仕事ですよ 2019-04-01 11:46:49

gogatsu26 2019/04/02

リンク

はてなブックマーク

タグ

関連タグで絞り込む (21)

文字コードに関するgogatsu26のブックマーク (46)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第3週）

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス