物事の順位付けをするとき、松竹梅という雅な表現がよく使われる。自分もよく使う。 blog.3qe.us コンピュータにとってもそうなのだろうか?そう考えた私は実際にソートしてみることにした。 % echo $LANG ja_JP.UTF-8 % sort --version sort (GNU coreutils) 9.3 Copyright (C) 2023 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL version 3 or later <https://gnu.org/licenses/gpl.html>. This is free software: you are free to change and redistribute it. There is NO WARRANTY, to the extent permit
数多く届けられる迷惑メールの中で、最近、以下のように「文字化け」(正確には文字化けというより、訳のわからない日本語が示されている)で来るものがあります。 「Amaおピげzon」という企業からのお知らせということになっています。 何がどうなってこうなるのかわからないですが、ふと、「これ自動翻訳で英語にしたらどうなる?」と思い、Google で翻訳しましたら、何と、 「ある程度ちゃんとした英語になる」 のでした。 以下のように翻訳が示されました。 Thank you for using Amd●●●zon. There is something wrong with your account. I’m going to roll it out, and I’m going to roll it out. Yano, I’m going to put my personal account on
2023.05.10 官報に使われる「官報文字」というものがあります。 そこには渡辺さんの「辺」の異体字が140文字も登録されています。 日本語の常用漢字には2136文字ありますが、そこには邉や邊などは入っていません。 そこでJISの第四水準までを含むJIS X 0213という標準を定め、スマホやパソコンではここまでを標準的に表示できるようにしています。 ところが我が国の戸籍で使ってもよいとされている文字はそれを遙かに超えていて、少なくとも55,270文字もあります。 全ての国民の氏名をコンピュータで扱えるようになることを目指して、戸籍統一文字や住基ネット用の統一文字を網羅した「文字情報基盤」を2011年に策定し、それにあわせたフォントを作成し、無償で提供しています。 この「文字情報基盤」(MJ)には、58,862文字が含まれています。 しかし、このMJを全庁的に採用している自治体は、川口
「YAPC(Yet Another Perl Conference)」は、Perlを軸としたITに関わるすべての人のためのカンファレンスです。ライトニングトークにはPR TIMES インターンのShun氏が登壇。ChatGPTと文字コードについて話します。 ChatGPTは文字コードをどのように解釈しているか 土屋俊介氏:こんにちは。先ほど、発表が4分だと知った土屋です。PR TIMESというところで、機械学習のインターンをしています。 (スライドを示して)昨今、ChatGPTというものがメチャメチャはやっていますよね。私は使っていく中で、(ChatGPTが)文字コードをどのように解釈しているかが気になりました。なぜそんなニッチな話が気になるのかというと、自然言語処理とWebに関わっている以上、文字コードに関するプログラムをよく書くんです。その関係で気になったので調べてみました。 (スライ
田畑2回目です。よろしくお願いします。 先日業務中に困ってしまったMacの濁点、半濁点問題についてお話ししたいと思います。 仕事環境概要 起きたこと 試してみたこと Macの濁点、半濁点問題 シナフスだったら… 仕事環境概要 現在WindowsとMacを二台使っています。 Windows(Windows10)はサイボウズなどの社内との情報のやり取りや、ExcelやWordなどを使う作業などに使っています。 Mac(macOS Mojave)ではVScodeやAdobeXDやIllustratorなどを使ってサイトの運用を行っています。そしてターミナルでgitを使ってファイルのバージョン管理を行っています。 二台体制になったのはここ1年くらい。その前はWindowsのみ使ってました。 起きたこと 社内からPDFファイルの差し替え依頼あり。ファイル名は「シナプス○○申込書.pdf」というような
竈門禰󠄀豆子をMySQL5.6のテーブルにinsertしようとすると正しく格納できず、竈門禰となってしまうケースがあるという話を聞き、調べてみました。 実践 まずは試しにやってみます。 mysql> show create table verification\G *************************** 1. row *************************** Table: verification Create Table: CREATE TABLE `verification` ( `name` varchar(100) COLLATE utf8_bin DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin 1 row in set (0.01 sec) mysql> inse
NTT Tech Conferenceは、NTTグループのエンジニアたちが一堂に会し、NTTグループ内外のエンジニアたちと技術交流を行うためのカンファレンスです。ここで、細田氏が「PDFのコピペが文字化けするのはなぜか?〜CID/GIDと原ノ味フォント〜」をテーマに話します。まずは文字化けが起こってしまう原因について。 原ノ味フォントの作成者 細田真道氏(以下、細田):細田です。ふだんはNTTグループのどこかでDXな仕事をしていますが、今日はぜんぜん仕事とは関係なく、個人的にやっているオープンソースなどの話をしたいと思います。よろしくお願いします。 簡単に自己紹介をします。楽譜を作成するプログラム「LilyPond」のコミッターと、GNUの公式文書フォーマット「Texinfo」のコミッターをしています。あとで話しますが、「原ノ味フォント」を作っていて、すごく似たような名前で「原ノ町」という
nfd2c-0.1.zip 「OSXでUSBメモリ上のNFDファイル名のファイルへアクセス不能 - GANAwareはてな版」という問題をなんとかするために、ディレクトリを再帰的に辿り NFD なファイルを発見するプログラムを C# で書いてみました。 Usage: nfd2c [OPTIONS]... DIRECTORIES...: -R : ディレクトリを再帰的に辿る -r : NFD なファイル名を発見したら NFC へリネームする -d DEST_DIR : NFD なファイル名を持つファイルを見つけたら、DEST_DIR へ NFC 名でコピーする 例: C:\> nfd2c.exe -R -d D:\copied\ .
gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日本語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた? この文字は 康煕部首 (Kangxi Radicals) というもので、部首としての文字である MS ゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすい どこから来たのか? これらは(フォントに
文字コード検索 このページでは入力した文字のコードを検索し、表示します。 下の覧に文字を入力し、「検索」をクリックしてください。 ※表示するのは一文字だけです。複数の文字列を入力しても、最初の一文字だけが有効になります。 ※表示するコードは「区点番号」「JIS」「EUC-JP」「Shift-JIS」「ユニコード(utf-16)」「ユニコード(utf-8)」です。 ※部首、読みの例も同時に表示します。あくまで一例ですので、参考にどうぞ。 ※中国の規格(GB2312)に同じ文字がある場合はそのコードと読み(ピンイン)の例を表示します。 ※相当する簡体字がある場合はその簡体字と読みの例、GB2312コードを表示します。 ※正さを保証するものではありませんので、あらかじめご了承ください。
1992年三重生まれ、会社員。ゆるくまじめに過ごしています。ものすごく暇なときにへんな曲とへんなゲームを作ります。 前の記事:無糖の飲みものに砂糖を入れる > 個人サイト ほりげー インターネットは文字化けと共にある インターネットが普及して20年をゆうに超える。メール、添付ファイル、Webブラウザなど、様々な場面で我々は文字化けに苦しめられてきたし、今でもたまに苦しめられる。「文字が化ける」と書いて文字化け。そこにはお化けみたいで悪いイメージがあるが、それも仕方がない。読めないのだから。必要な情報が読めないのはシンプルに悪いことだ。 DPZの記事を無理やり文字化けさせてみると、こうなる。 でも、一方的に文字化けを避けていては、文字化けと仲良くなれない。文字が化けた先にあるのは文字だ。化ける前の文字ばかり愛していては、化けた後の文字がかわいそうではないか。我々は、化けた後の文字をもっと愛す
ゆうちょ銀行のモバイル決済サービス「ゆうちょPay」で、「『佐々木』姓がアカウント登録できない」と話題になった。現在は修正済み。 ゆうちょ銀行が5月8日に開始したモバイル決済サービス「ゆうちょPay」だが、「『佐々木』姓がアカウント登録できない」と、8日夜からTwitterなどで話題になった。ゆうちょ銀行は9日午後1時に、修正版を配信した。 【修正:2019年5月9日午後3時 第1段落の文言の一部を変更しました】 ゆうちょPayのスマートフォンアプリは、初回利用時にアカウント登録をする必要がある。アカウント登録はメールアドレスを入力した後に氏名やパスワード入力に進むのだが、9日11時に試したところ、Android版アプリで氏名の登録時に「佐々木」を入力すると、「ひらがな、カタカナ、漢字、アルファベットのみ入力してください」というエラーが出てしまい、先に進めなかった。 名字を削ってみると、「
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く