タグ

ブックマーク / gist.github.com/xl1 (1)

  • PDF に謎の漢字が含まれるとき

    gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた? この文字は 康煕部首 (Kangxi Radicals) というもので、部首としての文字である MS ゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすい どこから来たのか? これらは(フォント

    PDF に謎の漢字が含まれるとき
    kenjiro_n
    kenjiro_n 2020/10/02
    部首漢字が悪さをするという話。この概念が広まっていないということでか「謎の漢字」というタイトルになっている。
  • 1