タグ

PDFとUnicodeに関するgogatsu26のブックマーク (2)

  • PDF に謎の漢字が含まれるとき

    gistfile1.md PDF に謎の漢字が含まれるとき PDF などの中にある一部の日語の漢字が、見た目は同じだけど異なる謎の文字に変換されていることがある 例 1: https://www.mhlw.go.jp/content/10906000/000628667.pdf 「長野」と「長崎」の「長」が、 U+9577 ではなく「⾧ (U+2FA7)」になっている 例 2: https://www.dpri.kyoto-u.ac.jp/news/12739/ 大量にある、どうしてこうなった PDF ではないので何かからコピーして書いた? この文字は 康煕部首 (Kangxi Radicals) というもので、部首としての文字である MS ゴシックなど Kangxi Radicals の字形がないフォントを指定すると表示できないので区別しやすい どこから来たのか? これらは(フォント

    PDF に謎の漢字が含まれるとき
    gogatsu26
    gogatsu26 2020/10/02
    “フォントに「メイリオ」を指定して 長崎県 とだけ書いた .docx ファイルを用意し、Microsoft Print to PDF を使って PDF に変換すると、「長 (U+9577)」が「⾧ (U+2FA7)」に変換される”
  • mPDF

    A PHP class to generate PDF files from HTML with Unicode/UTF-8 and CJK supportA PHP class to generate PDF files from HTML with Unicode/UTF-8 and CJK support Updated 2/3/2011 Version 5.1 has been released (2/3/11) which reads directly from .ttf TrueType font files (see post in the Forum for more information) Change of domain/URLs I have recently moved the domain for this mPDF site and the Forum. M

  • 1