ブックマーク / a244.hateblo.jp (1)

  • 財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.) - 今日も微速転進

    過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理 画像の抽出 画像をPDFに変換・結合 一括OCR JSON分割 タブ区切りテキストののパース 成果物 反省点 方針 過去記事の方針を踏襲。 目次のPDFから交渉記録(応接記録)を機械可読(Computer Readable)な形式に変換 マスク無しのPDFを画像化、再度PDFに変換して過去記事で紹介したAPIでOCR 目次のページ番号から必要なページを割り出して、OCR結果を分割、どうにして添付資料のページを除去 どうにかしてMarkdown化 静的ページジェネレーターでWebページ化 この記事の対象は上記の「2. 」と「3. 」です。 OCR処理 といってもデータさえ用意すれば過去記事の

    財務省の公開した交渉記録PDFをいじる その2(本文データのOCR etc.) - 今日も微速転進
  • 1