タグ

OCRとpythonに関するsawarabi0130のブックマーク (3)

  • PDFからテキストデータをうまく抜けるか実験(pdfminer.six)/Pythonサンプル - SE_BOKUのまとめノート的ブログ

    目次 PDF形式のデータから、テキストを抜き出す Pythonで使えるPDFライブラリ比較 pdfminer.six pdfminer.six付属のツールpdf2txt.py pdfminerを使ったPythonプログラム シンプルなレイアウトのPDFで試す 2段組みの複雑なPDFで試す 結論:プログラムのインプットにPDFは不適 理由1:うまくいくPDFとうまくいかないPDFがある 理由2:特にうざい2バイト文字が化ける問題 PDF形式のデータから、テキストを抜き出す PDF形式のデータから、テキストを抜き出して、何か処理する時のインプットデータにできないかと試してみた結果のご報告です。 一口にPDFと言っても、様々なバージョンがあります。 暗号化もできます。 ja.wikipedia.org そいういうバリエーションを吸収しないといけないなどと考えると、プログラミングでデータで使うには

    PDFからテキストデータをうまく抜けるか実験(pdfminer.six)/Pythonサンプル - SE_BOKUのまとめノート的ブログ
  • PythonでOCRを実行する方法 - ガンマソフト

    PyOCRのインストール TesseractをインストールしておけばコマンドからOCRを実行できる状態になりますが、Pythonのライブラリから操作するとさらに使いやすくなります。 ここでは、PyPIで公開されている 「PyOCR」というライブラリを利用します。インストールは以下のようにpipで簡単にインストールできます。 > py -m pip install pyocr # または環境に応じて以下のコマンドを用いる > python -m pip install pyocr > python3 -m pip install pyocr PyOCRをインストールすると画像処理を行える「Pillow」というライブラリも一緒にインストールされます。 OCRを行うサンプル画像 Tesseractの確認テストでは背景がないシンプルな画像を使いましたが、ここでは背景に模様がある画像を用います。OC

    PythonでOCRを実行する方法 - ガンマソフト
  • 毎月数時間を要していたスキャンデータ整理をOCRで自動化した - 無駄と文化

    企業活動をするなかで見積書や請求書といった書類を発送するシーンは多いですよね。 私が勤める会社でもそういった書類をクライアントに郵送していますが、郵送する前の書類をスキャンしてスキャンデータを残しておく決まりになっています。 書類を作るのに必要なデータはすべて手元にあるものの、現物のスキャンデータがあれば安心なのも分かります。 書類に押したハンコを記録しておく意味もあるのかも知れません。 スキャンしたPDFの整理が負担に しかし、毎月何百枚という書類のスキャンを取り発送するなかで、スキャンデータを整理する作業が負担になっていました。 スキャンを取る作業自体は書類の束をスキャナーに突っ込むだけなのですが、そうやって出来上がったPDFファイルはファイル名が 無機質な連番 になっています。 後で参照するときに目的のスキャンデータを探すことを考えると、一つひとつに適切なファイル名を付け直しておく必

    毎月数時間を要していたスキャンデータ整理をOCRで自動化した - 無駄と文化
  • 1