[B! OCR][python] sawarabi0130のブックマーク

sawarabi0130 id:sawarabi0130

OCRとpythonに関するsawarabi0130のブックマーク (3)

PDFからテキストデータをうまく抜けるか実験（pdfminer.six)／Pythonサンプル - SE_BOKUのまとめノート的ブログ
目次 PDF形式のデータから、テキストを抜き出す Pythonで使えるPDFライブラリ比較 pdfminer.six pdfminer.six付属のツールpdf2txt.py pdfminerを使ったPythonプログラムシンプルなレイアウトのPDFで試す 2段組みの複雑なPDFで試す結論：プログラムのインプットにPDFは不適理由１：うまくいくPDFとうまくいかないPDFがある理由２：特にうざい2バイト文字が化ける問題 PDF形式のデータから、テキストを抜き出す PDF形式のデータから、テキストを抜き出して、何か処理する時のインプットデータにできないかと試してみた結果のご報告です。一口にPDFと言っても、様々なバージョンがあります。暗号化もできます。 ja.wikipedia.org そいういうバリエーションを吸収しないといけないなどと考えると、プログラミングでデータで使うには
sawarabi0130 2020/06/18
python

OCR
リンク
PythonでOCRを実行する方法 - ガンマソフト
PyOCRのインストール TesseractをインストールしておけばコマンドからOCRを実行できる状態になりますが、Pythonのライブラリから操作するとさらに使いやすくなります。ここでは、PyPIで公開されている「PyOCR」というライブラリを利用します。インストールは以下のようにpipで簡単にインストールできます。 > py -m pip install pyocr # または環境に応じて以下のコマンドを用いる > python -m pip install pyocr > python3 -m pip install pyocr PyOCRをインストールすると画像処理を行える「Pillow」というライブラリも一緒にインストールされます。 OCRを行うサンプル画像 Tesseractの確認テストでは背景がないシンプルな画像を使いましたが、ここでは背景に模様がある画像を用います。OC
sawarabi0130 2020/06/18
python

OCR
リンク
毎月数時間を要していたスキャンデータ整理をOCRで自動化した - 無駄と文化
企業活動をするなかで見積書や請求書といった書類を発送するシーンは多いですよね。私が勤める会社でもそういった書類をクライアントに郵送していますが、郵送する前の書類をスキャンしてスキャンデータを残しておく決まりになっています。書類を作るのに必要なデータはすべて手元にあるものの、現物のスキャンデータがあれば安心なのも分かります。書類に押したハンコを記録しておく意味もあるのかも知れません。スキャンしたPDFの整理が負担にしかし、毎月何百枚という書類のスキャンを取り発送するなかで、スキャンデータを整理する作業が負担になっていました。スキャンを取る作業自体は書類の束をスキャナーに突っ込むだけなのですが、そうやって出来上がったPDFファイルはファイル名が無機質な連番になっています。後で参照するときに目的のスキャンデータを探すことを考えると、一つひとつに適切なファイル名を付け直しておく必
sawarabi0130 2020/06/08
python

pdf

ocr

自動化
リンク
1