■イベント :第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要 タイトル:Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者: 技術本部 DSOC R&D研究員 青見 樹 ▼Twitter https://twitter.com/SansanRandD
テレワークが主流でいろいろな書類をオンラインで発行することが多くなっている。印刷も可能な電子的な書類と言えばPDFだ。ここでは、HTMLファイルからPDFを作成するツール「wkhtmltopdf」を使って、手軽にPDFで納品書を作成してみよう。 名前と値段を入力するとひな形を元にPDFを生成する HTMLからPDFを作成する「wkhtmltopdf」を使ってみよう 納品書などの書類を作るにはExcelなどのツールを使うのが一般的だ。ExcelにもPDFファイルも出力する機能が標準でついている。しかし、簡単なツールを利用してPDFを出力できればもっと便利です。プログラムを作って処理の自動化ができる。 しかも、HTMLやCSSなどWebの技術を使ってPDFが出力できるなら、とても都合が良いと言える。というのも、そもそもHTMLはテキストをHTMLタグでタグ付けしただけのテキストファイルだ。つま
概要 Google翻訳APIをPythonで実行するでは、四苦八苦しながらも、Google翻訳APIにより、テキストファイルに書かれた英文を日本語に翻訳するPythonスクリプトを書いた。 元々の動機は論文の翻訳する際に、ちまちまGoogle翻訳にコピペするのが面倒くさいということであった。 そこで今回は、Pythonスクリプトを拡張し、PDFの論文を一気に翻訳するようにしたので共有したい。 そもそもなんで日本語に翻訳して論文を読むの? もちろん、細かい内容は原文を精読する必要がある。そりゃそうだ。 日本語で読む理由はなんといっても、論文の内容を俯瞰的に把握できるということに尽きる。 俯瞰的に把握できることで、以下のメリットがある。 俯瞰的に把握した上で原文を読むことになるため、より早く理解することができる。 俯瞰的に把握できるため、原文を読む前に、自分にとって読む必要がある論文かどうかか
PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData
I was trying to diagnose a problem with a PDF file we generated yesterday, and suspected that the images were corrupted. To see, I wrote this quick script to extract JPGs from PDF files. It is quick and dirty, with the absolute minimum understanding of PDF files, which can be quite opaque. # Extract jpg's from pdf's. Quick and dirty. import sys pdf = file(sys.argv[1], "rb").read() startmark = "\xf
#!/user/bin/env python # -*- coding: utf-8 -*- from reportlab.pdfgen import canvas from reportlab.rl_config import defaultPageSize canvas = canvas.Canvas("sample.pdf") PAGE_WIDTH = defaultPageSize[0] PAGE_HEIGHT = defaultPageSize[1] canvas.drawInlineImage("test.jpg", 0, 0, PAGE_WIDTH, PAGE_HEIGHT) canvas.save() print ("Success")
結論から wkhtml2pdfをインストール html+cssで書類を整形する wkhtml2pdfでpdf化 以上。あっPython関係無い! とにかく、2時間程度でpdf出力機能の実装がおわったので、時間ないときに良いと思います。 参考:http://tdoc.info/blog/2012/09/19/wkhtmltopdf.html 良い点と悪い点 良い ・書類をhtml+cssで作れるから超簡単。 ・特に、Webアプリにpdf出力機能をつける場合の親和性が良い。ブラウザで見えるものならpdfにできるわけなので、「書類ページ」を作ればいいだけ。ほかの一般ページと同列にテンプレートのメンテナンスができる。 悪い ・html+cssだから制御が限られる。主に縦方向の。書類の下余白とかどうでもいい場合だけ使える。 Pythonからwkhtml2pdfを呼ぶ方法 コマンド叩けばいいだけだけど
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く