[B! PDF操作][Python] masayoshinymのブックマーク

masayoshinym id:masayoshinym

PDF操作とPythonに関するmasayoshinymのブックマーク (7)

Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python
■イベント  ：第54回情報科学若手の会 https://wakate.connpass.com/event/222829/ ■登壇概要タイトル：Pythonを用いたPDFデータからの情報抽出 / Extraction data from PDF using Python 発表者：  技術本部 DSOC R&D研究員　青見樹 ▼Twitter https://twitter.com/SansanRandD
masayoshinym 2021/09/28
PDF操作

Python

ライブラリ

いつか試す
リンク
ゼロからはじめるPython(66) PythonとHTMLで手軽にPDF納品書を作ってみよう
テレワークが主流でいろいろな書類をオンラインで発行することが多くなっている。印刷も可能な電子的な書類と言えばPDFだ。ここでは、HTMLファイルからPDFを作成するツール「wkhtml topdf」を使って、手軽にPDFで納品書を作成してみよう。名前と値段を入力するとひな形を元にPDFを生成する HTMLからPDFを作成する「wkhtml topdf」を使ってみよう納品書などの書類を作るにはExcelなどのツールを使うのが一般的だ。ExcelにもPDFファイルも出力する機能が標準でついている。しかし、簡単なツールを利用してPDFを出力できればもっと便利です。プログラムを作って処理の自動化ができる。しかも、HTMLやCSSなどWebの技術を使ってPDFが出力できるなら、とても都合が良いと言える。というのも、そもそもHTMLはテキストをHTMLタグでタグ付けしただけのテキストファイルだ。つま
masayoshinym 2020/10/07
Python

PDF操作

ライブラリ

いつか試す
リンク
Google翻訳とPythonを使ってPDF論文を一発で翻訳する - Qiita
概要 Google翻訳APIをPythonで実行するでは、四苦八苦しながらも、Google翻訳APIにより、テキストファイルに書かれた英文を日本語に翻訳するPythonスクリプトを書いた。元々の動機は論文の翻訳する際に、ちまちまGoogle翻訳にコピペするのが面倒くさいということであった。そこで今回は、Pythonスクリプトを拡張し、PDFの論文を一気に翻訳するようにしたので共有したい。そもそもなんで日本語に翻訳して論文を読むの？もちろん、細かい内容は原文を精読する必要がある。そりゃそうだ。日本語で読む理由はなんといっても、論文の内容を俯瞰的に把握できるということに尽きる。俯瞰的に把握できることで、以下のメリットがある。俯瞰的に把握した上で原文を読むことになるため、より早く理解することができる。俯瞰的に把握できるため、原文を読む前に、自分にとって読む必要がある論文かどうかか
masayoshinym 2020/07/27
Python

PDF操作

実装テク

いつか試す

英語
リンク
【自動化】PDF内の表をPythonで抜き出す - Qiita
PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。表がPDFの中に埋め込まれているケースも割とあります。例えば平成30年全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。この表を選択して、Excelにコピペしてみましょう。コピーして、Excelに貼り付けます。おや？うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。実はPythonを使ってこのPDF中の表を比較的簡単にcsvやExcelに変換することができます。 PythonでPDFの表をcsvに PythonでPDF内の表(テーブル)をcsvやexcelに変換する手順は2ステップです。ステップ1. PDFから表をpandasのData
masayoshinym 2020/06/29
Python

pandas

プログラミング系読物

実装テク

PDF操作
リンク
Extracting JPGs from PDFs
I was trying to diagnose a probl em with a PDF file we generated yesterday, and suspected that the images were corrupted. To see, I wrote this quick script to extract JPGs from PDF files. It is quick and dirty, with the absolute minimum understanding of PDF files, which can be quite opaque. # Extract jpg's from pdf's. Quick and dirty. import sys pdf = file(sys.argv[1], "rb").read() startmark = "\xf
masayoshinym 2015/07/28
Python

PDF操作
リンク
PythonでKindle用自炊PDFを作ろうと実験 - Qiita
#!/user/bin/env python # -*- coding: utf-8 -*- from reportlab.pdfgen import canvas from reportlab.rl_config import defaultPageSize canvas = canvas.Canvas("sample.pdf") PAGE_WIDTH = defaultPageSize[0] PAGE_HEIGHT = defaultPageSize[1] canvas.drawInlineImage("test.jpg", 0, 0, PAGE_WIDTH, PAGE_HEIGHT) canvas.save() print ("Success")
masayoshinym 2015/04/09
Python

PDF操作

kindle
リンク
Python3でpdfを作る多分一番簡単な方法 - Qiita
結論から wkhtml2pdfをインストール html+cssで書類を整形する wkhtml2pdfでpdf化以上。あっPython関係無い！とにかく、2時間程度でpdf出力機能の実装がおわったので、時間ないときに良いと思います。参考：http://tdoc.info/blog/2012/09/19/wkhtml topdf.html 良い点と悪い点良い・書類をhtml+cssで作れるから超簡単。・特に、Webアプリにpdf出力機能をつける場合の親和性が良い。ブラウザで見えるものならpdfにできるわけなので、「書類ページ」を作ればいいだけ。ほかの一般ページと同列にテンプレートのメンテナンスができる。悪い・html+cssだから制御が限られる。主に縦方向の。書類の下余白とかどうでもいい場合だけ使える。 Pythonからwkhtml2pdfを呼ぶ方法コマンド叩けばいいだけだけど
masayoshinym 2014/06/12
Python

PDF操作
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx