forhatebuidのブックマーク - はてなブックマーク

forhatebuid id:forhatebuid

ブックマーク / a244.hateblo.jp (1)

財務省の公開した交渉記録PDFをいじるその2（本文データのOCR etc.） - 今日も微速転進
過去記事の続き。やはり実際のデータでデータ処理をやるのは勉強になります。 ……お金になるかは別にして、Pythonという言語の習熟度は向上しているはず。 a244.hateblo.jp 方針 OCR処理画像の抽出画像をPDFに変換・結合一括OCR JSON分割タブ区切りテキストののパース成果物反省点方針過去記事の方針を踏襲。目次のPDFから交渉記録（応接記録）を機械可読（Computer Readable）な形式に変換マスク無しのPDFを画像化、再度PDFに変換して過去記事で紹介したAPIでOCR 目次のページ番号から必要なページを割り出して、OCR結果を分割、どうにして添付資料のページを除去どうにかしてMarkdown化静的ページジェネレーターでWebページ化この記事の対象は上記の「2. 」と「3. 」です。 OCR処理といってもデータさえ用意すれば過去記事の
forhatebuid 2018/08/19
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx