easy-breezyのブックマーク - はてなブックマーク

pdfからtextを抜き出す試行錯誤のメモ｜Kan Hatakeyama
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。参考記事導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。解析コード： from unstructured.partition.pdf import partition_pdf pdf_elements = partition_pdf("pdf/7_71_5.pdf") 表示コード： for structure in pdf_elements: print(structure) 結果：残念ながら、2段組のカラムを正確に検出することはできませんでした。 Grobidを使うGrobidは、peS2oというオープンアクセス論文のコ
easy-breezy 2024/02/25
過去に多くの人々がチャレンジしたやつ。抽出精度を求めると汎用性が低くなって大変だった。
リンク
1

はてなブックマーク