Table TransformerとGPT-4Vを用いたPDF内の表の解析｜QunaSys

テクノロジーカテゴリーの変更を依頼記事元:

note.com/qunasys

12 usersがブックマークコメント

記事へのコメント2件

注目コメント
新着コメント

misshiki “Microsoftが公開しているTable Transformerというモデルを使用します。Table TransformerはPDFや画像から表部分だけを検出する深層学習モデルです”

2024/03/13 リンク

sh19910711 "PDFに含まれる表をRAGで扱う / Table Transformer: Microsoftが公開 + PDFや画像から表部分だけを検出する深層学習モデル / 取得した表の画像と質問文をGPT-4Vに投げて、回答を生成 / AutoModelForObjectDetection"

2024/03/13 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

Table TransformerとGPT-4Vを用いたPDF内の表の解析｜QunaSys

RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があり... RAGは非常に有用なツールですが、PDFの論文などを扱う際には、表データを正しく読み取れない場合があります。表の構造を適切に処理することは難しく、いくつかの改善策が提案されています。例えば、RAGを構築するのに使われるライブラリであるLlamaIndexのドキュメントに以下のような情報があります。このドキュメントでは表を含むデータを扱う方法として、PDFを一旦すべて画像データに変換し、画像として表の形式を保持したままGPT-4Vでデータを解析することを提案しています。ただ、PDF1ページ分の画像をそのままGPT-4Vに解析させても精度はあまり良くないようで、後述するTable Transf ormerを使って表部分の画像のみ抽出してから解析を行うことで、より良い結果が得られたのことでした。本記事では、この方法を用いてPDF内の表の解析を試してみます。手順としては 1. PDFの全