記事へのコメント38

    • 注目コメント
    • 新着コメント
    knok
    knok Adobe AI APIはほぼ完ぺきにセクションを抽出してくれるが高いのだよな…

    2024/02/25 リンク

    その他
    dexia2
    dexia2 AcrobatのOCRは絶妙に精度が悪いので、結局自分でOCRをかけて再チェックしてます。量が多いので、GoogleDriveではなく、AzureのAPIを自分で叩いてる。Acrobatの精度が上がって欲しい......

    2024/02/25 リンク

    その他
    yagigahana
    yagigahana コピペ -> Emacsで置換・矩形選択を駆使して手作業で整形、が個人的にはベストプラクティス

    2024/02/25 リンク

    その他
    ghrn
    ghrn まずWordで開く→参照で読み込みさせてみてる。ダメならOCR。テキスト主体ならOCRで充分だけど、ページ番号も拾うので、正規表現置換で整える。

    2024/02/25 リンク

    その他
    easy-breezy
    easy-breezy 過去に多くの人々がチャレンジしたやつ。抽出精度を求めると汎用性が低くなって大変だった。

    2024/02/25 リンク

    その他
    Kmusiclife
    Kmusiclife Adobe acrobatでテキスト認識させてChatGPTで整形。あっという間。

    2024/02/24 リンク

    その他
    akapeso
    akapeso ページ数少ないなら、画像として出力してGoogleキープに放り込むこむと、テキストを抽出してくれる。ページの端で改行が勝手に入るのが難点。

    2024/02/24 リンク

    その他
    mysql8
    mysql8 arXivが悪い

    2024/02/24 リンク

    その他
    theta
    theta ノイズのない綺麗なフォント表示なら確実にOCR出来ると思うじゃないですか。やってみればわかりますけど、全然そんなことないんだなこれがorz

    2024/02/24 リンク

    その他
    mr_yamada
    mr_yamada 画像化してOCRの方が手間がかからなかったりして。AIの進歩のほうが早そうだし。

    2024/02/24 リンク

    その他
    nmcli
    nmcli こういう情報ありがたい

    2024/02/24 リンク

    その他
    ht_s
    ht_s pdfじゃない&こんな高度な話じゃないけど右クリックや文章選択許さないサイトからhtmlタグつきのソース丸出しテキストChatGPT渡して「きれいにして」って言うだけでレシピの形に整えてくれるので助かってる。

    2024/02/24 リンク

    その他
    dekawo
    dekawo pdf to text

    2024/02/24 リンク

    その他
    xxxxxxxxlarge
    xxxxxxxxlarge Chat GPTに突っ込んだらどんなもんなのかな

    2024/02/24 リンク

    その他
    mohno
    mohno 「PDFビューアーを開き、全選択し、コピーペースト」←これで取り出せるヤツはいいけど、何でPDF化したのか、コピペで完全に文字化けするパターンがあったんだよな。OCRしても精度が悪くて、結局手作業で全部入力した。

    2024/02/24 リンク

    その他
    ToTheEndOfTime
    ToTheEndOfTime 精度でいえばCloud OCRの方がずっと良いです

    2024/02/24 リンク

    その他
    ni66ling
    ni66ling Unstructured, Grobid, PyMuPDFを検証してPyMuPDFが相対的によく、二段カラムにもおおよそ対応できたとのこと

    2024/02/24 リンク

    その他
    ch1248
    ch1248 PDFのText抜き出しは鬼門だからなあ……

    2024/02/24 リンク

    その他
    kamayan1980
    kamayan1980 PDFはPDF作成者がポンコツだとテキストデータがひどいことになるので、画像に変換したあとで読み取ったほうが安定する認識

    2024/02/24 リンク

    その他
    odz
    odz pdfminerとか?https://github.com/pdfminer/pdfminer.six

    2024/02/24 リンク

    その他
    hamanasawa
    hamanasawa よし、マクロ組んで全選択してコピーしたのをテキストエディタに貼り付けよう!

    2024/02/24 リンク

    その他
    at_yasu
    at_yasu AIでOCRが個人的にはすっきりするのかなといまは思う。

    2024/02/24 リンク

    その他
    tohokuaiki
    tohokuaiki PDFがどう作られているかによるからこんなの無理ゲー。画像化してOCRが一番いいのではないかな。

    2024/02/24 リンク

    その他
    hiroshe
    hiroshe Wordでそのまま開いても、結構いけるときあるで。

    2024/02/24 リンク

    その他
    ytn
    ytn Power automate desktop 意外とバカにできねーぞ?

    2024/02/24 リンク

    その他
    cyber_bob
    cyber_bob PDFをスクショ画像にしてGeminiに食わせたらスプレッドシートになるよ。

    2024/02/24 リンク

    その他
    H_He_Li_Be
    H_He_Li_Be 全選択してコピーアンドペーストで成功するのか。じゃあ失敗してるライブラリは何をやってるんだろう。画像認識で処理してるのかな。

    2024/02/24 リンク

    その他
    tanakatowel
    tanakatowel 画像にしてからgoogle driveに上げて、右クリでgoogle documentで開くと文字起こししてくれる。少ページならかなり楽。

    2024/02/24 リンク

    その他
    NLPer
    NLPer 自分はPDFMinerを使っている。文字単位で座標まで抜き出せるので、あとはPythonスクリプトでなんとかする。

    2024/02/24 リンク

    その他
    strawberryhunter
    strawberryhunter 素直に抜き出せる種類のPDFなら何も苦労は無いけど、そもそもアウトライン化されていたり、埋め込みサブセットフォントの何番目みたいな鬼畜なデータもあると聞く。全体を画像にする粗悪なPDFプリンタドライバもある。

    2024/02/24 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama

    これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましい...

    ブックマークしたユーザー

    • taka0024jp2024/04/08 taka0024jp
    • clavier2024/03/26 clavier
    • TakayukiN6272024/03/24 TakayukiN627
    • cretgp2024/03/16 cretgp
    • bootJP2024/03/06 bootJP
    • d128922024/03/02 d12892
    • o9bYGFqG2024/03/02 o9bYGFqG
    • mgl2024/02/28 mgl
    • misshiki2024/02/27 misshiki
    • stntaku2024/02/26 stntaku
    • fivestech2024/02/25 fivestech
    • kkeisuke2024/02/25 kkeisuke
    • knok2024/02/25 knok
    • jamg2024/02/25 jamg
    • makopy_inside2024/02/25 makopy_inside
    • wktk_msum2024/02/25 wktk_msum
    • dexia22024/02/25 dexia2
    • Sinn82024/02/25 Sinn8
    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事