タグ

pdfに関するvvakameのブックマーク (12)

  • PDFから「使える」テキストを取り出す(第6回) - golden-luckyの日記

    今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。 大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログラミングで自作できる範囲です。 しかし、べつにわざわざ自作しなくても、「PDFからテキストデータを取り出す」ためのツールなら世の中にはすでにいくつもあります。 特に有名で昔からよく使われているのは、Xpdf由来のpdftotextでしょう。 pdftotext http://www.xpdfreader.com/ XpdfからはPopplerが分派しているので、Poppler版のpdftotextもあります。 また、pdfminerというツールもあります。 pdfminer https://www.unixuser.org/~euske/py

    PDFから「使える」テキストを取り出す(第6回) - golden-luckyの日記
    vvakame
    vvakame 2019/12/09
  • PDFから「使える」テキストを取り出す(第5回) - golden-luckyの日記

    昨日の記事では、PDFのコンテンツストリームから文字を読めたことにして、その文字をテキストとして再構築する話をしました。 今日は昨日までの話の締めくくりとして、「PDFごとにカスタムなテキスト取り出し」の話をするつもりだったのですが、その前に文字とコンテンツストリームについて落穂拾いをしておくことにしました。 というのは、昨日までの記事への反応を見ていて、こののことをちょっと思い出したからです。 John Whitington 著、村上雅章 訳 『PDF構造解説』(オライリー・ジャパン、2012年5月) このPDFのドキュメント構造を知りたい人が最初に読むにはぴったりだと思います。 自分で簡単なPDFを手書きしながら「PDFの中身がどうなっているのか」を学べるように書かれているので、ドキュメント構造やコンテンツストリームの雰囲気を手軽に体験できる良書です。 しかし、この「自分で簡単な

    PDFから「使える」テキストを取り出す(第5回) - golden-luckyの日記
    vvakame
    vvakame 2019/12/05
    しかのさんにお金を払って全部やってもらおうという気持ちになる(めっちゃ高そう
  • PDFから「使える」テキストを取り出す(第4回) - golden-luckyの日記

    昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。 いや当のことを言うと、まだ全然説明できてないんです。 でも、文字の話ばかりしていても先に進めないので、今日は(可能な場合には)PDFから文字を入手できるものとし、そこからテキストを再構築する話に進みます。 文字については改めて明後日にでも補足記事を書くかも(このシリーズはいちおう今日と明日で終わる予定)。 PDFオペレータを読むとグリフを置く場所がわかる 昨日に引き続き、次のようなテキストセクションで考えます。 グリフから文字の解決は済んでいるということにして、TJオペレータの引数は文字そのものに置き換えました。 BT /F1 12.4811 Tf 125.585 -462.55 Td [(#1)] TJ /F2 13.2657 Tf 19.932 0 Td [(代数的データ型とパター

    PDFから「使える」テキストを取り出す(第4回) - golden-luckyの日記
    vvakame
    vvakame 2019/12/05
    つらさが加速してきた
  • PDFから「使える」テキストを取り出す(第3回) - golden-luckyの日記

    昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q .913 0 0 .913 0 595.276 cm q 462.33906 0 0 655.95015 -3.064 -652.208 cm /Im24 Do Q 1 G 1 g BT /F1 12.4811 Tf 125.585 -462.55 Td[(#1)]TJ /F2 13.2657 Tf 19.932 0 Td[<0b450a3a0c2403c3029403bb0715037103cd03bb029403ef03da03bf03bd0377062c0ac5>] TJ

    PDFから「使える」テキストを取り出す(第3回) - golden-luckyの日記
    vvakame
    vvakame 2019/12/03
    まだつらそう
  • PDFから「使える」テキストを取り出す(第2回) - golden-luckyの日記

    昨日は、PDF来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。 ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。 まず昨日の記事で、「PDFには国際的な規格があり、これはAdobeから『PDFリファレンスマニュアル』という形で無償で入手できる」という話をしたことを思い出してください。 昨日は話のついでみたいな感じで書きましたが、実を言うと、このリファレンスの中に、「PDFファイルの中に書き込まれているグリフを表示するための情報からUnicodeなテキストを取り出す手法」がちゃんと書いてあるのです。 具体的には、『PDFリファレンスマニュアル第6版』の §5.9 "Extraction of Text Content"に、その情報が一応整理されています。 ただし、言

    PDFから「使える」テキストを取り出す(第2回) - golden-luckyの日記
    vvakame
    vvakame 2019/12/03
    Haskellだ
  • PDFから「使える」テキストを取り出す(第1回) - golden-luckyの日記

    PDFからテキストを取り出すのは、意外と大変です。 それにはいくつかの理由があるのですが、もっとも根的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵(「グリフ」)をコンピューターで扱えるような「文字」にする方法です。 これには2つのアプローチが考えられます。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る PDFファイルの中身を解析してテキストを抜き出す このうち2つめの話は明日以降にして、今日は1つめの話をします。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る方法 この方法は、言ってみれば、人間もしくは人間のように振る舞うソフトウェアによりPDFビューワーの表示を「視覚的に読む」ということです。 これはPDF来の使い道に即した手法です。 PDFというのは、グリフ(文字の形)をページ上に表示するための汎用の仕組

    PDFから「使える」テキストを取り出す(第1回) - golden-luckyの日記
    vvakame
    vvakame 2019/12/03
    つらみのはじまりだ…
  • 技術書典5の執筆環境棚卸し、あるいはLaTeXで「入稿に適した」PDFを吐く話

    TL;DR 技術書典5ありがとうございました 執筆環境晒すよ PDF入稿はトラブル少なくする方向でPDF吐かせようね という点をLaTeXでやるpdfx.sty 技術書典5の振り返り 弊サークル「CrypticCommand」は、技術書典5にてバージョン管理 with Pijulを頒布しました。 頒布数は100部持ち込んで69部とまずまず、我々のような弱小(被チェック数最適化していないとか、各種メディア勉強会露出していないとか、事前宣伝をTwitter以外でほとんどしていないとかそういう意味)サークルにおいては、ジャンルかぶりを回避して徹底的にニッチ方面にぶちこむのが結局は一番楽しめるのではないかなーと思いました。 残部はBoothに搬送していますので、奇特にも欲しい方いらっしゃいましたら、在庫反映まで今しばらくお待ちください。 執筆環境の棚卸し さて、技術書典における執筆環境共有は大事だ

    技術書典5の執筆環境棚卸し、あるいはLaTeXで「入稿に適した」PDFを吐く話
    vvakame
    vvakame 2018/10/15
    はぇ〜〜pdfx.sty
  • 41項目のPDF料理を紹介する『PDF CookBook』4月発行! 技術書典4 でも販売します | 電子書籍、電子出版のCAS-UBブログ

    vvakame
    vvakame 2018/04/20
    買お
  • pdfium - Git at Google

    88ad55a Make fxge::FontEncoding independent from FT_Encoding by Lei Zhang · 14 hours ago main7b129a2 Encapsulate FT_Get_First_Char() and FT_Get_Next_Char() by Lei Zhang · 16 hours ago704cc48 Fix regression where FPDFText_FindNext() cannot find the search term by Lei Zhang · 31 hours ago chromium/6199 chromium/6200471679d Use the dedicated ConfigurePartitionsForTesting() by Bartek Nowierski · 31 ho

  • The Blog | Welcome to Adobe Blog

    The Blog | Welcome to Adobe Blog アドビのブログでは、Creative Cloud、Document Cloud、Experience Cloudの最新情報や役に立つ情報を紹介しています。

    The Blog | Welcome to Adobe Blog
    vvakame
    vvakame 2017/02/14
  • 詳細PDF入門 ー 実装して学ぼう!PDFファイルの構造とその書き方読み方 - プログラムモグモグ

    PDFのファイル構造を理解すると、テキストエディタでも直接PDFファイルを作ることができるようになります。このエントリーではPDFファイルの基礎要素を説明し、簡単なPDFファイルを例にしてファイル構造を説明します。更に、テキストを渡すとPDFファイルを吐いてくれる簡単なプログラムや、PDFを読み込んで簡単な解析をするプログラムを書いてみます。 目次 目次 まえがき オブジェクト 間接参照 ファイル構造 Hello, world! ヘッダ トレーラ 相互参照テーブル PDFを生成するプログラム 日語の扱い方 日語を含むPDFを生成するプログラム グラフィックス PDFを読むプログラム あとがき まえがき 1990年代前半、アドビシステムズは、どのプラットフォームやデバイスでも文書を確実に表示・共有できることを目的としてPDFファイルフォーマットを開発しました。 PDFの表示ソフト

    詳細PDF入門 ー 実装して学ぼう!PDFファイルの構造とその書き方読み方 - プログラムモグモグ
    vvakame
    vvakame 2015/09/16
    やべぇ超大作だ…
  • pdf2htmlEX - TeX Wiki

    pdf2htmlEX とは † pdf2htmlEX は PDF ファイルを HTML ファイルに変換するソフトウェアです. pdf2htmlEX by coolwanglu pdf2htmlEX FAQ WANG Lu (coolwanglu) - Twitter語で返信していただいてもかまいません。 ↑ MinGW † Poppler - TeX Wiki を参照して Poppler をインストールします.(pdf2htmlEX をビルドする場合 Poppler は configure で Makefile を作成してインストールしてください) pango をインストールします. $ curl --insecure -R -L -O https://download.gnome.org/sources/pango/1.36/pango-1.36.8.tar.xz $ tar xv

    vvakame
    vvakame 2013/10/24
  • 1