[B! pdf] vvakameのブックマーク

PDFから「使える」テキストを取り出す（第6回） - golden-luckyの日記

今日まで延々と「PDFからテキストデータを取り出すのは大変」という話を続けてきましたが、その構造を見るにあたっては、 hpdft という自作のツールを使ってきました。大変とはいっても、まあ実現困難な話ではなく、この程度のPDFパーザであれば趣味プログラミングで自作できる範囲です。しかし、べつにわざわざ自作しなくても、「PDFからテキストデータを取り出す」ためのツールなら世の中にはすでにいくつもあります。特に有名で昔からよく使われているのは、Xpdf由来のpdftotextでしょう。 pdftotext http://www.xpdfreader.com/ XpdfからはPopplerが分派しているので、Poppler版のpdftotextもあります。また、pdfminerというツールもあります。 pdfminer https://www.unixuser.org/~euske/py

vvakame 2019/12/09

pdf

リンク

PDFから「使える」テキストを取り出す（第5回） - golden-luckyの日記

昨日の記事では、PDFのコンテンツストリームから文字を読めたことにして、その文字をテキストとして再構築する話をしました。今日は昨日までの話の締めくくりとして、「PDFごとにカスタムなテキスト取り出し」の話をするつもりだったのですが、その前に文字とコンテンツストリームについて落穂拾いをしておくことにしました。というのは、昨日までの記事への反応を見ていて、この本のことをちょっと思い出したからです。 John Whitington 著、村上雅章訳『PDF構造解説』（オライリー・ジャパン、2012年5月）この本、PDFのドキュメント構造を知りたい人が最初に読むにはぴったりだと思います。自分で簡単なPDFを手書きしながら「PDFの中身がどうなっているのか」を学べるように書かれているので、ドキュメント構造やコンテンツストリームの雰囲気を手軽に体験できる良書です。しかし、この「自分で簡単な

vvakame 2019/12/05

しかのさんにお金を払って全部やってもらおうという気持ちになる(めっちゃ高そう

pdf

リンク

PDFから「使える」テキストを取り出す（第4回） - golden-luckyの日記

昨日までで、PDFからテキストを取り出すにあたり、グリフから文字を手に入れるところまでを説明しました。いや本当のことを言うと、まだ全然説明できてないんです。でも、文字の話ばかりしていても先に進めないので、今日は（可能な場合には）PDFから文字を入手できるものとし、そこからテキストを再構築する話に進みます。文字については改めて明後日にでも補足記事を書くかも（このシリーズはいちおう今日と明日で終わる予定）。 PDFオペレータを読むとグリフを置く場所がわかる昨日に引き続き、次のようなテキストセクションで考えます。グリフから文字の解決は済んでいるということにして、TJオペレータの引数は文字そのものに置き換えました。 BT /F1 12.4811 Tf 125.585 -462.55 Td [(#1)] TJ /F2 13.2657 Tf 19.932 0 Td [(代数的データ型とパター

vvakame 2019/12/05

つらさが加速してきた

pdf

リンク

PDFから「使える」テキストを取り出す（第3回） - golden-luckyの日記

昨日の記事では、PDFのページに表示されるコンテンツはPDFのドキュメント構造を掘っていくと手に入れることができて、それはこんな姿をしているぞ、というところまで話が進みました。 $ hpdft -r 66 NML-book.pdf [ /Filter: /FlateDecode /Length: 381.0, q .913 0 0 .913 0 595.276 cm q 462.33906 0 0 655.95015 -3.064 -652.208 cm /Im24 Do Q 1 G 1 g BT /F1 12.4811 Tf 125.585 -462.55 Td[(#1)]TJ /F2 13.2657 Tf 19.932 0 Td[<0b450a3a0c2403c3029403bb0715037103cd03bb029403ef03da03bf03bd0377062c0ac5>] TJ

vvakame 2019/12/03

まだつらそう

pdf

リンク

PDFから「使える」テキストを取り出す（第2回） - golden-luckyの日記

昨日は、PDFの本来の用途は「人間がPDFをビューワーで開いて読む」ことなので、そこから文字を抜き出すのは一筋縄ではいかない、という話をしました。ではどうすればPDFファイルの中からテキストを取り出せるの、というのが今日の話の出発点です。まず昨日の記事で、「PDFには国際的な規格があり、これはAdobeから『PDFリファレンスマニュアル』という形で無償で入手できる」という話をしたことを思い出してください。昨日は話のついでみたいな感じで書きましたが、実を言うと、このリファレンスの中に、「PDFファイルの中に書き込まれているグリフを表示するための情報からUnicodeなテキストを取り出す手法」がちゃんと書いてあるのです。具体的には、『PDFリファレンスマニュアル第6版』の §5.9 "Extraction of Text Content"に、その情報が一応整理されています。ただし、言

vvakame 2019/12/03

Haskellだ

pdf

リンク

PDFから「使える」テキストを取り出す（第1回） - golden-luckyの日記

PDFからテキストを取り出すのは、意外と大変です。それにはいくつかの理由があるのですが、もっとも根本的な点で真っ先に解決が必要になるのは、人間が雑に文字としてみなしている絵（「グリフ」）をコンピューターで扱えるような「文字」にする方法です。これには2つのアプローチが考えられます。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る PDFファイルの中身を解析してテキストを抜き出すこのうち2つめの話は明日以降にして、今日は1つめの話をします。 PDFビューワーでファイルを開いた状態から何とかしてテキストを読み取る方法この方法は、言ってみれば、人間もしくは人間のように振る舞うソフトウェアによりPDFビューワーの表示を「視覚的に読む」ということです。これはPDFの本来の使い道に即した手法です。 PDFというのは、グリフ（文字の形）をページ上に表示するための汎用の仕組

vvakame 2019/12/03

つらみのはじまりだ…

pdf

リンク

技術書典5の執筆環境棚卸し、あるいはLaTeXで「入稿に適した」PDFを吐く話

TL;DR 技術書典5ありがとうございました執筆環境晒すよ PDF入稿はトラブル少なくする方向でPDF吐かせようねという点をLaTeXでやるpdfx.sty 技術書典5の振り返り弊サークル「CrypticCommand」は、技術書典5にてバージョン管理 with Pijulを頒布しました。頒布数は100部持ち込んで69部とまずまず、我々のような弱小（被チェック数最適化していないとか、各種メディア勉強会露出していないとか、事前宣伝をTwitter以外でほとんどしていないとかそういう意味）サークルにおいては、ジャンルかぶりを回避して徹底的にニッチ方面にぶちこむのが結局は一番楽しめるのではないかなーと思いました。残部はBoothに搬送していますので、奇特にも欲しい方いらっしゃいましたら、在庫反映まで今しばらくお待ちください。執筆環境の棚卸しさて、技術書典における執筆環境共有は大事だ

vvakame 2018/10/15

はぇ〜〜pdfx.sty

リンク

41項目のPDF料理を紹介する『PDF CookBook』4月発行！　技術書典4　でも販売します | 電子書籍、電子出版のCAS-UBブログ

vvakame 2018/04/20

買お

リンク

pdfium - Git at Google

88ad55a Make fxge::FontEncoding independent from FT_Encoding by Lei Zhang · 14 hours ago main7b129a2 Encapsulate FT_Get_First_Char() and FT_Get_Next_Char() by Lei Zhang · 16 hours ago704cc48 Fix regression where FPDF Text_FindNext() cannot find the search term by Lei Zhang · 31 hours ago chromium/6199 chromium/6200471679d Use the dedicated ConfigurePartitionsForTesting() by Bartek Nowierski · 31 ho

vvakame 2017/04/13

pdf
Chromium

リンク

The Blog | Welcome to Adobe Blog

The Blog | Welcome to Adobe Blog アドビのブログでは、Creative Cloud、Document Cloud、Experience Cloudの最新情報や役に立つ情報を紹介しています。

vvakame 2017/02/14

pdf

リンク

詳細PDF入門ー実装して学ぼう！PDFファイルの構造とその書き方読み方 - プログラムモグモグ

PDFのファイル構造を理解すると、テキストエディタでも直接PDFファイルを作ることができるようになります。このエントリーではPDFファイルの基礎要素を説明し、簡単なPDFファイルを例にしてファイル構造を説明します。更に、テキストを渡すとPDFファイルを吐いてくれる簡単なプログラムや、PDFを読み込んで簡単な解析をするプログラムを書いてみます。目次目次まえがきオブジェクト間接参照ファイル構造 Hello, world! ヘッダトレーラ相互参照テーブル本体 PDFを生成するプログラム日本語の扱い方日本語を含むPDFを生成するプログラムグラフィックス PDFを読むプログラムあとがきまえがき 1990年代前半、アドビシステムズは、どのプラットフォームやデバイスでも文書を確実に表示・共有できることを目的としてPDFファイルフォーマットを開発しました。 PDFの表示ソフト

vvakame 2015/09/16

やべぇ超大作だ…

pdf

リンク

pdf2htmlEX - TeX Wiki

pdf2htmlEX とは † pdf2htmlEX は PDF ファイルを HTML ファイルに変換するソフトウェアです． pdf2htmlEX by coolwanglu pdf2htmlEX FAQ WANG Lu (coolwanglu) - Twitter 日本語で返信していただいてもかまいません。 ↑ MinGW † Poppler - TeX Wiki を参照して Poppler をインストールします．(pdf2htmlEX をビルドする場合 Poppler は configure で Makefile を作成してインストールしてください) pango をインストールします． $ curl --insecure -R -L -O https://download.gnome.org/sources/pango/1.36/pango-1.36.8.tar.xz $ tar xv

vvakame 2013/10/24

pdf

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

pdfに関するvvakameのブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス