タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

excelとtextに関するkathewのブックマーク (2)

  • PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く

    いろいろなバイナリファイルからテキストデータを抜けるツールxdoc2txtで遊んでみました。これは、from EBシリーズ via Orbium保護されたPDFからテキストを抜き出すで知りました。これはスゴい! ポイントは2つ。 PDF、WORD、EXCEL、一太郎などの各種バイナリ文書から、テキスト要素を抽出する汎用テキストコンバータ。高速&強力ナリ 追加DLL(同サイトにあり)を併用することでパスワード無しで暗号化されたPDFから抜くことも可能 いちばんスゴかったのは、Rational Rose モデリングデータ(拡張子mdl)からテキストを抜き出せたこと。どれどれ… UseCase/UseCaseView stereotype superclasses relationshiplist quid , quidu (たぶんRoseモデル内のID) visible/invisible A

    PDF、Word、一太郎などのバイナリ文書から、テキストデータを抜く
  • xdoc2txt

    ■ 概要 xdoc2txtはPDF,WORD,EXCEL,一太郎などの各種バイナリ文書から、テキスト要素を抽出 する汎用テキストコンバータであり、Windowsのコマンドラインで動作します。 xdoc2txtは各種文書の構造を直接解析しているため、単独で変換できます。WORDや Acrobatなど、作成元のアプリケーションをインストールする必要はありません。 高速に動作するので、各種全文検索エンジンのフィルタに最適です。 ワープロ文書の種類は、拡張子から判別します。次の拡張子のファイルに対応してい ます。

  • 1