タグ

csvに関するtohokuaikiのブックマーク (4)

  • 【自動化】PDF内の表をPythonで抜き出す - Qiita

    PDFは扱いにくい PDFファイルをPythonで扱うのは大変です。 表がPDFの中に埋め込まれているケースも割とあります。 例えば 平成30年 全衛連ストレスチェックサービス実施結果報告書の中にはたくさんの表データが埋め込まれています。 例えばファイルの40ページの【表14 業種別高ストレス者の割合】を抜き出したいと思ったとします。 この表を選択して、Excelにコピペしてみましょう。 コピーして、Excelに貼り付けます。 おや?うまくいかないですね。 1つのセルの中に、全部のデータが羅列されてしまっています。 実はPythonを使ってこのPDF中の表を比較的簡単にcsvExcelに変換することができます。 PythonPDFの表をcsvPythonPDF内の表(テーブル)をcsvexcelに変換する手順は2ステップです。 ステップ1. PDFから表をpandasのData

    【自動化】PDF内の表をPythonで抜き出す - Qiita
    tohokuaiki
    tohokuaiki 2020/06/28
    pdf2textだと全くダメだったんどけど、これならいけるのかな?
  • 【ExcelとCSV】本気で理解したい初心者のためのCSV勉強会資料 - わえなび ワード&エクセル問題集 waenavi

    エクセルでCSVを保存? 変換? CSVファイルをエクセルで開くと壊れる?? 仕事CSVファイルを扱うことがあります。しかし、「CSVの意味」を気で教えてくれる人はなかなかいません。それは、「CSV」を質的に理解するには、その前提となる知識が必要で、仕事中にそんな面倒くさい説明をするヒマがないからです。 今回は、当にCSVのことを知りたいのに誰も教えてくれないとお悩みの初心者の皆さんのために、CSVとは何か、を徹底的に解説します。 「リスト形式とCSV」完全マスターシリーズ(この記事は第2回です) 8個の基パターンで完全習得「リスト形式」の教科書 気で理解したい初心者のためのCSV勉強会資料 CSVファイルとExcelの関係を気で理解するための確認テスト10問 初心者のためのCSV取り込み事例演習教材(勉強会資料) 初心者が「CSVで保存してアップ」を理解するのは意外と難しい

    【ExcelとCSV】本気で理解したい初心者のためのCSV勉強会資料 - わえなび ワード&エクセル問題集 waenavi
    tohokuaiki
    tohokuaiki 2018/07/30
    Excelは素晴らしいのだが、CSV読み込み時の自動変換だけはなんとかして欲しい。
  • 巨大なSJISのCSVファイルをfgetcsv関数で処理する - hnwの日記

    さて、前回記事「PHPでメモリ上に一時ファイルを作る」では、file_get_contents関数でCSVファイル全体を取得して文字エンコーディングの変換を行い、変換結果に対してfgetcsv関数を利用しました。しかし、CSVファイルが巨大な場合にはfile_get_contentsを使うとメモリ上限に引っかかってPHPが停止してしまいます。 もちろん、UTF-8CSVファイルに対してfgetcsvを利用するのであれば、どんな大きなCSVファイルだろうと処理することが可能です。なぜなら、fgetcsvはファイルを1行単位で読み込む関数ですから、1行分のメモリ消費だけでファイル全体を読み込み続けられるからです(正確にはストリーム上のデータはバッファリングされるので、バッファサイズ分のメモリは消費しますが)。 それでは、巨大なSJISのCSVファイルをfgetcsvで処理したい場合はどうすれ

    巨大なSJISのCSVファイルをfgetcsv関数で処理する - hnwの日記
  • 秀丸のCSVモードが超便利

    ここのところ、ECサイトの商品データや売上データをCSVファイルで扱う機会が多くなってきた。 そこで毎度悩まされるのが、ExcelでのCSVデータの扱いづらさ。世間一般的には、CSVファイルを開くツールと言えばExcel一択であるのに、OFFにすることができない自動変換のお陰で困った事態が引き起こされる。 具体的には、 電話番号の先頭の0が欠落する 3桁以上の数値のカンマ区切りデータが通貨型に変換される ハイフン区切りの数値データが日付型に変換される などなど。 Excelで開くときにデータ区切りを指定して読みこめばいいのだが、開くたびにそれをするのも面倒で、秀丸でテキストファイルとして開いて編集することが多くなってきた。そんなとき、秀丸CSVモードがあることを知ったので紹介。ちょっとデータを直したい時など、Excelより速くて重宝してます。 使い方 以下は、郵便番号データダウンロード

    秀丸のCSVモードが超便利
  • 1