エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント2件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
判例PDFをパースする際にハマること - Qiita
概要 最近は行政データをオープンに公開することで、広く官民に使ってもらおうと言う動きが活発だ。裁判... 概要 最近は行政データをオープンに公開することで、広く官民に使ってもらおうと言う動きが活発だ。裁判所も過去の判例データを公開している。こちらのサイトで、過去の判例データを検索して、判決文や判決に至る根拠を書いたPDFをダウンロードできる。 しかし、そのPDFは人間が読むことを想定しており、PDFの内容を機械が読み取ってデータとして利用することは想定していないように見られる。 今回は、判例PDFをダウンロードして、機械的に読み取り、テキスト化する際にどのような不便があるかを共有する。 アドベントカレンダーへの参加 こちらの記事は、CivicTechテック好き Advent Calendar 2020 12/15に参加しています。 使用ツール PDFから機械的にテキストを抜き出すツールは色々ある が、今回は、pdfminer を利用して判例PDFからテキストファイルを抜き出す。pdfminer
2021/04/29 リンク