エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【MeCab】青空文庫データの前処理、分かち書き、ファイル保存 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【MeCab】青空文庫データの前処理、分かち書き、ファイル保存 - Qiita
環境 Microsoft Windows 10.0.22000.318(21H2) Anaconda Powershell Prompt 4.11.0 Python 3.8.12.fin... 環境 Microsoft Windows 10.0.22000.318(21H2) Anaconda Powershell Prompt 4.11.0 Python 3.8.12.final.0 ソースコード 手順 1. データのダウンロード 青空文庫で使用する作品を探し、そのページの下部にある「ファイルのダウンロード」からzipファイルをダウンロード。 2. 前処理&分かち書き 芥川龍之介『蜘蛛の糸』の前処理&分かち書きを行う。 tmp/ ├─ text/ │ ├── (akutagawa_kumonoito.pickle) │ ├── akutagawa_kumonoito.txt │ └── (akutagawa_kumonoito_splitted.txt) └─ prepare.py import re import pickle import MeCab PATH = "tex