[B! 自然言語処理] tamoriinu_3のブックマーク

Regexp.ja

解析前に行うことが望ましい文字列の正規化処理辞書データを冗長にして異表記を吸収するのにも限界がある。辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。生成時には色々置換と削除をしているが、最後に反映されているのは以下である。全角英数字は半角に置換０-９=> 0-9 Ａ-Ｚ=> A-Z ａ-ｚ=> a-z 半角カタカナは全角に置換半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。ハイフンマイナスっぽい文字を置換以下はハイフンマイナスに置換する。 MODI

tamoriinu_3 2022/03/13

前処理

リンク

Regexp

解析前に行うことが望ましい文字列の正規化処理辞書データを冗長にして異表記を吸収するのにも限界がある。辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。生成時には色々置換と削除をしているが、最後に反映されているのは以下である。全角英数字は半角に置換０-９=> 0-9 Ａ-Ｚ=> A-Z ａ-ｚ=> a-z 半角カタカナは全角に置換半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。ハイフンマイナスっぽい文字を置換以下はハイフンマイナスに置換する。 MODI

tamoriinu_3 2022/01/22

mecabを使うにあたっての前処理

リンク

言語処理100本ノック 2015

言語処理100本ノックは，実践的な課題に取り組みながら，プログラミング，データ分析，研究のスキルを楽しく習得することを目指した問題集です実用的でワクワクするような題材を厳選しました言語処理に加えて，統計や機械学習などの周辺分野にも親しめます研究やデータ分析の進め方，作法，スキルを修得できます問題を解くのに必要なデータ・コーパスを配布しています言語はPythonを想定していますが，他の言語にも対応しています

tamoriinu_3 2019/07/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (4)

自然言語処理に関するtamoriinu_3のブックマーク (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年5月第2週）

今週のはてなブックマーク数ランキング（2024年5月第1週）

月間はてなブックマーク数ランキング（2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス