タグ

自然言語処理に関するtamoriinu_3のブックマーク (3)

  • Regexp.ja

    解析前に行うことが望ましい文字列の正規化処理 辞書データを冗長にして異表記を吸収するのにも限界がある。 辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、 解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理 以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。 生成時には色々置換と削除をしているが、最後に反映されているのは以下である。 全角英数字は半角に置換 0-9=> 0-9 A-Z=> A-Z a-z=> a-z 半角カタカナは全角に置換 半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。 ハイフンマイナスっぽい文字を置換 以下はハイフンマイナスに置換する。 MODI

    Regexp.ja
  • Regexp

    解析前に行うことが望ましい文字列の正規化処理 辞書データを冗長にして異表記を吸収するのにも限界がある。 辞書データを生成する際には以下で述べる正規化処理を全て適用しているため、 解析対象のテキストに対して以下の正規化処理を適用すると、辞書中の語とマッチしやすくなる。 mecab-ipadic-neologd のエントリを生成する際の正規化処理 以下にmecab-ipadic-neologd のエントリを生成する際に、処理の各所に分散している正規化処理をまとめる。 生成時には色々置換と削除をしているが、最後に反映されているのは以下である。 全角英数字は半角に置換 0-9=> 0-9 A-Z=> A-Z a-z=> a-z 半角カタカナは全角に置換 半角の濁音と半濁音の記号が1文字扱いになってるので気をつけること。 ハイフンマイナスっぽい文字を置換 以下はハイフンマイナスに置換する。 MODI

    Regexp
    tamoriinu_3
    tamoriinu_3 2022/01/22
    mecabを使うにあたっての前処理
  • 言語処理100本ノック 2015

    言語処理100ノックは,実践的な課題に取り組みながら,プログラミング,データ分析,研究のスキルを楽しく習得することを目指した問題集です 実用的でワクワクするような題材を厳選しました 言語処理に加えて,統計や機械学習などの周辺分野にも親しめます 研究やデータ分析の進め方,作法,スキルを修得できます 問題を解くのに必要なデータ・コーパスを配布しています 言語はPythonを想定していますが,他の言語にも対応しています

  • 1