タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

コーパスに関するkazkaz03のブックマーク (1)

  • 概要 国語研日本語ウェブコーパス(NWJC)

    データの構築手法について ウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。 得られたウェブページはnwc-toolkitを用いて、日語文抽出と正規化を行いました。 コピーサイトの問題を緩和するために、文単位の単一化(文の異なりをとること)を行いました。 形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、 さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。 参考文献について 『国語研日語ウェブコーパス』 国際論文誌: Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20

  • 1