[B! コーパス] kazkaz03のブックマーク

kazkaz03 id:kazkaz03

コーパスに関するkazkaz03のブックマーク (1)

概要国語研日本語ウェブコーパス（NWJC）
データの構築手法についてウェブアーカイブの構築で用いられる Heritrix クローラを運用することで1年間にわたって3か月おきに、固定した約1億URLのウェブページを収集しました。得られたウェブページはnwc-toolkitを用いて、日本語文抽出と正規化を行いました。コピーサイトの問題を緩和するために、文単位の単一化（文の異なりをとること）を行いました。形態素解析器MeCab-0.996 と形態素解析用辞書UniDic-2.1.2を用いて形態素解析を行い、さらにUniDic 主辞規則に基づく係り受け解析器CaboCha-0.69により係り受け解析を行っています。参考文献について『国語研日本語ウェブコーパス』国際論文誌： Masayuki Asahara, Kikuo Maekawa, Mizuho Imada, Sachi Kato, Hikari Konishi (20
kazkaz03 2017/03/06
コーパス
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx