[B! 自然言語処理][日本語] haganeのブックマーク

hagane id:hagane

自然言語処理と日本語に関するhaganeのブックマーク (1)

帯2：日本語テキストの難易度推定
難易度の規準には、小中高大の教科書127冊から抽出した1478サンプル、約100万字のコーパス（教科書コーパス）を用いています。プログラムは、まず、それぞれの難易度に対する尤度を、連続する２文字の生起確率（文字bigram）に基づいて計算します。得られた尤度のうち、最大の尤度をとる難易度が、求める難易度となります。実際の難易度の計算は、もう少し複雑です。あるテキストに対して、文字の生起確率から計算された13個の尤度を難易度順にプロットしたのが、下のグラフの点線です。理想的には、なめらかな曲線を描くはずですが、実際には、そうはなりません。そこで、これら13個の値に対して、スムージングを適用します。スムージングによって得られた結果を、青線（４次多項式）および赤線（２次多項式）で示しています。スムージングを適用した結果に対しても、最大の尤度をとる難易度を求めます。こうして、難易
hagane 2014/05/16
日本語

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx