(V:異なり語数, N:総語数) という単純な式で表されます。 テキストマイニングで有名な同志社大の金先生のサイトにも紹介され、たまに論文でも見かける指標ですが、注意して扱わないと間違った結論を引き出しかねません。 というのもTTRにはサンプルサイズ依存性があり、Nが異なる文書間ではTTRを比較することができないからです(したがって上記サイトで安倍首相は福田総理よりも語彙が豊富と結論しているのは誤りだと思う)。以下、説明とその対策を見ていきたいと思います。 サンプルサイズ依存性 この問題はBaayen(2001)の"Word Frequency Distributions"に詳しく書かれています。 一言で言うと、問題は異なり語数Vが総語数Nの増加に対して線形には増加していかないことにあります。TTRは異なり語数を総語数で割ったものなのですが、この性質から、一般的には総語数が少ない文書のほう