タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

NLPとメトリクスに関するsh19910711のブックマーク (2)

  • 日本語テキストのLexical density測って遊んでみた - Debug me

    ちゃお。舞い降りんだよ。 今回はLexical density (語彙密度) の話をしたいと思います。結論からいうと微妙な結果だったのであまり期待しないでください。 内容語と機能語 Lexical densityの話の前にまずざっと内容語と機能語の説明をします。 語は、大きく分けると内容語と機能語の2つの種類に分けることができます。 内容語は、その語自体で独立して意味をなす語です。品詞でいうと名詞、形容詞、動詞、副詞が該当します。 一方で機能語は、文法的な機能をもっていますが、それ自体単独では意味をはたさなくて、他の語と一緒になってはじめて意味を表します。たとえば「な」という語だけでは何を言ってるのかさっぱりわかりませんが、「かわいそうな大人」といえば「かわいそう」と「大人」を結びつける役割を果たします。品詞でいうと助詞、助動詞、接続詞、連体詞、代名詞などが該当します。 Lexical d

    sh19910711
    sh19910711 2024/03/22
    "内容語: 独立して意味をなす語 / 機能語: 接続詞、連体詞、代名詞など / Lexical density: 内容語の割合 + 言語能力の習熟度 + 科学論文を書く際の指標として用いられているケース / 論文とブログでは大きな差がなかった" 2015
  • MLM Scoring を使って、BERT から文章の「自然さ」を計算する(+ センター英語で試してみた)

    この記事は Masked Language Model Scoring (ACL 2020) を読んで、実装を動かしたメモです。 MLM Scoring とは? 英語をちょっとでも勉強したことのある人は、 ⭕️ I have a dog. ❌ I have a dogs. 上の文章が正しく、下の文章が間違っていることが分かるでしょう。 機械が自然言語を理解するために必要なことの一つとして、このように上の文章が正しいと分かることが挙げられます。 人間が文法的にあるいは意味的に「自然」だと考える文章に対し、より高い確率を与えるような確率分布 言語モデル P_{LM}(W) に関する研究が昔から行われてきました。言語モデルは \log P_{LM}(W) = \sum_{t=1}^{|W|} \log P_{LM} (w_t | W_{<t}) というように 「今まで出力した単語から次の単語を予

    MLM Scoring を使って、BERT から文章の「自然さ」を計算する(+ センター英語で試してみた)
    sh19910711
    sh19910711 2021/05/16
    "Masked Language Model Scoring (ACL 2020) / 「各単語を Mask で隠して予測したときの条件付き確率」の対数尤度の和 / MLM Scoring の威力をさらに調べるために、英語の文法問題を解かせてみましょう"
  • 1