タグ

ブックマーク / chasen.org/~daiti-m (1)

  • mots quotidiens.

    Mikolov+(2013)の有名な Word2Vecの論文 では, 単語ベクトルを作る際に, "New York" や "Toronto Maple Leafs" (アイスホッケーチーム)の意味は要素である "new" や "maple" "leafs" とは基的に 関係ないので, 先にフレーズを認識して "new_york", "toronto_maple_leafs" と 単語をまとめてからWord2Vecを適用する方法が述べられています。 もちろん固有表現認識(NER)を動かせばできますが, NERは事前に人が作成した教師データに依存する ため, 教師データを使わない方法として, word2vecの論文では単語vと単語wがフレーズとなる スコアを score(v,w) = (n(v,w) - δ)/(n(v)*n(w)) とする, という方法が述べられています((6)式)。 ここ

    takuya-a
    takuya-a 2021/07/09
    PMI を正規化する Normalized PMI (NPMI) を使ったフレーズ認識。そこそこうまくいくみたい
  • 1