タグ

ブックマーク / hillbig.cocolog-nifty.com (1)

  • 論文紹介:複数の単一言語コーパスから対訳語を抽出 - DO++

    ACL 2008で既に読めるようになった論文で面白かったやつ "Learning Bilingual Lexicons from Monolingual Corpora" A. Haghighi, et. al. to appear ACL2008 pdf タイトルは衝撃的な内容だが、内容も面白い。 従来統計的機械翻訳では、翻訳ペア、フレーズ抽出は対訳コーパス、つまりロゼッタストーンのように同じ内容が複数言語で書かれているようなデータを元にし学習するのが一般的だったが、この方法の欠点はもちろんそのような対訳コーパスが無い言語間ではこの手法が使えないということだった。顕著なのは日語で、他の主要言語間は国連の公用語なら国連の議事録、EU加盟国ならEUの議事録とかから大量で高精度のコーパスが(しかも安価で)手に入るのだが日語はそのようなペアがない。これも日語の統計的機械翻訳の精度がいまいち

    論文紹介:複数の単一言語コーパスから対訳語を抽出 - DO++
    yto
    yto 2008/06/05
    未読なのでよくわからないが、文アライメントされてなくても大丈夫、という話かな。結局各言語で同じ内容が書かれた文書がいるんだよね、たぶん。
  • 1