ACL 2008で既に読めるようになった論文で面白かったやつ "Learning Bilingual Lexicons from Monolingual Corpora" A. Haghighi, et. al. to appear ACL2008 pdf タイトルは衝撃的な内容だが、内容も面白い。 従来統計的機械翻訳では、翻訳ペア、フレーズ抽出は対訳コーパス、つまりロゼッタストーンのように同じ内容が複数言語で書かれているようなデータを元にし学習するのが一般的だったが、この方法の欠点はもちろんそのような対訳コーパスが無い言語間ではこの手法が使えないということだった。顕著なのは日本語で、他の主要言語間は国連の公用語なら国連の議事録、EU加盟国ならEUの議事録とかから大量で高精度のコーパスが(しかも安価で)手に入るのだが日本語はそのようなペアがない。これも日本語の統計的機械翻訳の精度がいまいち