ytoのブックマーク - はてなブックマーク

yto id:yto

ブックマーク / hillbig.cocolog-nifty.com (1)

論文紹介：複数の単一言語コーパスから対訳語を抽出 - DO++
ACL 2008で既に読めるようになった論文で面白かったやつ "Learning Bilingual Lexicons from Monolingual Corpora" A. Haghighi, et. al. to appear ACL2008 pdf タイトルは衝撃的な内容だが、内容も面白い。従来統計的機械翻訳では、翻訳ペア、フレーズ抽出は対訳コーパス、つまりロゼッタストーンのように同じ内容が複数言語で書かれているようなデータを元にし学習するのが一般的だったが、この方法の欠点はもちろんそのような対訳コーパスが無い言語間ではこの手法が使えないということだった。顕著なのは日本語で、他の主要言語間は国連の公用語なら国連の議事録、EU加盟国ならEUの議事録とかから大量で高精度のコーパスが（しかも安価で)手に入るのだが日本語はそのようなペアがない。これも日本語の統計的機械翻訳の精度がいまいち
yto 2008/06/05
未読なのでよくわからないが、文アライメントされてなくても大丈夫、という話かな。結局各言語で同じ内容が書かれた文書がいるんだよね、たぶん。

自然言語処理
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx