タグ

英語と自然言語処理に関するpmakinoのブックマーク (2)

  • 実は勉強になるルー語

    先月はルー語の月でした・・・ フィードバックを読んだり、プログラムを改良したり、電車の中では変換後の文章の校正して時間をつぶしたり。振り返ってみると、ルー語変換プログラムを通して実はいろいろ学習しました。 英語 むずしすぎる単語を排除するため、「中学校卒業程度」の単語にしぼりこみたかったのですが、それがだいたい2000語であるということ・頻出単語は幾つかのデータがあるということをこのへんで知る。最終的にはここで紹介されているデータと、実際の中学校の単語ドリル、あとルーさんブログをコーパスにして単語を絞込み。その2000弱の単語には何回か目を通したのでだいたい覚えた。 国語 連体詞って何だっけ?とか、あと活用形。五段活用とか、下一段活用とか、久しぶりに調べたですョ。「い・い・いる・いる・いれ・いろ」「ない よう う・ます た て・から と・とき こと・ば・!」とかそのあたり。 テストスクリプ

    実は勉強になるルー語
  • どんなページもルー大柴ナイズ

    来月仕事海外に行くことになりそうなので、買っただけで読んでなかった カタカナ英語 を取り出して読んでたのですが、TV 付けて酒飲みながらじゃあ勉強にならない。カタカナ英語といえば ルー大柴 だよなあ、と脱線しはじめる。 「ディスイヤーは私にとって再チャレンジのファンデーション作りのイヤーだった」(原文) ↓ 翻訳すると「今年は私にとって再挑戦の基礎作りの年だった」 ということは何か普通の文章をルー化するスクリプトをすぐ書けそうな予感。ルーさんが使いそうな単語を片っ端からマップにしてもいいけど、それはめんどい。それより、文章を形態素解析 → 単語を英訳 → 英語をカタカナ読みに翻訳 → というようにすれば楽に書けるんじゃないか?と発展。 形態素解析は MeCab でいいよね 単語の和英は、Excite みたいなネットを介すやつだと遅いので、フリーの英和辞書を探す。EDICT proje

    どんなページもルー大柴ナイズ
  • 1