タグ

nlpとIMEに関するgologo13のブックマーク (4)

  • 第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記

    昨年と一昨年に引き続き IM (input method) 飲み会。前々回は単に参加しただけ、前回は昼の部を取りまとめただけで夜の部は oxy くんに任せていたのだが、今回は昼の部だけではなく夜の部も取りまとめることになった(京都開催なのに自分は京都住んでいないのでお店もよく分からず……森さんが助けてくれた。深謝!)ので、なかなか緊張する。 出張扱いで来る可能性のある人がいたので、とりあえず第1回入力メソッドワークショップという名前をつけてページを用意してみた(なにか開催するときはこういうものを作っておくと役に立つということを、昨年 Patrick Pantel さんを Yahoo! Labs から招聘したとき学んだ)。去年のものも入れると第2回だけど……。 今回初参加は id:kzk くんの紹介で来た id:naoya さん、tabatee さんの紹介で shinh さん、森さんの研究室

    第1回入力メソッドワークショップ(という名の飲み会) - 武蔵野日記
  • Zzz Eee Lll Ccc Hhh

    仮名漢字変換 統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。 当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。 確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。 実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。 モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードで きます。 詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。 リンク SIMPLE (Statistical Input Method for Personal Learning and Education; 仮) or KyKC (休憩しぃ)? simple.tar ダウンロード (とりあえず再配布不可です) 統計的仮名漢字変換の学習用 単語と読

  • 言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記

    情報処理学会の来るべきクラウドコンピューティングの世界のイベントに参加する気満々で朝安田講堂に行ったのだが、言語処理学会のプログラムを見ていると、どうも朝はそちらを聞かないとまずそうな感じだったので、予定を変更して言語処理学会に。 自分の聞いたのは解析のセッションだったのだが、どうもパンフレットに載っている時間と実際の開始時間が違った(より正確には、情報処理学会側のプログラムに書いてある言語処理学会のセッションの開始時刻と言語処理学会側のプログラムに書いてある言語処理学会のセッションの開始時間が違った)ので、最初の発表を聞き逃す。残念。 一番おもしろかったのは 段階的な部分木間の構造判定に基づく決定的係り受け解析. ○北川浩太郎, 田中久美子 (東大) かな。決定的な係り受け解析をするのだが、素性に部分木の構造を用いていて、高速ながら精度が高いそうで(詳しくは読まないと分からないが)。ただ

    言語処理学会 NLP 2010 本会議初日: 係り受け解析の新展開 - 武蔵野日記
  • ChaIME: Statistical Input Method Editor

    ChaIME: 大規模コーパスを用いた統計的仮名漢字変換 トップに戻る 統計的仮名漢字変換 統計的仮名漢字変換では、与えられた仮名文字列の入力yに対して変換候補 xを条件付き確率P(x|y)の降順に提示します。仮名文字列が来たときに仮名漢字 交じり文になる確率です。この確率値が高い順に変換結果が並んでいて くれればいいわけです。言い換えると、確率値最大のものがもっとも尤もらしい 変換候補となり、尤もらしさ順に確率値が並んでいることが統計的仮名漢字変換 の基原理となります。 さて、直接P(x|y)を推定する方法があればそのまま仮名漢字変換に用いること ができるのですが、一般にこの確率値を直接推定することは難しいため、 近似を用いて推定することになります。 この定式化は統計的機械翻訳や音声認識と同様で、ベイズの定理を用いることに よってP(x|y)はP(y|x)とP(x)の積として推定するこ

  • 1