JustTechTalk#02 形態素解析のあれやこれや@ジャストシステム に参加してきました。 ジャストシステムさんの形態素解析器JMATの話とKagome、Janome、Kuromoji.js、ssslaの開発者の パネルディスカッションでした。 ということで、いつものメモです。 ジャストシステムの形態素解析その2(機械学習編) JMATの話 前回は辞書の話 今回は学習の話 教師あり/教師なし JMATは教師あり 教師なしは研究段階 ラティス構造を辞書ベースで構築して、コストの総和が最小の経路を求める 連接、単語生成とか。 学習は3フェーズ ベース、能動、部分アノテーション ベース 300万文のコーパスから1万文のみを利用(なぜ?今から説明) 64GBマシン買ってみたけど、複数実験するには追いつかない オンライン学習がメジャーでない時代に作り始めたので、つかってない CRF学習器を改善