node-jptokenizer Pure JS Japanese tokenizer. 特徴 mecabに色々不満があって作ったので、殆どの特徴はmecabに対する不満そのものです。 Pure JS の形態素解析器 npm install 一発でインストールでき、JITのパフォーマンスを期待した作りになっています。 辞書に忠実 mecabで一番厄介なのは、辞書のカスタマイズです。 mecabは複雑な接続スコアにより精度を上げているため、辞書を編集しても意図した結果を得る事が困難なのです。 当tokenizerは辞書をカスタマイズした際に結果が想像し易い事を目指して作られています。 基本的には最長マッチ 多少の接続パターンは実装しているが、助詞や接続詞等の最小限の判別のみ Ascii文字は全てunicodeの日本語領域に寄せて扱われます。(AはAとみなされる) 結果として品詞判定の精度は悪