はじめに 2018年に登場したニューラル言語処理のための教師なしサブワード分割モジュール,SentencePiece。 開発意図や仕様を確認するために原著論文を読みました。 github.com 論文は2018年8月にarXivに投稿されています。 arxiv.org 著者・開発者はMeCab開発者でもある工藤拓さん。自然言語処理に関心のある方で知らない人はいないでしょう。 github.com 1冊まるごと形態素解析という驚異的な本も執筆されています。 形態素解析の理論と実装 (実践・自然言語処理シリーズ) 作者: 工藤拓,言語処理学会出版社/メーカー: 近代科学社発売日: 2018/10/04メディア: 単行本この商品を含むブログを見る 背景 基本的事項をいくつか確認します。 SentencePieceは与えられた文章をサブワードに分割するモデルであり, コーパスからの教師なし学習が可