huggingface/tokenizers を使って日本語BERTのトークナイザを新しく作りたい場合、色々な実装方法が考えられるが、BERT 向けにカスタマイズされた実装を持つクラスである BertWordPieceTokenizer を使うのが一番楽な実装である。例えば、以下の記事はとても参考になる。 コードにすると、以下のような感じになるだろう。 from tokenizers import BertWordPieceTokenizer from tokenizers.pre_tokenizers import BertPreTokenizer from tokenizers.processors import BertProcessing tokenizer = BertWordPieceTokenizer( handle_chinese_chars=False, strip_ac