ブックマーク / nlp.ist.i.kyoto-u.ac.jp (1)

  • ku_bert_japanese - LANGUAGE MEDIA PROCESSING LAB

    BERT日語Pretrainedモデル † 近年提案されたBERTが様々なタスクで精度向上を達成しています。BERTの公式サイトでは英語pretrainedモデルや多言語pretrainedモデルが公開されており、そのモデルを使って対象タスク(例: 評判分析)でfinetuningすることによってそのタスクを高精度に解くことができます。 多言語pretrainedモデルには日語も含まれていますので日語のタスクに多言語pretrainedモデルを利用することも可能ですが、基単位がほぼ文字となっていることは適切ではないと考えます。そこで、入力テキストを形態素解析し、形態素をsubwordに分割したものを基単位とし、日語テキストのみ(Wikipediaを利用)でpretrainingしました。 2022年1月21日追記: このモデルは古くなっています。RoBERTa-base 日

    onfi
    onfi 2020/06/24
  • 1