BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingNLP言語モデル 概要 Transformer を用いた双方向言語モデルを提案 Bidirectional Encoder Representation from Transformer (BERT) 双方向言語モデル学習タスクを2つ提案 Masked Language Model Next Sentence Prediction 提案手法で事前学習した言語モデルを Fine tuning するだけで多数のタスクにおいてSoTA を達成 提案モデル 双方向言語モデル BERT 言語モデルへの入力の工夫 言語モデル学習タスク 1. 双方言語モデル BERT Transformer の encoder 部分をそのまま言語モデルとしたもの