大規模なデータセットを短期間で構築するために、データセット構築にはYahoo!クラウドソーシングを用いました。 以下に各データセットの概要を示します。 MARC-ja MARC-jaは商品レビューを入力として、ポジティブ(positive)かネガティブ(negative)かを推定するタスクです。多言語商品レビューコーパスMARC(Multilingual Amazon Reviews Corpus)[文献7]の日本語部分を用いて構築しています。検証・テストセットについては正解ラベルが妥当であるかをクラウドソーシングで判定し、ラベルをクリーニングしています(訓練セットは数が多いことからクリーニングはしておりません)。 JSTS/JNLI JSTS(Japanese Semantic Textual Similarity)とJNLI(Japanese Natural Language Infe