公開されている大規模言語モデルをどの程度のデータで Fine Tuning すれば Claude や ChatGPT などの API 公開されているモデルの精度に匹敵するのか検証した資料です。 言語処理学会第30回年次大会 併設ワークショップ 日本語言語資源の構築と利用性の向上 (JLR2024) での発表資料です。 実装はこちら https://github.com/aws-samples/aws-ml-jp/tree/main/tasks/generative-ai/text-to-text/evaluation/lm-evaluation-harness 先行し公開したブログ https://aws.amazon.com/jp/blogs/news/cost-efficiency-of-api-and-oss-generative-ai/