こんにちは、Algomatic LLM STUDIO インターンのなべ(@_h0jicha)です。 前回の記事では、LLM の日本語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。 ベンチマークの導入に負担がかかってしまうため、もっと 気軽に評価したい 既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基本的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい そこで本記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。 目次 promptfoo とは? 導入方法 環境構築 実験設定 評価実行 アサーションについて アサーションタイプの概要 決定的評価指