[B! prompt][評価] sh19910711のブックマーク

sh19910711 id:sh19910711

promptと評価に関するsh19910711のブックマーク (2)

推しのプロンプト実験管理ツール「promptfoo」を解説｜にょす
最近、推したいプロンプト実験管理方法を見つけたので、そちらの紹介記事になります！これを見つけてから、めちゃ楽になりました！前提「ん？実験管理？」と思う方もいるかもなので、軽く背景のところから共有したいのですが、システムに組み込むプロンプト作りは、すごい難易度が高いなーと思ってます。何が大変かというと、求められる品質が高いからです！出力形式が期待通りでないとシステムエラーになってしまう。10回中9回成功しても、それはエラー率10%なので安定とは言えない。様々な要件がある。出力形式や文字数・レイテンシ・コストなど、ルールベースで判定できるものもあれば「ちゃんと指示に従っているか？」「魅力的なアウトプットか？」など定性的なものもある。これらの要件を満たすプロンプトを作る必要があるということで、上記の「多様的な要件を満たす出力」と「何回やっても期待する出力が出る安定性」を兼ね備えたプロン
sh19910711 2024/05/21
"promptfoo: 複数のプロンプト（あるいはLLM）を表形式で比較 + 多様な評価方法を実装いらずで利用できる / prompfooconfig.yaml というファイルで様々な設定 + プロンプトと利用するLLM（プロバイダー）、テストケースが記載"

*program

prompt

評価
リンク
LLMの事前評価のシステムアーキテクチャを紹介します
この記事の概要こんにちは。PharmaX でエンジニアをしている諸岡（@hakoten）です。この記事では、「YOJO事業部のプロダクト内で使用されているLLM（Large Language Models）の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何かまず、プロダクトにおけるLLM（Large Language Models）機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である（毎回異なる）」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。弊社における定量的な計測は、大きく次の2
sh19910711 2024/05/09
"LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"

*program

prompt

pattern

評価

--

*data

gcloud

dwh
リンク
1