タグ

promptと評価に関するsh19910711のブックマーク (2)

  • 推しのプロンプト実験管理ツール「promptfoo」を解説|にょす

    最近、推したいプロンプト実験管理方法を見つけたので、そちらの紹介記事になります!これを見つけてから、めちゃ楽になりました! 前提「ん?実験管理?」と思う方もいるかもなので、軽く背景のところから共有したいのですが、システムに組み込むプロンプト作りは、すごい難易度が高いなーと思ってます。 何が大変かというと、求められる品質が高いからです! 出力形式が期待通りでないとシステムエラーになってしまう。10回中9回成功しても、それはエラー率10%なので安定とは言えない。 様々な要件がある。出力形式や文字数・レイテンシ・コストなど、ルールベースで判定できるものもあれば「ちゃんと指示に従っているか?」「魅力的なアウトプットか?」など定性的なものもある。これらの要件を満たすプロンプトを作る必要がある ということで、上記の「多様的な要件を満たす出力」と「何回やっても期待する出力が出る安定性」を兼ね備えたプロン

    推しのプロンプト実験管理ツール「promptfoo」を解説|にょす
    sh19910711
    sh19910711 2024/05/21
    "promptfoo: 複数のプロンプト(あるいはLLM)を表形式で比較 + 多様な評価方法を実装いらずで利用できる / prompfooconfig.yaml というファイルで様々な設定 + プロンプトと利用するLLM(プロバイダー)、テストケースが記載"
  • LLMの事前評価のシステムアーキテクチャを紹介します

    この記事の概要 こんにちは。PharmaX でエンジニアをしている諸岡(@hakoten)です。 この記事では、「YOJO事業部のプロダクト内で使用されているLLM(Large Language Models)の機能の性能を事前評価するための仕組み」について、システムのアーキテクチャをご紹介しています。 LLMを用いて実現している具体的な機能については詳しく触れていませんので、その点ご理解ください。 LLMにおける事前評価とは何か まず、プロダクトにおけるLLM(Large Language Models)機能の評価がどのようなものかについて簡単に説明します。 LLMの特徴の一つとして、「出力が確率的である(毎回異なる)」という点があります。そのため、LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要になります。 弊社における定量的な計測は、大きく次の2

    LLMの事前評価のシステムアーキテクチャを紹介します
    sh19910711
    sh19910711 2024/05/09
    "LLMで生成された文章や出力に対しては、出力結果の良し悪しを定量的に計測する方法が必要 / CSVにはPromptLayerのrequest_idとバージョンをスコアとセット + Cloud Storageに保存 + Data Transfer Serviceを用いて、定期的にBigQueryに同期"
  • 1