タグ

testingとpromptに関するsh19910711のブックマーク (4)

  • LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog

    こんにちは、Algomatic LLM STUDIO インターンのなべ(@_h0jicha)です。 前回の記事では、LLM の日語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。 ベンチマークの導入に負担がかかってしまうため、もっと 気軽に評価したい 既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい そこで記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。 目次 promptfoo とは? 導入方法 環境構築 実験設定 評価実行 アサーションについて アサーションタイプの概要 決定的評価指

    LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
    sh19910711
    sh19910711 2024/05/27
    "ベンチマークの導入: LLM の評価とともに、LLM を使用する際の プロンプトの評価も同時に行いたい / promptfoo: ソフトウェアのテスト設計に影響 + 出力に対してテスト項目を指定することで、LLM の応答品質を定量的に評価"
  • GitHub Copilotと快適なユニットテストコード作成生活

    こちらで登壇させていただいた資料です。 https://trident-qa.connpass.com/event/314818/ ※ こちらは2024/05/23 時点の私の考えとなります。更新の予定はございませんのでご了承ください

    GitHub Copilotと快適なユニットテストコード作成生活
    sh19910711
    sh19910711 2024/05/24
    "GitHub Copilot: タブとして開いているファイルを元に提案 + コメントで指示を与えることでより意図した結果を得やすい / ファイルのトップレベルだけではなく、適宜「単一、具体的、短い」コメントがよりよい"
  • Github Copilotを活用したテスト駆動開発 - テコテック開発者ブログ

    こんにちは。決済認証システム開発事業部の齊藤です。 最近Github Copilot(以下、Copilot)を試験導入し使っているのですが、開発する上で特にテスト駆動開発が捗ることに気づきました。そこで、社内外の方にもCopilotを使ったテスト駆動開発を広められれば、全体的に開発効率を上げることができるのではないかと思い記事を書きました。 目次 目次 Copilotとは テスト駆動開発とは Copilotを活用したテスト駆動開発の手順とメリット テスト駆動開発の手順 Copilotを使用したテスト駆動開発 Copilotを使ったテスト駆動開発のメリット テストコードを書くスピードが上がる テストコードの品質が上がる テストコードを書くストレスが減る その他にも…… Copilotを使ったテスト駆動開発の注意点 まとめ Copilotを使ったテスト駆動開発の今後の展望 テコテックの採用活

    Github Copilotを活用したテスト駆動開発 - テコテック開発者ブログ
    sh19910711
    sh19910711 2024/04/20
    "テストコードがあると、テストコードの内容を元に実装コードを予測してくれることもある / 仕様をテストコードに落とし込んでから実装する / 見落としを減らすことができるのでテストコードの品質が上がります" 2023
  • ChatGPTでE2Eテストコード自動作成 | フューチャー技術ブログ

    9/7に行われた技育CAMPアカデミアというイベントでPlaywrightについて話をしてきました。テストというと、設計手法であるところのテスト駆動開発は別としてちょっと業務っぽい感じがして学生さんにはちょっと響かないかな、というのも心配でしたが、アンケートを見る限り、わかりやすかったという声も多くてほっとしました。 次のスライドが今回の資料です。スライドの内容の多くはPlaywright連載始まりますに掲載されている記事にもぼつぼつある内容も多い(APIテストはないですが)のですが、エントリーでは発表の最後に触れたChatGPTなどの生成AIを使ったE2Eテストの生成について説明していきます。 ChatGPTが話題を席巻してしばらく経ちます。とはいえ、内製開発での利用以外はソースコード開発にばりばり使う、みたいな宣言はあまり聞かない気がします。利用を制限している会社も数多くあります。

    ChatGPTでE2Eテストコード自動作成 | フューチャー技術ブログ
    sh19910711
    sh19910711 2024/04/20
    "HTMLを渡すだけでそれを操作するコードを書いてくれました / Cypressはずっと安定したAPIを提供し、Playwrightはアクティブに機能追加したりしている印象がありますが、これが生成AI経由に使い勝手に影響" 2023
  • 1