[B! testing][prompt] sh19910711のブックマーク

sh19910711 id:sh19910711

testingとpromptに関するsh19910711のブックマーク (4)

LLM評価ツールpromptfooとアサーションの解説 - Algomatic Tech Blog
こんにちは、Algomatic LLM STUDIO インターンのなべ（@_h0jicha）です。前回の記事では、LLM の日本語性能を評価するための様々なベンチマークを紹介しました。 tech.algomatic.jp しかし、こうしたベンチマークには以下のような課題が存在します。ベンチマークの導入に負担がかかってしまうため、もっと気軽に評価したい既存のベンチマークによる評価が難しく独自実装が必要なとき、あらかじめ基本的な機能が搭載されている評価ツールを利用したい LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたいそこで本記事では、LLM の出力品質を評価する際に活用できる promptfoo について紹介します。目次 promptfoo とは？導入方法環境構築実験設定評価実行アサーションについてアサーションタイプの概要決定的評価指
sh19910711 2024/05/27
"ベンチマークの導入: LLM の評価とともに、LLM を使用する際のプロンプトの評価も同時に行いたい / promptfoo: ソフトウェアのテスト設計に影響 + 出力に対してテスト項目を指定することで、LLM の応答品質を定量的に評価"

*program

prompt

testing

評価
リンク
GitHub Copilotと快適なユニットテストコード作成生活
こちらで登壇させていただいた資料です。 https://trident-qa.connpass.com/event/314818/ ※ こちらは2024/05/23 時点の私の考えとなります。更新の予定はございませんのでご了承ください
sh19910711 2024/05/24
"GitHub Copilot: タブとして開いているファイルを元に提案 + コメントで指示を与えることでより意図した結果を得やすい / ファイルのトップレベルだけではなく、適宜「単一、具体的、短い」コメントがよりよい"

*program

prompt

testing

git*
リンク
Github Copilotを活用したテスト駆動開発 - テコテック開発者ブログ
こんにちは。決済認証システム開発事業部の齊藤です。最近Github Copilot（以下、Copilot）を試験導入し使っているのですが、開発する上で特にテスト駆動開発が捗ることに気づきました。そこで、社内外の方にもCopilotを使ったテスト駆動開発を広められれば、全体的に開発効率を上げることができるのではないかと思い本記事を書きました。目次目次 Copilotとはテスト駆動開発とは Copilotを活用したテスト駆動開発の手順とメリットテスト駆動開発の手順 Copilotを使用したテスト駆動開発 Copilotを使ったテスト駆動開発のメリットテストコードを書くスピードが上がるテストコードの品質が上がるテストコードを書くストレスが減るその他にも…… Copilotを使ったテスト駆動開発の注意点まとめ Copilotを使ったテスト駆動開発の今後の展望テコテックの採用活
sh19910711 2024/04/20
"テストコードがあると、テストコードの内容を元に実装コードを予測してくれることもある / 仕様をテストコードに落とし込んでから実装する / 見落としを減らすことができるのでテストコードの品質が上がります" 2023

*program

prompt

testing
リンク
ChatGPTでE2Eテストコード自動作成 | フューチャー技術ブログ
9/7に行われた技育CAMPアカデミアというイベントでPlaywrightについて話をしてきました。テストというと、設計手法であるところのテスト駆動開発は別としてちょっと業務っぽい感じがして学生さんにはちょっと響かないかな、というのも心配でしたが、アンケートを見る限り、わかりやすかったという声も多くてほっとしました。次のスライドが今回の資料です。スライドの内容の多くはPlaywright連載始まりますに掲載されている記事にもぼつぼつある内容も多い（APIテストはないですが）のですが、本エントリーでは発表の最後に触れたChatGPTなどの生成AIを使ったE2Eテストの生成について説明していきます。 ChatGPTが話題を席巻してしばらく経ちます。とはいえ、内製開発での利用以外はソースコード開発にばりばり使う、みたいな宣言はあまり聞かない気がします。利用を制限している会社も数多くあります。
sh19910711 2024/04/20
"HTMLを渡すだけでそれを操作するコードを書いてくれました / Cypressはずっと安定したAPIを提供し、Playwrightはアクティブに機能追加したりしている印象がありますが、これが生成AI経由に使い勝手に影響" 2023

*program

prompt

testing
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx