[B! 評価] arrowKatoのブックマーク

arrowKato id:arrowKato

評価に関するarrowKatoのブックマーク (6)

RAG評価ツール ragas を試す｜npaka
RAG評価ツール「ragas」を試したので、まとめました。 1. ragas「ragas」は、「RAG」 (Retrieval Augmented Generation) パイプラインを評価するためのフレームワークです。「RAG」は外部データを使用してLLMのコンテキストを拡張するLLMアプリケーションです。「ragas」はこのパイプラインを評価して、パフォーマンスを定量化します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) RAGパイプラインの準備。今回は、以下の記事で作成した、ELYZAのRAGパイプラインを使います。 (2) パッケージのインストール。 # パッケージのインストール !pip install ragas datasets(3) 環境変数の準備。「ragas」は「OpenAI API」で評価します。 import os import
arrowKato 2024/05/13
ragas

RAG

評価
リンク
RAG評価フレームワークのragasを使ってみた - サーバーワークスエンジニアブログ
サーバーワークスの村上です。このブログではRAGの評価フレームワークであるragasについて紹介します。 ragasとは RAGの評価イメージ ragasでできること概要（忙しい方向けのまとめ）このブログで検証したこと ragasの利用の流れテストデータの作成 RAGアプリケーションの回答を取得評価具体的な実装テストデータの作成 htmlのロード LLMの定義プロンプトのカスタマイズテストデータの作成生成できる質問の数生成したテストデータをCSVに保存 RAGアプリケーションの回答を取得評価データセットを作成メトリクスを定義メトリクスの算出まとめ ragasとは ragasはRAG（検索拡張生成）を評価するためのフレームワークです（RAG Assessmentが由来）。 github.com RAGとは大規模言語モデル（LLM）の外部に情報の保管場所を作ってお
arrowKato 2024/05/13
タイトル通り

RAG

ragas

評価
リンク
LLMアプリケーションの記録・実験・評価のプラットフォーム Weave を試す｜npaka
LLMアプリケーションの記録・実験・評価のプラットフォーム「Weave」がリリースされたので、試してみました。この入門記事は、「Weights & Biases」のご支援により提供されています。Weights & Biases JapanのNoteでは他にも多くの有用な記事が掲載されていますので是非ご覧ください。 1. Weave「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。主な機能は、次のとおりです。・記録 : LLMとのあらゆるやり取りを記録。・実験 : 様々なパラメータを試して結果を確認。・評価 : 評価を実行してモデルが改善されたかどうかを測定。 2. Weave の準備今回は、「Google Colab」で「Weave」を使って「OpenAI」のモデルの記録・実験・評価を
arrowKato 2024/04/30
Weave。 weight & bias社が出している評価プラットフォーム

LLM

評価
リンク
Vals.ai: LegalBench
arrowKato 2024/04/25
]所得税、企業財務、および契約法に関連するタスクの大規模言語モデルのパフォーマンスをランク付けするベンチマーク

LLM

評価
リンク
ウェビナー：Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf
本ウェビナーでは以下の内容をご紹介いたします： Nejumi.aiリーダーボードを任意のWandBサーバーに構築自社モデルを結果を公開しないで評価するジョブの実行独自データセットを用いた評価の追加方法 Weights & Biases Japanでは、昨年末、LLM-jpのモデル評価チームや、Stability AI Japan の評価チームの皆さんのご協力をいただいて、日本最大規模の日本語LLM評価ランキングである、Nejumi.aiリーダーボードのアップデート版、Nejumi LLMリーダーボード Neoを公開しました。リーダーボード公開以降、自社のモデルを外部に公開せずに評価してリーダーボードに追加したいというリクエストを多く頂きました。その際には自社専用のDedicated Cloudを用いたいという声をありました。本ウェビナーではこれらのリクエストにお答えして弊社のNeju
arrowKato 2024/03/07
自社モデルで日本語の網羅的な評価をするときに使えそう。Nejumiリーダーボードのように。

LLM

評価
リンク
Building and Evaluating Advanced RAG Applications
Learn methods like sentence-window retrieval and auto-merging retrieval, improving your RAG pipeline's performance beyond the baseline.Learn evaluation best practices to streamline your process, and iteratively build a robust system.Dive into the RAG triad for evaluating the relevance and truthfulness of an LLM's response:Context Relevance, Groundedness, and Answer Relevance. Retrieval Augmented G
arrowKato 2023/11/30
LLM

RAG

評価
リンク
1