タグ

評価に関するarrowKatoのブックマーク (6)

  • RAG評価ツール ragas を試す|npaka

    RAG評価ツール「ragas」を試したので、まとめました。 1. ragas「ragas」は、「RAG」 (Retrieval Augmented Generation) パイプラインを評価するためのフレームワークです。「RAG」は外部データを使用してLLMのコンテキストを拡張するLLMアプリケーションです。「ragas」はこのパイプラインを評価して、パフォーマンスを定量化します。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) RAGパイプラインの準備。 今回は、以下の記事で作成した、ELYZAのRAGパイプラインを使います。 (2) パッケージのインストール。 # パッケージのインストール !pip install ragas datasets(3) 環境変数の準備。 「ragas」は「OpenAI API」で評価します。 import os import

    RAG評価ツール ragas を試す|npaka
  • RAG評価フレームワークのragasを使ってみた - サーバーワークスエンジニアブログ

    サーバーワークスの村上です。 このブログではRAGの評価フレームワークであるragasについて紹介します。 ragasとは RAGの評価イメージ ragasでできること概要(忙しい方向けのまとめ) このブログで検証したこと ragasの利用の流れ テストデータの作成 RAGアプリケーションの回答を取得 評価 具体的な実装 テストデータの作成 htmlのロード LLMの定義 プロンプトのカスタマイズ テストデータの作成 生成できる質問の数 生成したテストデータをCSVに保存 RAGアプリケーションの回答を取得 評価 データセットを作成 メトリクスを定義 メトリクスの算出 まとめ ragasとは ragasはRAG(検索拡張生成)を評価するためのフレームワークです(RAG Assessmentが由来)。 github.com RAGとは大規模言語モデル(LLM)の外部に情報の保管場所を作ってお

    RAG評価フレームワークのragasを使ってみた - サーバーワークスエンジニアブログ
    arrowKato
    arrowKato 2024/05/13
    タイトル通り
  • LLMアプリケーションの記録・実験・評価のプラットフォーム Weave を試す|npaka

    LLMアプリケーションの記録・実験・評価のプラットフォーム「Weave」がリリースされたので、試してみました。 この入門記事は、「Weights & Biases」のご支援により提供されています。Weights & Biases JapanのNoteでは他にも多くの有用な記事が掲載されていますので是非ご覧ください。 1. Weave「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。 主な機能は、次のとおりです。 ・記録 : LLMとのあらゆるやり取りを記録。 ・実験 : 様々なパラメータを試して結果を確認。 ・評価 : 評価を実行してモデルが改善されたかどうかを測定。 2. Weave の準備今回は、「Google Colab」で「Weave」を使って「OpenAI」のモデルの記録・実験・評価を

    LLMアプリケーションの記録・実験・評価のプラットフォーム Weave を試す|npaka
    arrowKato
    arrowKato 2024/04/30
    Weave。 weight & bias社が出している評価プラットフォーム
  • Vals.ai: LegalBench

    arrowKato
    arrowKato 2024/04/25
    ]所得税、企業財務、および契約法に関連するタスクの大規模言語モデルのパフォーマンスをランク付けするベンチマーク
  • ウェビナー:Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf

    ウェビナーでは以下の内容をご紹介いたします: Nejumi.aiリーダーボードを任意のWandBサーバーに構築 自社モデルを結果を公開しないで評価するジョブの実行 独自データセットを用いた評価の追加方法 Weights & Biases Japanでは、昨年末、LLM-jpのモデル評価チームや、Stability AI Japan の評価チームの皆さんのご協力をいただいて、日最大規模の日語LLM評価ランキングである、Nejumi.aiリーダーボードのアップデート版、Nejumi LLMリーダーボード Neoを公開しました。 リーダーボード公開以降、自社のモデルを外部に公開せずに評価してリーダーボードに追加したいというリクエストを多く頂きました。その際には自社専用のDedicated Cloudを用いたいという声をありました。ウェビナーではこれらのリクエストにお答えして弊社のNeju

    ウェビナー:Nejumiリーダーボードを使った自社LLMモデルの独自評価.pdf
    arrowKato
    arrowKato 2024/03/07
    自社モデルで日本語の網羅的な評価をするときに使えそう。Nejumiリーダーボードのように。
  • Building and Evaluating Advanced RAG Applications

    Learn methods like sentence-window retrieval and auto-merging retrieval, improving your RAG pipeline's performance beyond the baseline.Learn evaluation best practices to streamline your process, and iteratively build a robust system.Dive into the RAG triad for evaluating the relevance and truthfulness of an LLM's response:Context Relevance, Groundedness, and Answer Relevance. Retrieval Augmented G

    Building and Evaluating Advanced RAG Applications
  • 1