タグ

ブックマーク / note.com/npaka (11)

  • Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka

    「Weave」と「Elyza-tasks-100」で ローカルLLMの評価を試したので、まとめました。 1. Weave と Elyza-tasks-100「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。「評価関数」と「評価データセット」を用意するだけで、LLMの評価に必要な面倒な処理 (記録・集計など) をすべて肩代わりしてくれます。 「Elyza-tasks-100」はElyzaが提供する指示チューニングモデル用の評価用データセットです。問題固有の採点基準の情報も含まれています。 2. 評価データセットの準備評価データセットの準備手順は、次のとおりです。 (1) 「Elyza-tasks-100」から「test.csv」をダウンロード。 (2) 以下のプロンプトテンプレートを作成。 ・pr

    Weave と Elyza-tasks-100 で ローカルLLMを評価する|npaka
  • LlamaIndex の 評価機能 を試す|npaka

    「LlamaIndex」の「評価」の機能を試したのでまとめました。 ・LlamaIndex 0.10.26 1. LlamaIndexの評価RAGアプリケーションの性能を向上させるには、その性能を「評価」する必要があります。 ・Retrieval Evaluation (取得評価) ベクトルストアから取得するコンテキスト (チャンク) の品質を評価します。 具体的には、リトリーバーで期待するコンテキストを取得できるかどうかを測定します。 ・Response Evaluation (応答評価) クエリエンジンが生成する応答の品質を評価します。 具体的には、応答が取得したコンテキストの情報と一致するかどうか (幻覚がないかどうか) を測定します。 3. 質問応答Google Colabでの質問応答の実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール

    LlamaIndex の 評価機能 を試す|npaka
    secondlife
    secondlife 2024/04/05
    質問をnodeから自動作成、MMRとhit_rateで評価。
  • 日本語LLM の学習に関する技術記事まとめ|npaka

    語LLM の学習に関する技術記事をまとめました。日語LLMの開発元の技術記事およびプレゼン資料が中心になります。 2023年5月9日 wandb - LLMをゼロからトレーニングするためのベストプラクティス

    日本語LLM の学習に関する技術記事まとめ|npaka
  • Google Colab で distilabel を試す|npaka

    Google Colab」で「distilabel」を試したので、まとめました。 1. distilabel「distilabel」は、LLMを使用してLLM用のデータセットを作成するためのAI Feadback (AIF) フレームワークです。 ・LLMの最も一般的なライブラリ・APIとの統合 (HuggingFace Transformers、OpenAI、vLLMなど) ・Self-Instruct、Preferenceデータセットなどの複数のタスクに対応 ・データセットを Argillaにエクスポートすることで、データ探索とさらなるアノテーションが容易に 2. セットアップGoogle Colabでのセットアップ手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install distilabel[openai,argilla]

    Google Colab で distilabel を試す|npaka
    secondlife
    secondlife 2024/01/19
    LLMでデータセット作成
  • mergekit を使用してLLMをマージする|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Merge Large Language Models with mergekit 1. モデルのマージモデルのマージは、2つ以上のLLMを1つのモデルに結合する手法です。これは、新しいモデルを安価に作成するための比較的新しく実験的な方法です (GPUは必要ありません)。モデルのマージは驚くほどうまく機能し、 「Open LLM Leaderboard」に多くの最先端のモデルが生成されました。 このチュートリアルでは、「mergekit」を使用して独自のモデル「Marcoro14-7B-slerp」を作成します。このモデルは、「Open LLM Leaderboard」 (02/01/23) で最高のパフォーマンスを誇るモデルになりました。 コードは「GitHub」および「Google Colab」で入手できます。「mergekit」を簡

    mergekit を使用してLLMをマージする|npaka
    secondlife
    secondlife 2024/01/12
    model merge
  • LangChain のための wandb 入門|npaka

    この入門記事は、「Weights & Biases」のご支援により提供されています。 1. wandb「wandb」 (Weights & Biases) は、機械学習の実験管理とモデルのパフォーマンス追跡に特化したツールです。 「wandb」の主な機能は、次のとおりです。 ・トレース : 実験のパラメータ、評価指標、出力を自動的にログに記録します。これにより、異なる実験間での比較や分析が容易になります。 ・視覚化: 学習中の評価ををリアルタイムで視覚化します。これにより、モデルのパフォーマンスを直感的に理解しやすくなります。 ・ハイパーパラメータの最適化 : 異なるハイパーパラメータのセットを試して、最適な組み合わせを見つけるのに役立ちます。 ・チームコラボレーション : チームメンバー間で実験のデータを共有し、コラボレーションを促進します。 ・統合 : 主要な機械学習フレームワーク (

    LangChain のための wandb 入門|npaka
  • LangChain への OpenAIのRAG戦略の適用|npaka

    以下の記事が面白かったので、かるくまとめました。 ・Applying OpenAI's RAG Strategies 1. はじめに「Open AI」はデモデーで一連のRAG実験を報告しました。評価指標はアプリケーションによって異なりますが、何が機能し、何が機能しなかったかを確認するのは興味深いことです。以下では、各手法を説明し、それぞれを自分で実装する方法を示します。アプリケーションでのこれらの方法を理解する能力は非常に重要です。問題が異なれば異なる検索手法が必要となるため、「万能の」解決策は存在しません。 2. RAG スタックにどのように適合するかまず、各手法をいくつかの「RAGカテゴリ」に分類します。以下は、カテゴリ内の各RAG実験を示し、RAGスタックに配置する図です。 3. ベースライン距離ベースのベクトルデータベース検索は、クエリを高次元空間に埋め込み(表現)し、「距離」に基

    LangChain への OpenAIのRAG戦略の適用|npaka
  • LangChain の Step-back Prompting を試す|npaka

    「LangChain」の「Step-back Prompting」を試したので、まとめました。 1. Step-back Prompting「Step-back Prompting」は、論文「Take a Step Back」で紹介されている、LLMの質問応答の性能を向上させる手法です。 アルゴリズムは次のとおりです。 (1) ユーザーの元の質問に基づいて、ステップバック質問を生成 (2) 元の質問とステップバック質問の両方を情報収集 (3) 取得した両方の情報に基づいて回答を生成 🏃Step-back prompting A new prompting technique from Google Deepmind, can be used to improve RAG results 🦜🔗Now in LangChain! 💬"STEP-BACK PROMPTING is mot

    LangChain の Step-back Prompting を試す|npaka
    secondlife
    secondlife 2023/10/25
    “LLMの質問応答の性能を向上させる手法”
  • OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す|npaka

    OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試したのでまとめました。 1. GPT-4 から GPT-3.5 への蒸留「LlamaIndex」で、OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留のColabが提供されてたので、それをベースに独自データで試してみました。 具体的には、「GPT-4」で学習データを生成し、「GPT-3.5」でファインチューニングすることで、「GPT-3.5」に「GPT-4」相当の知識を習得させます。 We successfully made gpt-3.5-turbo output GPT-4 quality responses in an e2e RAG system 🔥 Stack: automated training dataset creation in @ll

    OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す|npaka
    secondlife
    secondlife 2023/08/30
    GPT4でQA作ってFTする
  • text-generation-webui で Rinna・OpenCALM・RWKV を試す|npaka

    text-generation-webui」で「Rinna」「OpenCALM」「RWKV」を試したので、まとめました。 ・Windows 11 1. text-generation-webuitext-generation-webui」は、大規模言語モデルを実行するためのWeb UIです。テキスト生成の「AUTOMATIC1111」になることを目標としています。 特徴は、次のとおりです。 ・3つのインターフェイスモード (default, notebook, chat) ・モデルバックエンド (transformers, llama.cpp, AutoGPTQ, GPTQ-for-LLaMa, ExLlama, RWKV, FlexGen) ・ドロップダウンメニューによるモデル切り替え ・LoRA (ロード・アンロード・学習) ・プロンプトテンプレート (Alpaca, Vicuna

    text-generation-webui で Rinna・OpenCALM・RWKV を試す|npaka
    secondlife
    secondlife 2023/06/26
    sd-webui の text-generation 版を目指しているという、text-generation-webui について
  • StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

    以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチューニング ・RM (Reward / preference modeling) : 報酬 / 嗜好モデリング ・RLHF (Reinforcement Learning from Human Feedback) : ヒューマンフィードバックからの強化学習 「StackLLaMA」は、以下でデモを試すことができます。 ベースモデルとして「LLaMA 7B」、データセットとして「

    StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
  • 1