エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Nejumi LLMリーダーボード Neo の LLMベンチマークの使い方|npaka
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Nejumi LLMリーダーボード Neo の LLMベンチマークの使い方|npaka
この入門記事は、「Weights & Biases」のご支援により提供されています。Weights & Biases JapanのNote... この入門記事は、「Weights & Biases」のご支援により提供されています。Weights & Biases JapanのNoteでは他にも多くの有用な記事が掲載されていますので是非ご覧ください。 1. Nejumi LLMリーダーボード Neo「Nejumi LLMリーダーボード Neo」は、日本語LLMの能力評価ランキングです。「llm-jp-eval」「MT-Bench」という2つのLLMベンチマークで評価します。 2. 評価項目評価項目は、次のとおりです。 2-1. llm-jp-eval「llm-jp-eval」は、一問一答形式の言語理解を評価するベンチマークです。12種類のデータセットを100問ずつ全1200問で正解・不正解 (0 or 1) を評価し、平均値を算出します。 ・NLI (自然言語推論): Jamp(exact), JaNLI(exact), JN