評価ベンチマークカタログ

LLM 評価ジョブは、W&B Multi-tenant Cloud でプレビュー版として提供されています。プレビュー期間中は、コンピュートを無料で利用できます。詳細はこちら

このページでは、LLM Evaluation Jobs がカテゴリ別に提供する評価ベンチマークを一覧表示します。一部のベンチマークを実行するには、チーム管理者が必要なAPIキーをチームスコープのシークレットとして追加する必要があります。評価ジョブの設定時には、チームのどのメンバーでもそのシークレットを指定できます。

OpenAI Model Scorer 列が true のベンチマークでは、スコアリングにOpenAIのモデルを使用します。組織管理者またはチーム管理者は、OpenAI APIキーをチームシークレットとして追加する必要があります。この要件があるベンチマークで評価ジョブを設定する場合は、Scorer API key フィールドにそのシークレットを指定します。
- Gated Hugging Face Dataset 列にリンクがあるベンチマークでは、アクセス制限付きのHugging Faceデータセットへのアクセスが必要です。組織管理者またはチーム管理者は、Hugging Faceでそのデータセットへのアクセスをリクエストし、Hugging Faceのユーザーアクセストークンを作成して、そのアクセストークンを使ったチームシークレットを設定する必要があります。この要件があるベンチマークを設定する場合は、Hugging Face Token フィールドにそのシークレットを指定します。

知識

科学、言語、一般的な推論など、さまざまな分野にわたる事実知識を評価します。

評価	タスク ID	OpenAI スコアラー	アクセス制限付き Hugging Face データセット	説明
BoolQ	`boolq`			自然言語の質問に基づく二択のはい/いいえ問題
GPQA Diamond	`gpqa_diamond`			大学院レベルの科学問題 (最高品質のサブセット)
HLE	`hle`		はい	人間レベルの評価ベンチマーク
Lingoly	`lingoly`		はい	言語学オリンピックの問題
Lingoly Too	`lingoly_too`		はい	拡張版の言語学チャレンジ問題
MMIU	`mmiu`			大規模マルチタスク言語理解ベンチマーク
MMLU (0-shot)	`mmlu_0_shot`			例示なしの大規模マルチタスク言語理解
MMLU (5-shot)	`mmlu_5_shot`			5 例付きの大規模マルチタスク言語理解
MMLU-Pro	`mmlu_pro`			MMLU のより難しい版
ONET M6	`onet_m6`			職業知識ベンチマーク
PAWS	`paws`			言い換えに対する敵対的な単語置換
SevenLLM MCQ (English)	`sevenllm_mcq_en`			英語の多肢選択式問題
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			中国語の多肢選択式問題
SevenLLM QA (English)	`sevenllm_qa_en`			英語の質問応答
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			中国語の質問応答
SimpleQA	`simpleqa`	はい		シンプルな事実ベースの質問応答
SimpleQA Verified	`simpleqa_verified`			回答が検証された SimpleQA のサブセット
WorldSense	`worldsense`			世界知識と常識の理解を評価

推論

論理的思考、問題解決、および常識に基づく推論能力を評価します。

評価	タスク ID	説明
AGIE AQUA-RAT	`agie_aqua_rat`	解答根拠付きの代数的な質問応答
AGIE LogiQA (English)	`agie_logiqa_en`	英語の論理推論問題
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	LSAT の分析的推論 (ロジックゲーム) 問題
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	LSAT の論理推論問題
ARC Challenge	`arc_challenge`	推論を要する難度の高い科学問題 (AI2 Reasoning Challenge)
ARC Easy	`arc_easy`	ARC データセットの比較的易しい科学問題セット
BBH	`bbh`	BIG-Bench Hard: BIG-Bench から抽出された難度の高いタスク
CoCoNot	`coconot`	反事実的な常識推論ベンチマーク
CommonsenseQA	`commonsense_qa`	常識推論問題
HellaSwag	`hellaswag`	常識に基づく自然言語推論
MUSR	`musr`	多段階推論ベンチマーク
PIQA	`piqa`	物理常識推論
WinoGrande	`winogrande`	代名詞の照応解析による常識推論

数学

初等レベルから競技レベルまで、さまざまな難易度の数学の問題解決能力を評価します。

評価	タスク ID	説明
AGIE Math	`agie_math`	AGIE ベンチマークスイートにおける高度な数学的推論
AGIE SAT Math	`agie_sat_math`	SAT の数学問題
AIME 2024	`aime2024`	2024 年の American Invitational Mathematics Examination の問題
AIME 2025	`aime2025`	2025 年の American Invitational Mathematics Examination の問題
GSM8K	`gsm8k`	Grade School Math 8K: 複数 step の数学文章題
InfiniteBench Math Calc	`infinite_bench_math_calc`	長いコンテキスト内での数学計算
InfiniteBench Math Find	`infinite_bench_math_find`	長いコンテキスト内での数学的パターンの発見
MATH	`math`	競技レベルの数学問題
MGSM	`mgsm`	多言語の小学校レベルの数学

コード

デバッグ、コード実行結果の予測、関数呼び出しなど、プログラミングやソフトウェア開発の能力を評価します。

評価	タスク ID	説明
BFCL	`bfcl`	Berkeley Function Calling Leaderboard: 関数呼び出しとツール使用の能力を評価
InfiniteBench Code Debug	`infinite_bench_code_debug`	長文コンテキストでのコードデバッグタスク
InfiniteBench Code Run	`infinite_bench_code_run`	長文コンテキストでのコード実行結果予測

読解

複雑なテキストに対する読解力と情報抽出を評価します。

評価	タスク ID	説明
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	LSAT の読解パッセージと設問
AGIE SAT English	`agie_sat_en`	パッセージ付きの SAT の読解・ライティング問題
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	パッセージを伴わない SAT 英語問題
DROP	`drop`	Discrete Reasoning Over Paragraphs: 数値推論を要する読解問題
RACE-H	`race_h`	英語試験由来の読解問題 (高難度)
SQuAD	`squad`	Stanford 質問応答データセット: Wikipedia 記事を対象とした抽出的質問応答

長文コンテキスト

情報検索やパターン認識を含め、長文コンテキストを処理して推論する能力を評価します。

評価	タスク ID	説明
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	長文コンテキストにおけるキーと値の検索
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	長編書籍を対象とした多肢選択問題
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	長い対話に基づく質問応答
InfiniteBench Number String	`infinite_bench_number_string`	長いシーケンスにおける数値パターン認識
InfiniteBench Passkey	`infinite_bench_passkey`	長文コンテキストからの情報検索
NIAH	`niah`	干し草の山の中の針: 長文コンテキストにおける検索テスト

安全性

アラインメント、バイアス検出、有害コンテンツへの耐性、真実性を評価します。

評価	タスク ID	OpenAI スコアラー	アクセス制限付き HF データセット	説明
AgentHarm	`agentharm`	はい		有害なエージェントの振る舞いや悪用シナリオに対するモデルの耐性をテストします
AgentHarm Benign	`agentharm_benign`	はい		誤検知率を測定するための AgentHarm の無害なベースラインです
Agentic Misalignment	`agentic_misalignment`			エージェント的な振る舞いにおける潜在的なミスアラインメントを評価します
AHB	`ahb`			Agent Harmful Behavior: 有害なエージェント的行動に対する耐性をテストします
AIRBench	`air_bench`			敵対的な指示に対する耐性をテストします
BBEH	`bbeh`			有害な振る舞いを評価するためのバイアスベンチマークです
BBEH Mini	`bbeh_mini`			BBEH ベンチマークの小規模版です
BBQ	`bbq`			質問応答のためのバイアスベンチマークです
BOLD	`bold`			オープンエンドな言語生成データセットにおけるバイアス
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			視覚的プロンプトインジェクション攻撃に対する耐性をテストします
Make Me Pay	`make_me_pay`			金融詐欺や不正行為のシナリオに対する耐性をテストします
MASK	`mask`	はい	はい	機微情報に対するモデルの処理をテストします
Personality BFI	`personality_BFI`			ビッグファイブ性格特性評価
Personality TRAIT	`personality_TRAIT`		はい	包括的な性格特性評価
SOSBench	`sosbench`	はい		安全性と監督に関するストレステストです
StereoSet	`stereoset`			言語モデルにおけるステレオタイプ的なバイアスを測定します
StrongREJECT	`strong_reject`			有害なリクエストを拒否するモデルの能力をテストします
Sycophancy	`sycophancy`			おもねるような振る舞いの傾向を評価します
TruthfulQA	`truthfulqa`			モデルの真実性と虚偽に対する耐性をテストします
UCCB	`uccb`			Unsafe Content Classification Benchmark
WMDP Bio	`wmdp_bio`			生物学分野における危険な知識をテストします
WMDP Chem	`wmdp_chem`			化学分野における危険な知識をテストします
WMDP Cyber	`wmdp_cyber`			サイバーセキュリティ分野における危険な知識をテストします
XSTest	`xstest`	はい		過剰拒否を検出するための誇張的な安全性テストです

専門分野別

医学、化学、法律、生物学、その他の専門分野における専門知識を評価します。

評価	タスク ID	OpenAI スコアラー	説明
ChemBench	`chembench`		化学知識と問題解決のベンチマーク
HealthBench	`healthbench`	はい	ヘルスケアおよび医療知識の評価
HealthBench Consensus	`healthbench_consensus`	はい	専門家のコンセンサスに基づくヘルスケア関連の質問
HealthBench Hard	`healthbench_hard`	はい	難易度の高いヘルスケアシナリオ
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		実験計画とクローニング
LabBench DBQA	`lab_bench_dbqa`		ラボシナリオ向けのデータベース質問応答
LabBench FigQA	`lab_bench_figqa`		科学的文脈における図の解釈
LabBench LitQA	`lab_bench_litqa`		研究向けの文献ベースの質問応答
LabBench ProtocolQA	`lab_bench_protocolqa`		実験プロトコルの理解
LabBench SeqQA	`lab_bench_seqqa`		生物学的配列解析に関する質問
LabBench SuppQA	`lab_bench_suppqa`		補足資料の解釈
LabBench TableQA	`lab_bench_tableqa`		科学論文における表の解釈
MedQA	`medqa`		医師免許試験の問題
PubMedQA	`pubmedqa`		研究論文の要旨に基づく生物医学の質問応答
SEC-QA v1	`sec_qa_v1`		SEC提出書類の質問応答
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		5例を用いた SEC-QA
SEC-QA v2	`sec_qa_v2`		更新版の SEC提出書類ベンチマーク
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		5例を用いた SEC-QA v2

マルチモーダル

画像入力とテキスト入力を組み合わせた、視覚と言語の理解を評価します。

評価	タスク ID	説明
DocVQA	`docvqa`	文書画像に関する質問応答
MathVista	`mathvista`	視覚的コンテキストと数学を組み合わせた数学的推論
MMMU Multiple Choice	`mmmu_multiple_choice`	多肢選択形式のマルチモーダル理解
MMMU Open	`mmmu_open`	自由回答形式のマルチモーダル理解
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	視覚属性認識タスク
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	視覚入力を用いた空間推論

指示追従

特定の指示や書式要件への準拠を評価します。

評価	タスク ID	OpenAI スコアラー	アクセス制限付き HF データセット	説明
IFEval	`ifeval`			指示に正確に従う能力をテストします

システム

基本的なシステムの検証と事前チェック。

評価	タスク ID	OpenAI スコアラー	アクセス制限付き HF データセット	説明
Pre-Flight	`pre_flight`			基本的なシステムチェックと検証用テスト

ガイド

インテグレーション

リファレンス

知識

推論

数学

コード

読解

長文コンテキスト

安全性

専門分野別

マルチモーダル

指示追従

システム

次のステップ

ガイド

インテグレーション

リファレンス

Documentation Index

​知識

​推論

​数学

​コード

​読解

​長文コンテキスト

​安全性

​専門分野別

​マルチモーダル

​指示追従

​システム

​次のステップ

知識

推論

数学

コード

読解

長文コンテキスト

安全性

専門分野別

マルチモーダル

指示追従

システム

次のステップ