Kennis

MMLU-Pro

Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag.

Top-modellen

#	Model	Provider	Score	Datum
1	Gemini 3 Pro Preview (high) reasoning	Google	89,8%	2026-04
2	Gemini 3 Pro Preview (low)	Google	89,5%	2026-04
3	Claude Opus 4.5 (Reasoning) reasoning	Anthropic	89,5%	2026-03
4	Qwen3.6 Plus	Alibaba	88,5%	2026-04
5	MiniMax M2.1	MiniMax	88%	2026-04
6	Qwen3.5-397B-A17B	Alibaba	87,8%	2026-04
7	Kimi K2.5	Moonshot AI	87,1%	2026-04
8	ERNIE 5.0	Baidu	87%	2026-04

Wat meet het?

MMLU-Pro is een herziening uit 2024 van de bekende MMLU-test. Ongeveer 12.000 multiple-choice vragen verdeeld over 14 domeinen: biologie, recht, wiskunde, filosofie, geneeskunde, engineering en meer. Elke vraag heeft 10 antwoordopties (in plaats van 4 bij MMLU) en de set is handmatig gefilterd op triviale of lekkende vragen.

Het doel: een pure kennistest die niet met gokken of oppervlakkige patroonherkenning te kraken is — echte redenering nodig.

Hoe je de score leest

Score is het percentage correct beantwoorde vragen.

Willekeurig gokken: 10% (tien antwoordopties).
Mens-expert-baseline: ~78% met chain-of-thought.
Huidige top: ~90%. Top-3 zit binnen één procentpunt — praktisch verzadigd.

Voorbeeld-opgave

Voorbeeld (wiskunde):

"Bepaal de karakteristiek van de ring 2ℤ."
A. 0 · B. 30 · C. 3 · D. 10 · E. 12 · F. 50 · G. 2 · H. 100 · I. 20 · J. 5

Juist antwoord: A (0) — er bestaat geen positieve n waarvoor n·x = 0 voor alle x in 2ℤ.

Waar je op moet letten

Verzadigd. Top-modellen zitten boven de menselijke expert-baseline. Minder nuttig als onderscheider tussen frontier-modellen — gebruik GPQA Diamond of HLE voor de echt harde vragen.
Zelf-gerapporteerd vs. onafhankelijk. De cijfers in model-release-posts zijn bijna altijd door de maker zelf gedraaid. Onafhankelijke reruns (Artificial Analysis) kunnen 2–5 punten afwijken.
Scheve domeinverdeling. Wiskunde en recht zijn oververtegenwoordigd. Een gemiddelde score kan domein-zwakte maskeren.

Bronnen

← Terug naar alle benchmarks