MMLU-Pro
Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag.
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | Gemini 3 Pro Preview (high) reasoning | 89,8% | 2026-04 | |
| 2 | Gemini 3 Pro Preview (low) | 89,5% | 2026-04 | |
| 3 | Claude Opus 4.5 (Reasoning) reasoning | Anthropic | 89,5% | 2026-03 |
| 4 | Qwen3.6 Plus | Alibaba | 88,5% | 2026-04 |
| 5 | MiniMax M2.1 | MiniMax | 88% | 2026-04 |
| 6 | Qwen3.5-397B-A17B | Alibaba | 87,8% | 2026-04 |
| 7 | Kimi K2.5 | Moonshot AI | 87,1% | 2026-04 |
| 8 | ERNIE 5.0 | Baidu | 87% | 2026-04 |
Wat meet het?
MMLU-Pro is een herziening uit 2024 van de bekende MMLU-test. Ongeveer 12.000 multiple-choice vragen verdeeld over 14 domeinen: biologie, recht, wiskunde, filosofie, geneeskunde, engineering en meer. Elke vraag heeft 10 antwoordopties (in plaats van 4 bij MMLU) en de set is handmatig gefilterd op triviale of lekkende vragen.
Het doel: een pure kennistest die niet met gokken of oppervlakkige patroonherkenning te kraken is — echte redenering nodig.
Hoe je de score leest
Score is het percentage correct beantwoorde vragen.
- Willekeurig gokken: 10% (tien antwoordopties).
- Mens-expert-baseline: ~78% met chain-of-thought.
- Huidige top: ~90%. Top-3 zit binnen één procentpunt — praktisch verzadigd.
Voorbeeld-opgave
Voorbeeld (wiskunde):
"Bepaal de karakteristiek van de ring 2ℤ."
A. 0 · B. 30 · C. 3 · D. 10 · E. 12 · F. 50 · G. 2 · H. 100 · I. 20 · J. 5Juist antwoord: A (0) — er bestaat geen positieve n waarvoor n·x = 0 voor alle x in 2ℤ.
Waar je op moet letten
- Verzadigd. Top-modellen zitten boven de menselijke expert-baseline. Minder nuttig als onderscheider tussen frontier-modellen — gebruik GPQA Diamond of HLE voor de echt harde vragen.
- Zelf-gerapporteerd vs. onafhankelijk. De cijfers in model-release-posts zijn bijna altijd door de maker zelf gedraaid. Onafhankelijke reruns (Artificial Analysis) kunnen 2–5 punten afwijken.
- Scheve domeinverdeling. Wiskunde en recht zijn oververtegenwoordigd. Een gemiddelde score kan domein-zwakte maskeren.