Kennis

MMLU-Pro

Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag.

Top-modellen

# Model Provider Score Datum
1 Gemini 3 Pro Preview (high) reasoning Google 89,8% 2026-04
2 Gemini 3 Pro Preview (low) Google 89,5% 2026-04
3 Claude Opus 4.5 (Reasoning) reasoning Anthropic 89,5% 2026-03
4 Qwen3.6 Plus Alibaba 88,5% 2026-04
5 MiniMax M2.1 MiniMax 88% 2026-04
6 Qwen3.5-397B-A17B Alibaba 87,8% 2026-04
7 Kimi K2.5 Moonshot AI 87,1% 2026-04
8 ERNIE 5.0 Baidu 87% 2026-04

Wat meet het?

MMLU-Pro is een herziening uit 2024 van de bekende MMLU-test. Ongeveer 12.000 multiple-choice vragen verdeeld over 14 domeinen: biologie, recht, wiskunde, filosofie, geneeskunde, engineering en meer. Elke vraag heeft 10 antwoordopties (in plaats van 4 bij MMLU) en de set is handmatig gefilterd op triviale of lekkende vragen.

Het doel: een pure kennistest die niet met gokken of oppervlakkige patroonherkenning te kraken is — echte redenering nodig.

Hoe je de score leest

Score is het percentage correct beantwoorde vragen.

  • Willekeurig gokken: 10% (tien antwoordopties).
  • Mens-expert-baseline: ~78% met chain-of-thought.
  • Huidige top: ~90%. Top-3 zit binnen één procentpunt — praktisch verzadigd.

Voorbeeld-opgave

Voorbeeld (wiskunde):

"Bepaal de karakteristiek van de ring 2ℤ."
A. 0 · B. 30 · C. 3 · D. 10 · E. 12 · F. 50 · G. 2 · H. 100 · I. 20 · J. 5

Juist antwoord: A (0) — er bestaat geen positieve n waarvoor n·x = 0 voor alle x in 2ℤ.

Waar je op moet letten

  • Verzadigd. Top-modellen zitten boven de menselijke expert-baseline. Minder nuttig als onderscheider tussen frontier-modellen — gebruik GPQA Diamond of HLE voor de echt harde vragen.
  • Zelf-gerapporteerd vs. onafhankelijk. De cijfers in model-release-posts zijn bijna altijd door de maker zelf gedraaid. Onafhankelijke reruns (Artificial Analysis) kunnen 2–5 punten afwijken.
  • Scheve domeinverdeling. Wiskunde en recht zijn oververtegenwoordigd. Een gemiddelde score kan domein-zwakte maskeren.

Bronnen

← Terug naar alle benchmarks