Benchmarks
Wat betekent een score op SWE-bench? Of MMLU-Pro? Per benchmark: wat er wordt gemeten, hoe je de score moet lezen, een voorbeeld-opgave, wie er nu voor staat en wat de valkuilen zijn.
Overzicht
| Benchmark | Categorie | Huidige leider | Score | Stand |
|---|---|---|---|---|
| SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen? | Code | Claude Mythos Preview | ~93,9% | april 2026 |
| HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving? | Code | Claude Sonnet 4.5 | ~97,6% | april 2026 |
| LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen. | Code | Gemini 3 Pro Preview | ~91,7% | april 2026 |
| Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen? | Code | GPT-5 | ~88% | april 2026 |
| MMLU-Pro Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag. | Kennis | Gemini 3 Pro Preview | ~89,8% | april 2026 |
| GPQA Diamond 198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen. | Kennis | Gemini 3.1 Pro Preview | ~94,1% | april 2026 |
| AIME (2024/2025) Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI. | Wiskunde | GPT-5 (AIME 2024) | ~95,7% | april 2026 |
| Humanity's Last Exam Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI. | Redeneren | Gemini 3.1 Pro Preview | ~44,7% | april 2026 |
Per categorie
Code
- SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen?
- HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving?
- LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen.
- Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen?