Benchmarks
Wat betekent een score op SWE-bench? Of MMLU-Pro? Per benchmark: wat er wordt gemeten, hoe je de score moet lezen, een voorbeeld-opgave, wie er nu voor staat en wat de valkuilen zijn.
Overzicht
| Benchmark | Categorie | Huidige leider | Score | Stand |
|---|---|---|---|---|
| CharXiv Reasoning Kan het model complexe wetenschappelijke grafieken uit onderzoekspapers correct interpreteren en er logisch over redeneren? | Multimodaal | Gemini 3.5 Flash | 84.2% | mei 2026 |
| MCP Atlas Kan het model de juiste tools vinden, combineren en aansturen via het Model Context Protocol om een realistische taak op te lossen? | Agentic | Gemini 3.5 Flash | 83.6% | mei 2026 |
| Terminal-Bench 2.1 Kan het model complexe taken in een terminal-omgeving zelfstandig afmaken, van code compileren tot servers opzetten? | Agentic | Gemini 3.5 Flash | 76.2% | mei 2026 |
| SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen? | Code | Claude Mythos Preview | ~93,9% | april 2026 |
| HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving? | Code | Claude Sonnet 4.5 | ~97,6% | april 2026 |
| LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen. | Code | Gemini 3 Pro Preview | ~91,7% | april 2026 |
| Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen? | Code | GPT-5 | ~88% | april 2026 |
| MMLU-Pro Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag. | Kennis | Gemini 3 Pro Preview | ~89,8% | april 2026 |
| GPQA Diamond 198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen. | Kennis | Gemini 3.1 Pro Preview | ~94,1% | april 2026 |
| AIME (2024/2025) Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI. | Wiskunde | GPT-5 (AIME 2024) | ~95,7% | april 2026 |
| Humanity's Last Exam Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI. | Redeneren | Claude Opus 4.8 | 57,9% | mei 2026 |
Per categorie
Multimodaal
Agentic
Code
- SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen?
- HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving?
- LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen.
- Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen?