Benchmarks

Wat betekent een score op SWE-bench? Of MMLU-Pro? Per benchmark: wat er wordt gemeten, hoe je de score moet lezen, een voorbeeld-opgave, wie er nu voor staat en wat de valkuilen zijn.

Overzicht

Benchmark Categorie Huidige leider Score Stand
CharXiv Reasoning Kan het model complexe wetenschappelijke grafieken uit onderzoekspapers correct interpreteren en er logisch over redeneren? Multimodaal Gemini 3.5 Flash 84.2% mei 2026
MCP Atlas Kan het model de juiste tools vinden, combineren en aansturen via het Model Context Protocol om een realistische taak op te lossen? Agentic Gemini 3.5 Flash 83.6% mei 2026
Terminal-Bench 2.1 Kan het model complexe taken in een terminal-omgeving zelfstandig afmaken, van code compileren tot servers opzetten? Agentic Gemini 3.5 Flash 76.2% mei 2026
SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen? Code Claude Mythos Preview ~93,9% april 2026
HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving? Code Claude Sonnet 4.5 ~97,6% april 2026
LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen. Code Gemini 3 Pro Preview ~91,7% april 2026
Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen? Code GPT-5 ~88% april 2026
MMLU-Pro Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag. Kennis Gemini 3 Pro Preview ~89,8% april 2026
GPQA Diamond 198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen. Kennis Gemini 3.1 Pro Preview ~94,1% april 2026
AIME (2024/2025) Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI. Wiskunde GPT-5 (AIME 2024) ~95,7% april 2026
Humanity's Last Exam Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI. Redeneren Claude Opus 4.8 57,9% mei 2026

Per categorie

Multimodaal

Agentic

Code

Kennis

Wiskunde

Redeneren

Recent AI-nieuws