Benchmarks

Wat betekent een score op SWE-bench? Of MMLU-Pro? Per benchmark: wat er wordt gemeten, hoe je de score moet lezen, een voorbeeld-opgave, wie er nu voor staat en wat de valkuilen zijn.

Overzicht

Benchmark	Categorie	Huidige leider	Score	Stand
CharXiv Reasoning Kan het model complexe wetenschappelijke grafieken uit onderzoekspapers correct interpreteren en er logisch over redeneren?	Multimodaal	Gemini 3.5 Flash	84.2%	mei 2026
MCP Atlas Kan het model de juiste tools vinden, combineren en aansturen via het Model Context Protocol om een realistische taak op te lossen?	Agentic	Gemini 3.5 Flash	83.6%	mei 2026
Terminal-Bench 2.1 Kan het model complexe taken in een terminal-omgeving zelfstandig afmaken, van code compileren tot servers opzetten?	Agentic	Gemini 3.5 Flash	76.2%	mei 2026
SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen?	Code	Claude Mythos Preview	~93,9%	april 2026
HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving?	Code	Claude Sonnet 4.5	~97,6%	april 2026
LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen.	Code	Gemini 3 Pro Preview	~91,7%	april 2026
Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen?	Code	GPT-5	~88%	april 2026
MMLU-Pro Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag.	Kennis	Gemini 3 Pro Preview	~89,8%	april 2026
GPQA Diamond 198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen.	Kennis	Gemini 3.1 Pro Preview	~94,1%	april 2026
AIME (2024/2025) Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI.	Wiskunde	GPT-5 (AIME 2024)	~95,7%	april 2026
Humanity's Last Exam Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI.	Redeneren	Claude Opus 4.8	57,9%	mei 2026

Per categorie

Multimodaal

CharXiv Reasoning Kan het model complexe wetenschappelijke grafieken uit onderzoekspapers correct interpreteren en er logisch over redeneren?

Agentic

MCP Atlas Kan het model de juiste tools vinden, combineren en aansturen via het Model Context Protocol om een realistische taak op te lossen?
Terminal-Bench 2.1 Kan het model complexe taken in een terminal-omgeving zelfstandig afmaken, van code compileren tot servers opzetten?

Code

Kennis

Wiskunde

AIME (2024/2025) Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI.

Redeneren

Humanity's Last Exam Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI.

Recent AI-nieuws