Benchmarks

Wat betekent een score op SWE-bench? Of MMLU-Pro? Per benchmark: wat er wordt gemeten, hoe je de score moet lezen, een voorbeeld-opgave, wie er nu voor staat en wat de valkuilen zijn.

Overzicht

Benchmark Categorie Huidige leider Score Stand
SWE-bench Verified Kan het model echte bugs uit open-source GitHub-projecten oplossen? Code Claude Mythos Preview ~93,9% april 2026
HumanEval Kan het model een Python-functie schrijven op basis van een korte beschrijving? Code Claude Sonnet 4.5 ~97,6% april 2026
LiveCodeBench Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen. Code Gemini 3 Pro Preview ~91,7% april 2026
Aider Polyglot Kan het model code schrijven én patchen in zes verschillende programmeertalen? Code GPT-5 ~88% april 2026
MMLU-Pro Multiple-choice kennistest over 14 domeinen, met 10 antwoordopties per vraag. Kennis Gemini 3 Pro Preview ~89,8% april 2026
GPQA Diamond 198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen. Kennis Gemini 3.1 Pro Preview ~94,1% april 2026
AIME (2024/2025) Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI. Wiskunde GPT-5 (AIME 2024) ~95,7% april 2026
Humanity's Last Exam Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI. Redeneren Gemini 3.1 Pro Preview ~44,7% april 2026

Per categorie

Code

Kennis

Wiskunde

Redeneren

Recent AI-nieuws