Benchmark
Een gestandaardiseerde test waarmee je meet hoe goed een AI-model presteert op een specifieke taak, zodat je modellen eerlijk kunt vergelijken.
Laatst bijgewerkt op · Term toegevoegd.
Een benchmark is een vaste set taken die AI-modellen moeten uitvoeren om te laten zien hoe goed ze zijn. Vergelijk het met een rijexamen: iedereen krijgt dezelfde vragen en opdrachten, zodat je de resultaten eerlijk naast elkaar kunt leggen. "Claude scoort 79 procent op SWE-bench" betekent dat Claude 79 van de 100 echte GitHub-bugs correct kon oplossen in die test.
Waarom zijn benchmarks belangrijk?
Zonder benchmarks is "dit model is beter" een mening. Met benchmarks is het een meetbaar feit. AI-labs als Anthropic, OpenAI en Google publiceren benchmarkscores bij elke release zodat je kunt beoordelen of een nieuw model daadwerkelijk beter is, en op welke taken precies. Let op: een model dat hoog scoort op wiskunde is niet automatisch goed in het schrijven van Nederlandse teksten.
Welke benchmarks zijn er?
Benchmarks bestaan voor verschillende vaardigheden:
- Codering: SWE-bench Verified (lost het model echte bugs op?), Terminal-Bench (kan het autonoom taken in een terminal uitvoeren?)
- Redeneren: ARC-AGI (abstracte puzzels), GPQA (universitaire wetenschapsvragen)
- Tool-gebruik: MCP Atlas (kan het de juiste tools vinden en combineren?)
- Multimodaal: CharXiv (begrijpt het wetenschappelijke grafieken?)
Bekijk onze volledige benchmark-tracker voor actuele scores per model.
Waar moet je op letten?
Benchmarks hebben beperkingen. Een model kan specifiek getraind zijn op benchmark-vragen zonder dat het in de praktijk beter presteert. Dat heet "teaching to the test." Kijk daarom altijd naar meerdere benchmarks tegelijk, en test het model zelf op jouw eigen taken voordat je beslist.