Top-modellen

#	Model	Provider	Score	Datum
1	Claude Mythos Preview reasoning	Anthropic	93,9%	2026-04
2	Claude Opus 4.7 reasoning	Anthropic	87,6%	2026-04
3	Claude Opus 4.5 reasoning	Anthropic	80,9%	2026-03
4	Claude Opus 4.6 reasoning	Anthropic	80,8%	2026-03
5	Gemini 3.1 Pro reasoning	Google	80,6%	2026-04
6	MiniMax M2.5	MiniMax	80,2%	2026-03
7	GPT-5.2 reasoning	OpenAI	80%	2025-12-11
8	Claude Sonnet 4.6 reasoning	Anthropic	79,6%	2026-02

Wat meet het?

SWE-bench Verified test of een model zelfstandig echte GitHub-issues kan oplossen door de codebase aan te passen. De benchmark gebruikt 500 door mensen gevalideerde problemen uit populaire Python-projecten (Django, Flask, scikit-learn, SymPy en andere), gekozen uit de oorspronkelijke SWE-bench dataset.

Het model krijgt de volledige repo, de issue-tekst en een startpunt in de git-historie. Het moet bestanden aanpassen zodat een vooraf gedefinieerde set tests slaagt. Geen multiple choice, geen quiz — gewoon: werkt de fix of niet.

Hoe je de score leest

Scores zijn het percentage issues dat correct wordt opgelost. Drie ijkpunten om de score te lezen:

Willekeurig gokken: niet zinvol (het is geen quiz).
Mens-baseline: de oorspronkelijke pull request die de bug fixte is per definitie 100% — dat is de ground truth.
Huidige top: de beste modellen halen ruim boven de 80%, de absolute top tikt 90+.

Boven de 70% is sterk. Onder de 50% betekent dat een model vaak faalt op echte software-taken.

Voorbeeld-opgave

Voorbeeld-issue (vertaald uit de dataset):

Repo: django/django — "Incorrecte queryset-resultaat bij gebruik van Subquery met exclude()". De ORM-laag filtert niet alle verwachte rijen uit wanneer een subquery gecombineerd wordt met exclude. Fix de bug zodat de meegeleverde tests slagen."

Het model krijgt de repo op een specifieke commit-hash vóór de fix. Het moet de juiste bestanden identificeren, de oorzaak vinden en een patch schrijven. Succes = de gekoppelde tests (die eerst faalden) slagen erna.

Waar je op moet letten

Agentic vs. zuiver model. Veel topscores gebruiken een agent-systeem met tool-gebruik, meerdere rondes en retries. Dat is niet appels met appels vergelijken met single-shot model-scores.
Verzadiging. De ruimte tussen top-modellen wordt klein — de community schuift al op naar SWE-bench Pro.
Zelf-gerapporteerde scores. Preview-modellen worden vaak door de makers zelf gescoord; wacht op onafhankelijke replicatie (bijv. Epoch AI of Artificial Analysis).

Top-modellen

Wat meet het?

Hoe je de score leest

Voorbeeld-opgave

Waar je op moet letten

Bronnen