SWE-bench Verified
Kan het model echte bugs uit open-source GitHub-projecten oplossen?
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | Claude Mythos Preview reasoning | Anthropic | 93,9% | 2026-04 |
| 2 | Claude Opus 4.7 reasoning | Anthropic | 87,6% | 2026-04 |
| 3 | Claude Opus 4.5 reasoning | Anthropic | 80,9% | 2026-03 |
| 4 | Claude Opus 4.6 reasoning | Anthropic | 80,8% | 2026-03 |
| 5 | Gemini 3.1 Pro reasoning | 80,6% | 2026-04 | |
| 6 | MiniMax M2.5 | MiniMax | 80,2% | 2026-03 |
| 7 | GPT-5.2 reasoning | OpenAI | 80% | 2025-12-11 |
| 8 | Claude Sonnet 4.6 reasoning | Anthropic | 79,6% | 2026-02 |
Wat meet het?
SWE-bench Verified test of een model zelfstandig echte GitHub-issues kan oplossen door de codebase aan te passen. De benchmark gebruikt 500 door mensen gevalideerde problemen uit populaire Python-projecten (Django, Flask, scikit-learn, SymPy en andere), gekozen uit de oorspronkelijke SWE-bench dataset.
Het model krijgt de volledige repo, de issue-tekst en een startpunt in de git-historie. Het moet bestanden aanpassen zodat een vooraf gedefinieerde set tests slaagt. Geen multiple choice, geen quiz — gewoon: werkt de fix of niet.
Hoe je de score leest
Scores zijn het percentage issues dat correct wordt opgelost. Drie ijkpunten om de score te lezen:
- Willekeurig gokken: niet zinvol (het is geen quiz).
- Mens-baseline: de oorspronkelijke pull request die de bug fixte is per definitie 100% — dat is de ground truth.
- Huidige top: de beste modellen halen ruim boven de 80%, de absolute top tikt 90+.
Boven de 70% is sterk. Onder de 50% betekent dat een model vaak faalt op echte software-taken.
Voorbeeld-opgave
Voorbeeld-issue (vertaald uit de dataset):
Repo:
django/django— "Incorrecte queryset-resultaat bij gebruik vanSubquerymetexclude()". De ORM-laag filtert niet alle verwachte rijen uit wanneer een subquery gecombineerd wordt met exclude. Fix de bug zodat de meegeleverde tests slagen."
Het model krijgt de repo op een specifieke commit-hash vóór de fix. Het moet de juiste bestanden identificeren, de oorzaak vinden en een patch schrijven. Succes = de gekoppelde tests (die eerst faalden) slagen erna.
Waar je op moet letten
- Agentic vs. zuiver model. Veel topscores gebruiken een agent-systeem met tool-gebruik, meerdere rondes en retries. Dat is niet appels met appels vergelijken met single-shot model-scores.
- Verzadiging. De ruimte tussen top-modellen wordt klein — de community schuift al op naar SWE-bench Pro.
- Zelf-gerapporteerde scores. Preview-modellen worden vaak door de makers zelf gescoord; wacht op onafhankelijke replicatie (bijv. Epoch AI of Artificial Analysis).