Code

SWE-bench Verified

Kan het model echte bugs uit open-source GitHub-projecten oplossen?

Top-modellen

# Model Provider Score Datum
1 Claude Mythos Preview reasoning Anthropic 93,9% 2026-04
2 Claude Opus 4.7 reasoning Anthropic 87,6% 2026-04
3 Claude Opus 4.5 reasoning Anthropic 80,9% 2026-03
4 Claude Opus 4.6 reasoning Anthropic 80,8% 2026-03
5 Gemini 3.1 Pro reasoning Google 80,6% 2026-04
6 MiniMax M2.5 MiniMax 80,2% 2026-03
7 GPT-5.2 reasoning OpenAI 80% 2025-12-11
8 Claude Sonnet 4.6 reasoning Anthropic 79,6% 2026-02

Wat meet het?

SWE-bench Verified test of een model zelfstandig echte GitHub-issues kan oplossen door de codebase aan te passen. De benchmark gebruikt 500 door mensen gevalideerde problemen uit populaire Python-projecten (Django, Flask, scikit-learn, SymPy en andere), gekozen uit de oorspronkelijke SWE-bench dataset.

Het model krijgt de volledige repo, de issue-tekst en een startpunt in de git-historie. Het moet bestanden aanpassen zodat een vooraf gedefinieerde set tests slaagt. Geen multiple choice, geen quiz — gewoon: werkt de fix of niet.

Hoe je de score leest

Scores zijn het percentage issues dat correct wordt opgelost. Drie ijkpunten om de score te lezen:

  • Willekeurig gokken: niet zinvol (het is geen quiz).
  • Mens-baseline: de oorspronkelijke pull request die de bug fixte is per definitie 100% — dat is de ground truth.
  • Huidige top: de beste modellen halen ruim boven de 80%, de absolute top tikt 90+.

Boven de 70% is sterk. Onder de 50% betekent dat een model vaak faalt op echte software-taken.

Voorbeeld-opgave

Voorbeeld-issue (vertaald uit de dataset):

Repo: django/django — "Incorrecte queryset-resultaat bij gebruik van Subquery met exclude()". De ORM-laag filtert niet alle verwachte rijen uit wanneer een subquery gecombineerd wordt met exclude. Fix de bug zodat de meegeleverde tests slagen."

Het model krijgt de repo op een specifieke commit-hash vóór de fix. Het moet de juiste bestanden identificeren, de oorzaak vinden en een patch schrijven. Succes = de gekoppelde tests (die eerst faalden) slagen erna.

Waar je op moet letten

  • Agentic vs. zuiver model. Veel topscores gebruiken een agent-systeem met tool-gebruik, meerdere rondes en retries. Dat is niet appels met appels vergelijken met single-shot model-scores.
  • Verzadiging. De ruimte tussen top-modellen wordt klein — de community schuift al op naar SWE-bench Pro.
  • Zelf-gerapporteerde scores. Preview-modellen worden vaak door de makers zelf gescoord; wacht op onafhankelijke replicatie (bijv. Epoch AI of Artificial Analysis).

Bronnen

← Terug naar alle benchmarks