Code

Aider Polyglot

Kan het model code schrijven én patchen in zes verschillende programmeertalen?

Top-modellen

# Model Provider Score Datum
1 GPT-5 (high) reasoning OpenAI 88% 2025-08-23
2 GPT-5 (medium) reasoning OpenAI 86,7% 2025-08-25
3 o3-pro (high) reasoning OpenAI 84,9% 2025-06-28
4 Gemini 2.5 Pro (32k think) reasoning Google 83,1% 2025-06-06
5 GPT-5 (low) reasoning OpenAI 81,3% 2025-08-25
6 o3 (high) reasoning OpenAI 81,3% 2025-06-25
7 Grok-4 (high) reasoning xAI 79,6% 2025-07-11
8 Gemini 2.5 Pro (default think) reasoning Google 79,1% 2025-06-06

Wat meet het?

Aider Polyglot test een model op 225 moeilijke Exercism-opgaven, verdeeld over zes talen: C++, Go, Java, JavaScript, Python en Rust. De 225 zijn specifiek gekozen omdat drie of minder eerdere modellen ze konden oplossen — bedoeld als uitdagende lat.

De benchmark is tweeledig: schrijven én patchen. Als het model een foute oplossing geeft, krijgt het de test-errors terug en mag het een tweede poging doen via een diff. Dat test dus ook zelfcorrectie op code.

Hoe je de score leest

Score is het percentage opgaven dat slaagt (pass@1 of pass na één correctie).

  • Willekeurig gokken: niet zinvol.
  • Mens-baseline: geen formele meting, maar deze 225 zijn specifiek "moeilijk voor modellen".
  • Huidige top: ~88%. Gemiddelde over 22 geëvalueerde modellen: ~58%.

Voorbeeld-opgave

Voorbeeld-opgave:

Rust: bouw een reactive systeem met compute-cells en input-cells (à la spreadsheet-formules). Compute-cells herberekenen automatisch als hun input-cells veranderen. Observers kunnen ingeschreven worden op compute-cells. Skeleton-bestanden en cargo test-suite meegeleverd.

Het model krijgt de opgave, skeleton-code en taal-specifieke tests. Het moet een diff schrijven die de tests laat slagen.

Waar je op moet letten

  • Prompt-formaat matters. Het edit-formaat (whole file, unified diff, udiff) beïnvloedt de score met 5–10 punten. Vergelijkingen tussen modellen vereisen hetzelfde formaat.
  • Slechts 225 opgaven. Brede variantie tussen runs — één opgave = 0,4 procentpunt, dus kleine score-verschillen zijn ruis.
  • De officiële leaderboard loopt achter. Derde-partij tracking (Epoch AI, Artificial Analysis) kan afwijken omdat Aider zijn eigen cijfers traag bijwerkt.

Bronnen

← Terug naar alle benchmarks