Code

Aider Polyglot

Kan het model code schrijven én patchen in zes verschillende programmeertalen?

Top-modellen

#	Model	Provider	Score	Datum
1	GPT-5 (high) reasoning	OpenAI	88%	2025-08-23
2	GPT-5 (medium) reasoning	OpenAI	86,7%	2025-08-25
3	o3-pro (high) reasoning	OpenAI	84,9%	2025-06-28
4	Gemini 2.5 Pro (32k think) reasoning	Google	83,1%	2025-06-06
5	GPT-5 (low) reasoning	OpenAI	81,3%	2025-08-25
6	o3 (high) reasoning	OpenAI	81,3%	2025-06-25
7	Grok-4 (high) reasoning	xAI	79,6%	2025-07-11
8	Gemini 2.5 Pro (default think) reasoning	Google	79,1%	2025-06-06

Wat meet het?

Aider Polyglot test een model op 225 moeilijke Exercism-opgaven, verdeeld over zes talen: C++, Go, Java, JavaScript, Python en Rust. De 225 zijn specifiek gekozen omdat drie of minder eerdere modellen ze konden oplossen — bedoeld als uitdagende lat.

De benchmark is tweeledig: schrijven én patchen. Als het model een foute oplossing geeft, krijgt het de test-errors terug en mag het een tweede poging doen via een diff. Dat test dus ook zelfcorrectie op code.

Hoe je de score leest

Score is het percentage opgaven dat slaagt (pass@1 of pass na één correctie).

Willekeurig gokken: niet zinvol.
Mens-baseline: geen formele meting, maar deze 225 zijn specifiek "moeilijk voor modellen".
Huidige top: ~88%. Gemiddelde over 22 geëvalueerde modellen: ~58%.

Voorbeeld-opgave

Voorbeeld-opgave:

Rust: bouw een reactive systeem met compute-cells en input-cells (à la spreadsheet-formules). Compute-cells herberekenen automatisch als hun input-cells veranderen. Observers kunnen ingeschreven worden op compute-cells. Skeleton-bestanden en cargo test-suite meegeleverd.

Het model krijgt de opgave, skeleton-code en taal-specifieke tests. Het moet een diff schrijven die de tests laat slagen.

Waar je op moet letten

Prompt-formaat matters. Het edit-formaat (whole file, unified diff, udiff) beïnvloedt de score met 5–10 punten. Vergelijkingen tussen modellen vereisen hetzelfde formaat.
Slechts 225 opgaven. Brede variantie tussen runs — één opgave = 0,4 procentpunt, dus kleine score-verschillen zijn ruis.
De officiële leaderboard loopt achter. Derde-partij tracking (Epoch AI, Artificial Analysis) kan afwijken omdat Aider zijn eigen cijfers traag bijwerkt.

Bronnen

← Terug naar alle benchmarks