Aider Polyglot
Kan het model code schrijven én patchen in zes verschillende programmeertalen?
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | GPT-5 (high) reasoning | OpenAI | 88% | 2025-08-23 |
| 2 | GPT-5 (medium) reasoning | OpenAI | 86,7% | 2025-08-25 |
| 3 | o3-pro (high) reasoning | OpenAI | 84,9% | 2025-06-28 |
| 4 | Gemini 2.5 Pro (32k think) reasoning | 83,1% | 2025-06-06 | |
| 5 | GPT-5 (low) reasoning | OpenAI | 81,3% | 2025-08-25 |
| 6 | o3 (high) reasoning | OpenAI | 81,3% | 2025-06-25 |
| 7 | Grok-4 (high) reasoning | xAI | 79,6% | 2025-07-11 |
| 8 | Gemini 2.5 Pro (default think) reasoning | 79,1% | 2025-06-06 |
Wat meet het?
Aider Polyglot test een model op 225 moeilijke Exercism-opgaven, verdeeld over zes talen: C++, Go, Java, JavaScript, Python en Rust. De 225 zijn specifiek gekozen omdat drie of minder eerdere modellen ze konden oplossen — bedoeld als uitdagende lat.
De benchmark is tweeledig: schrijven én patchen. Als het model een foute oplossing geeft, krijgt het de test-errors terug en mag het een tweede poging doen via een diff. Dat test dus ook zelfcorrectie op code.
Hoe je de score leest
Score is het percentage opgaven dat slaagt (pass@1 of pass na één correctie).
- Willekeurig gokken: niet zinvol.
- Mens-baseline: geen formele meting, maar deze 225 zijn specifiek "moeilijk voor modellen".
- Huidige top: ~88%. Gemiddelde over 22 geëvalueerde modellen: ~58%.
Voorbeeld-opgave
Voorbeeld-opgave:
Rust: bouw een reactive systeem met compute-cells en input-cells (à la spreadsheet-formules). Compute-cells herberekenen automatisch als hun input-cells veranderen. Observers kunnen ingeschreven worden op compute-cells. Skeleton-bestanden en
cargo test-suite meegeleverd.Het model krijgt de opgave, skeleton-code en taal-specifieke tests. Het moet een diff schrijven die de tests laat slagen.
Waar je op moet letten
- Prompt-formaat matters. Het edit-formaat (whole file, unified diff, udiff) beïnvloedt de score met 5–10 punten. Vergelijkingen tussen modellen vereisen hetzelfde formaat.
- Slechts 225 opgaven. Brede variantie tussen runs — één opgave = 0,4 procentpunt, dus kleine score-verschillen zijn ruis.
- De officiële leaderboard loopt achter. Derde-partij tracking (Epoch AI, Artificial Analysis) kan afwijken omdat Aider zijn eigen cijfers traag bijwerkt.