LiveCodeBench
Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen.
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | Gemini 3 Pro Preview (high) reasoning | 91,7% | 2026-04 | |
| 2 | Gemini 3 Flash Preview (Reasoning) reasoning | 90,8% | 2026-04 | |
| 3 | DeepSeek V3.2 Speciale | DeepSeek | 89,6% | 2026-04 |
| 4 | DeepSeek-V3.2 (Thinking) reasoning | DeepSeek | 83,3% | 2026-04 |
| 5 | MiniMax M2 | MiniMax | 83% | 2026-04 |
| 6 | LongCat-Flash-Thinking-2601 reasoning | Meituan | 82,8% | 2026-04 |
| 7 | Nemotron 3 Super (120B A12B) | NVIDIA | 81,2% | 2026-04 |
| 8 | Grok 4 Fast | xAI | 80% | 2026-04 |
Wat meet het?
LiveCodeBench verzamelt nieuwe programmeerwedstrijd-opgaven van LeetCode, AtCoder en Codeforces zodra ze live gaan, en test daarmee of een model code kan schrijven voor problemen die het niet tijdens training kan hebben gezien (contaminatie-bestendig). Behalve kale code-generatie test het ook zelfcorrectie, code-executie en voorspelling van test-output.
De dataset is live: om de paar maanden komt er een nieuwe versie (v4, v5, v6) met alleen opgaven die na een bepaalde datum zijn gepubliceerd. Dat maakt de benchmark inherent contaminatie-resistent.
Hoe je de score leest
Score is pass@1 op de nieuwste tranche. Scores hangen sterk af van het gekozen tijdvenster — dezelfde benchmark kan twee verschillende scores opleveren afhankelijk van versie v5 vs v6.
- Willekeurig gokken: niet zinvol (vrije code-generatie).
- Mens-baseline: top competitieve programmeurs (rode Codeforces-rating) halen doorgaans 80–95%.
- Huidige top: rond de 90% op de nieuwste tranche.
Voorbeeld-opgave
Voorbeeld-opgave (LeetCode-stijl, uit een live tranche):
"Je krijgt twee positieve gehele getallen
xCornerenyCorneren een 2D-arraycircles, waarin elke cirkel is weergegeven als[x, y, r]. Er is een rechthoek met linker-onderhoek op (0,0) en rechter-bovenhoek op (xCorner, yCorner). Bepaal of er een pad bestaat van linker-onder naar rechter-boven dat volledig binnen de rechthoek ligt en geen enkele cirkel raakt of doorsnijdt."Voorbeeld:
xCorner=3, yCorner=4, circles=[[2,1,1]]→true.
Waar je op moet letten
- Tijdvenster doet ertoe. Vergelijkingen zonder te vermelden welke tranche (v4/v5/v6) gebruikt is zijn misleidend. Een model kan op v5 92% halen en op v6 82%.
- Competitie-stijl. Opgaven zijn korte, puzzle-achtige algoritmische vragen — niet representatief voor productie-software waar je bestanden, dependencies en legacy-code aanraakt.
- Contaminatie-venster. Na verloop van tijd kruipen opgaven alsnog in training-data. LiveCodeBench moet daarom continu worden ververst.