Code

LiveCodeBench

Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen.

Top-modellen

# Model Provider Score Datum
1 Gemini 3 Pro Preview (high) reasoning Google 91,7% 2026-04
2 Gemini 3 Flash Preview (Reasoning) reasoning Google 90,8% 2026-04
3 DeepSeek V3.2 Speciale DeepSeek 89,6% 2026-04
4 DeepSeek-V3.2 (Thinking) reasoning DeepSeek 83,3% 2026-04
5 MiniMax M2 MiniMax 83% 2026-04
6 LongCat-Flash-Thinking-2601 reasoning Meituan 82,8% 2026-04
7 Nemotron 3 Super (120B A12B) NVIDIA 81,2% 2026-04
8 Grok 4 Fast xAI 80% 2026-04

Wat meet het?

LiveCodeBench verzamelt nieuwe programmeerwedstrijd-opgaven van LeetCode, AtCoder en Codeforces zodra ze live gaan, en test daarmee of een model code kan schrijven voor problemen die het niet tijdens training kan hebben gezien (contaminatie-bestendig). Behalve kale code-generatie test het ook zelfcorrectie, code-executie en voorspelling van test-output.

De dataset is live: om de paar maanden komt er een nieuwe versie (v4, v5, v6) met alleen opgaven die na een bepaalde datum zijn gepubliceerd. Dat maakt de benchmark inherent contaminatie-resistent.

Hoe je de score leest

Score is pass@1 op de nieuwste tranche. Scores hangen sterk af van het gekozen tijdvenster — dezelfde benchmark kan twee verschillende scores opleveren afhankelijk van versie v5 vs v6.

  • Willekeurig gokken: niet zinvol (vrije code-generatie).
  • Mens-baseline: top competitieve programmeurs (rode Codeforces-rating) halen doorgaans 80–95%.
  • Huidige top: rond de 90% op de nieuwste tranche.

Voorbeeld-opgave

Voorbeeld-opgave (LeetCode-stijl, uit een live tranche):

"Je krijgt twee positieve gehele getallen xCorner en yCorner en een 2D-array circles, waarin elke cirkel is weergegeven als [x, y, r]. Er is een rechthoek met linker-onderhoek op (0,0) en rechter-bovenhoek op (xCorner, yCorner). Bepaal of er een pad bestaat van linker-onder naar rechter-boven dat volledig binnen de rechthoek ligt en geen enkele cirkel raakt of doorsnijdt."

Voorbeeld: xCorner=3, yCorner=4, circles=[[2,1,1]]true.

Waar je op moet letten

  • Tijdvenster doet ertoe. Vergelijkingen zonder te vermelden welke tranche (v4/v5/v6) gebruikt is zijn misleidend. Een model kan op v5 92% halen en op v6 82%.
  • Competitie-stijl. Opgaven zijn korte, puzzle-achtige algoritmische vragen — niet representatief voor productie-software waar je bestanden, dependencies en legacy-code aanraakt.
  • Contaminatie-venster. Na verloop van tijd kruipen opgaven alsnog in training-data. LiveCodeBench moet daarom continu worden ververst.

Bronnen

← Terug naar alle benchmarks