Code

LiveCodeBench

Een code-benchmark die maandelijks nieuwe opgaven toevoegt om training-leaks te voorkomen.

Top-modellen

#	Model	Provider	Score	Datum
1	Gemini 3 Pro Preview (high) reasoning	Google	91,7%	2026-04
2	Gemini 3 Flash Preview (Reasoning) reasoning	Google	90,8%	2026-04
3	DeepSeek V3.2 Speciale	DeepSeek	89,6%	2026-04
4	DeepSeek-V3.2 (Thinking) reasoning	DeepSeek	83,3%	2026-04
5	MiniMax M2	MiniMax	83%	2026-04
6	LongCat-Flash-Thinking-2601 reasoning	Meituan	82,8%	2026-04
7	Nemotron 3 Super (120B A12B)	NVIDIA	81,2%	2026-04
8	Grok 4 Fast	xAI	80%	2026-04

Wat meet het?

LiveCodeBench verzamelt nieuwe programmeerwedstrijd-opgaven van LeetCode, AtCoder en Codeforces zodra ze live gaan, en test daarmee of een model code kan schrijven voor problemen die het niet tijdens training kan hebben gezien (contaminatie-bestendig). Behalve kale code-generatie test het ook zelfcorrectie, code-executie en voorspelling van test-output.

De dataset is live: om de paar maanden komt er een nieuwe versie (v4, v5, v6) met alleen opgaven die na een bepaalde datum zijn gepubliceerd. Dat maakt de benchmark inherent contaminatie-resistent.

Hoe je de score leest

Score is pass@1 op de nieuwste tranche. Scores hangen sterk af van het gekozen tijdvenster — dezelfde benchmark kan twee verschillende scores opleveren afhankelijk van versie v5 vs v6.

Willekeurig gokken: niet zinvol (vrije code-generatie).
Mens-baseline: top competitieve programmeurs (rode Codeforces-rating) halen doorgaans 80–95%.
Huidige top: rond de 90% op de nieuwste tranche.

Voorbeeld-opgave

Voorbeeld-opgave (LeetCode-stijl, uit een live tranche):

"Je krijgt twee positieve gehele getallen xCorner en yCorner en een 2D-array circles, waarin elke cirkel is weergegeven als [x, y, r]. Er is een rechthoek met linker-onderhoek op (0,0) en rechter-bovenhoek op (xCorner, yCorner). Bepaal of er een pad bestaat van linker-onder naar rechter-boven dat volledig binnen de rechthoek ligt en geen enkele cirkel raakt of doorsnijdt."

Voorbeeld: xCorner=3, yCorner=4, circles=[[2,1,1]] → true.

Waar je op moet letten

Tijdvenster doet ertoe. Vergelijkingen zonder te vermelden welke tranche (v4/v5/v6) gebruikt is zijn misleidend. Een model kan op v5 92% halen en op v6 82%.
Competitie-stijl. Opgaven zijn korte, puzzle-achtige algoritmische vragen — niet representatief voor productie-software waar je bestanden, dependencies en legacy-code aanraakt.
Contaminatie-venster. Na verloop van tijd kruipen opgaven alsnog in training-data. LiveCodeBench moet daarom continu worden ververst.

Bronnen

← Terug naar alle benchmarks