Code

HumanEval

Kan het model een Python-functie schrijven op basis van een korte beschrijving?

Top-modellen

#	Model	Provider	Score	Datum
1	MiniCPM-SALA	OpenBMB	95,1%	2026-04
2	Kimi K2 0905	Moonshot AI	94,5%	2025-09
3	Claude 3.5 Sonnet	Anthropic	93,7%	2024-10
4	GPT-5	OpenAI	93,4%	2025-08
5	Kimi K2 Instruct	Moonshot AI	93,3%	2025-07
6	Qwen2.5-Coder 32B Instruct	Alibaba	92,7%	2024-11
7	o1-mini reasoning	OpenAI	92,4%	2024-09
8	Sarvam-30B	Sarvam AI	92,1%	2025-06

Wat meet het?

HumanEval is de klassieke code-test van OpenAI uit 2021. Het model krijgt 164 handgeschreven Python-opgaven: een functie-naam, een lijst van argumenten en een docstring die beschrijft wat de functie moet doen. Het model schrijft de functie-body. De oplossing wordt automatisch getest met unit tests.

De metriek heet pass@1: lukt het in één keer, zonder meerdere pogingen?

Hoe je de score leest

Score is het percentage opgaven waarbij de eerste poging slaagt.

Willekeurig gokken: niet zinvol bij vrije code-generatie.
Mens-baseline: geen officieel experiment, maar ervaren Python-developers zitten rond de 80–90%.
Huidige top: 97+% — top-5 modellen zitten binnen één procentpunt. Praktisch verzadigd.

Onder de 80% = niet competitief. Boven de 95% = onmogelijk om nog modellen te onderscheiden op deze test.

Voorbeeld-opgave

Voorbeeld-opgave (opgave 0 uit HumanEval):

def has_close_elements(numbers: List[float], threshold: float) -> bool:
"Controleer of er in de gegeven lijst twee getallen bestaan die dichter bij elkaar liggen dan de gegeven drempel."

Test: has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3) moet True opleveren (2.8 en 3.0 liggen 0,2 uit elkaar).

Waar je op moet letten

Verzadigd. In 2026 onderscheidt HumanEval geen top-modellen meer. Het is nog wel een nuttige "baseline-filter": als een model onder de 80% zit, laat het überhaupt niet op je code los.
Contaminatie. Deze opgaven staan al jaren publiek online. Modellen hebben ze vrijwel zeker tijdens training gezien. OpenAI rapporteerde zelf ~25% overlap met GPT-4's trainingscorpus.
Geen agent-workflow. HumanEval test pure code-generatie van korte functies — geen bestanden-manipulatie, geen meerdere rondes. Niet representatief voor echt software-werk.

Bronnen

← Terug naar alle benchmarks