HumanEval
Kan het model een Python-functie schrijven op basis van een korte beschrijving?
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | MiniCPM-SALA | OpenBMB | 95,1% | 2026-04 |
| 2 | Kimi K2 0905 | Moonshot AI | 94,5% | 2025-09 |
| 3 | Claude 3.5 Sonnet | Anthropic | 93,7% | 2024-10 |
| 4 | GPT-5 | OpenAI | 93,4% | 2025-08 |
| 5 | Kimi K2 Instruct | Moonshot AI | 93,3% | 2025-07 |
| 6 | Qwen2.5-Coder 32B Instruct | Alibaba | 92,7% | 2024-11 |
| 7 | o1-mini reasoning | OpenAI | 92,4% | 2024-09 |
| 8 | Sarvam-30B | Sarvam AI | 92,1% | 2025-06 |
Wat meet het?
HumanEval is de klassieke code-test van OpenAI uit 2021. Het model krijgt 164 handgeschreven Python-opgaven: een functie-naam, een lijst van argumenten en een docstring die beschrijft wat de functie moet doen. Het model schrijft de functie-body. De oplossing wordt automatisch getest met unit tests.
De metriek heet pass@1: lukt het in één keer, zonder meerdere pogingen?
Hoe je de score leest
Score is het percentage opgaven waarbij de eerste poging slaagt.
- Willekeurig gokken: niet zinvol bij vrije code-generatie.
- Mens-baseline: geen officieel experiment, maar ervaren Python-developers zitten rond de 80–90%.
- Huidige top: 97+% — top-5 modellen zitten binnen één procentpunt. Praktisch verzadigd.
Onder de 80% = niet competitief. Boven de 95% = onmogelijk om nog modellen te onderscheiden op deze test.
Voorbeeld-opgave
Voorbeeld-opgave (opgave 0 uit HumanEval):
def has_close_elements(numbers: List[float], threshold: float) -> bool:
"Controleer of er in de gegeven lijst twee getallen bestaan die dichter bij elkaar liggen dan de gegeven drempel."Test:
has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3)moetTrueopleveren (2.8 en 3.0 liggen 0,2 uit elkaar).
Waar je op moet letten
- Verzadigd. In 2026 onderscheidt HumanEval geen top-modellen meer. Het is nog wel een nuttige "baseline-filter": als een model onder de 80% zit, laat het überhaupt niet op je code los.
- Contaminatie. Deze opgaven staan al jaren publiek online. Modellen hebben ze vrijwel zeker tijdens training gezien. OpenAI rapporteerde zelf ~25% overlap met GPT-4's trainingscorpus.
- Geen agent-workflow. HumanEval test pure code-generatie van korte functies — geen bestanden-manipulatie, geen meerdere rondes. Niet representatief voor echt software-werk.