Code

HumanEval

Kan het model een Python-functie schrijven op basis van een korte beschrijving?

Top-modellen

# Model Provider Score Datum
1 MiniCPM-SALA OpenBMB 95,1% 2026-04
2 Kimi K2 0905 Moonshot AI 94,5% 2025-09
3 Claude 3.5 Sonnet Anthropic 93,7% 2024-10
4 GPT-5 OpenAI 93,4% 2025-08
5 Kimi K2 Instruct Moonshot AI 93,3% 2025-07
6 Qwen2.5-Coder 32B Instruct Alibaba 92,7% 2024-11
7 o1-mini reasoning OpenAI 92,4% 2024-09
8 Sarvam-30B Sarvam AI 92,1% 2025-06

Wat meet het?

HumanEval is de klassieke code-test van OpenAI uit 2021. Het model krijgt 164 handgeschreven Python-opgaven: een functie-naam, een lijst van argumenten en een docstring die beschrijft wat de functie moet doen. Het model schrijft de functie-body. De oplossing wordt automatisch getest met unit tests.

De metriek heet pass@1: lukt het in één keer, zonder meerdere pogingen?

Hoe je de score leest

Score is het percentage opgaven waarbij de eerste poging slaagt.

  • Willekeurig gokken: niet zinvol bij vrije code-generatie.
  • Mens-baseline: geen officieel experiment, maar ervaren Python-developers zitten rond de 80–90%.
  • Huidige top: 97+% — top-5 modellen zitten binnen één procentpunt. Praktisch verzadigd.

Onder de 80% = niet competitief. Boven de 95% = onmogelijk om nog modellen te onderscheiden op deze test.

Voorbeeld-opgave

Voorbeeld-opgave (opgave 0 uit HumanEval):

def has_close_elements(numbers: List[float], threshold: float) -> bool:
"Controleer of er in de gegeven lijst twee getallen bestaan die dichter bij elkaar liggen dan de gegeven drempel."

Test: has_close_elements([1.0, 2.8, 3.0, 4.0, 5.0, 2.0], 0.3) moet True opleveren (2.8 en 3.0 liggen 0,2 uit elkaar).

Waar je op moet letten

  • Verzadigd. In 2026 onderscheidt HumanEval geen top-modellen meer. Het is nog wel een nuttige "baseline-filter": als een model onder de 80% zit, laat het überhaupt niet op je code los.
  • Contaminatie. Deze opgaven staan al jaren publiek online. Modellen hebben ze vrijwel zeker tijdens training gezien. OpenAI rapporteerde zelf ~25% overlap met GPT-4's trainingscorpus.
  • Geen agent-workflow. HumanEval test pure code-generatie van korte functies — geen bestanden-manipulatie, geen meerdere rondes. Niet representatief voor echt software-werk.

Bronnen

← Terug naar alle benchmarks