Humanity's Last Exam
Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI.
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | Gemini 3.1 Pro Preview reasoning | 44,7% | 2026-04 | |
| 2 | GPT-5.4 (xhigh) reasoning | OpenAI | 41,6% | 2026-03 |
| 3 | GPT-5.3 Codex (xhigh) reasoning | OpenAI | 39,9% | 2026-02 |
Wat meet het?
Humanity's Last Exam (HLE) is een samenwerking van Scale AI en het Center for AI Safety, gelanceerd begin 2025. Het bevat ongeveer 3.000 gesloten vragen (multiple choice of exact-match) in wiskunde (41%), natuurkunde, biologie, geesteswetenschappen, computer science, engineering en scheikunde.
Vragen zijn opgesteld door professors en domein-experts. Speciaal gekozen omdat frontier-modellen er bij lancering minder dan 10% op scoorden. De naam is marketing, maar de moeilijkheidsgraad is echt.
Hoe je de score leest
Score is het percentage correct over alle domeinen.
- Willekeurig gokken: niet zinvol bij open antwoorden; ~25% op het MC-deel.
- Domein-experts: ~90% binnen eigen vakgebied; geen enkel mens haalt 90% cross-domain.
- Huidige top: ~45%. Bij lancering (jan 2025) stond dit op
Voorbeeld-opgave
Voorbeeld (biologie, letterlijk uit de paper):
"Kolibries binnen Apodiformes hebben een uniek bilateraal gepaard ovaal bot, een sesamoïd ingebed in het caudolaterale deel van de uitgebreide, kruisvormige aponeurose van inserrtie van m. depressor caudae. Hoeveel gepaarde pezen worden door dit sesamoïd-bot ondersteund?"
Antwoord: een specifiek geheel getal. Vereist diepe anatomische kennis van vogels.
Waar je op moet letten
- Ground-truth-fouten. FutureHouse rapporteerde dat ~30% van de scheikunde- en biologie-antwoorden vermoedelijk fout of betwistbaar is. Daarmee is er een plafond onder de score die niemand kan breken.
- "Eeuwig"? Niet zo. Van <10% (jan 2025) naar ~45% (apr 2026). De benchmark-makers verwachtten veel langere houdbaarheid.
- Zelf-gerapporteerde preview-scores. Nieuwe modellen worden door hun makers gescoord, niet door Scale. Wacht op onafhankelijke verificatie via de SEAL-leaderboard.