Redeneren

Humanity's Last Exam

Bijna 3000 expert-vragen over bijna elk kennisdomein, bedoeld als finale uitdaging voor AI.

Top-modellen

# Model Provider Score Datum
1 Gemini 3.1 Pro Preview reasoning Google 44,7% 2026-04
2 GPT-5.4 (xhigh) reasoning OpenAI 41,6% 2026-03
3 GPT-5.3 Codex (xhigh) reasoning OpenAI 39,9% 2026-02

Wat meet het?

Humanity's Last Exam (HLE) is een samenwerking van Scale AI en het Center for AI Safety, gelanceerd begin 2025. Het bevat ongeveer 3.000 gesloten vragen (multiple choice of exact-match) in wiskunde (41%), natuurkunde, biologie, geesteswetenschappen, computer science, engineering en scheikunde.

Vragen zijn opgesteld door professors en domein-experts. Speciaal gekozen omdat frontier-modellen er bij lancering minder dan 10% op scoorden. De naam is marketing, maar de moeilijkheidsgraad is echt.

Hoe je de score leest

Score is het percentage correct over alle domeinen.

  • Willekeurig gokken: niet zinvol bij open antwoorden; ~25% op het MC-deel.
  • Domein-experts: ~90% binnen eigen vakgebied; geen enkel mens haalt 90% cross-domain.
  • Huidige top: ~45%. Bij lancering (jan 2025) stond dit op

Voorbeeld-opgave

Voorbeeld (biologie, letterlijk uit de paper):

"Kolibries binnen Apodiformes hebben een uniek bilateraal gepaard ovaal bot, een sesamoïd ingebed in het caudolaterale deel van de uitgebreide, kruisvormige aponeurose van inserrtie van m. depressor caudae. Hoeveel gepaarde pezen worden door dit sesamoïd-bot ondersteund?"

Antwoord: een specifiek geheel getal. Vereist diepe anatomische kennis van vogels.

Waar je op moet letten

  • Ground-truth-fouten. FutureHouse rapporteerde dat ~30% van de scheikunde- en biologie-antwoorden vermoedelijk fout of betwistbaar is. Daarmee is er een plafond onder de score die niemand kan breken.
  • "Eeuwig"? Niet zo. Van <10% (jan 2025) naar ~45% (apr 2026). De benchmark-makers verwachtten veel langere houdbaarheid.
  • Zelf-gerapporteerde preview-scores. Nieuwe modellen worden door hun makers gescoord, niet door Scale. Wacht op onafhankelijke verificatie via de SEAL-leaderboard.

Bronnen

← Terug naar alle benchmarks