Kennis

GPQA Diamond

198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen.

Top-modellen

# Model Provider Score Datum
1 Claude Mythos Preview reasoning Anthropic 94,6% 2026-04
2 Gemini 3.1 Pro reasoning Google 94,3% 2026-04
3 Claude Opus 4.7 reasoning Anthropic 94,2% 2026-04
4 GPT-5.2 Pro reasoning OpenAI 93,2% 2025-12-11
5 GPT-5.4 reasoning OpenAI 92,8% 2026-03
6 GPT-5.2 reasoning OpenAI 92,4% 2025-12-11
7 Gemini 3 Pro reasoning Google 91,9% 2026-04
8 Claude Opus 4.6 reasoning Anthropic 91,3% 2026-03

Wat meet het?

GPQA staat voor Graduate-Level Google-Proof Q&A. De "Diamond"-subset zijn 198 vragen die door domein-experts (PhD's in het vakgebied) grotendeels goed worden beantwoord, maar die gespecialiseerde niet-experts mét Google-toegang niet opgelost krijgen. Vandaar "Google-proof".

Opgenomen domeinen: biologie, natuurkunde, scheikunde. Multiple choice met 4 opties. De test bestaat om het punt te maken: dit is niet iets wat LLM's via training-memorisatie kunnen foppen.

Hoe je de score leest

Score is het percentage correct.

  • Willekeurig gokken: 25% (4 opties).
  • PhD-expert in eigen domein: ~65% (~74% zonder evidente vergissingen).
  • Niet-expert met Google: ~34%.
  • Huidige top: ~94%. Top-modellen zitten ruim boven de expert-baseline.

Voorbeeld-opgave

Voorbeeld (natuurkunde):

"Twee kwantumtoestanden met energieën E₁ en E₂ hebben levensduren van respectievelijk 10⁻⁹ s en 10⁻⁸ s. We willen de twee energieniveaus duidelijk onderscheiden. Welk van de volgende energie-verschillen is voldoende om ze te resolven?"
A. 10⁻⁸ eV · B. 10⁻⁹ eV · C. 10⁻⁴ eV · D. 10⁻¹¹ eV

Juist antwoord: C — via de energie-tijd-onzekerheidsrelatie.

Waar je op moet letten

  • Verzadigingspunt in zicht. Top-modellen zitten ver boven de PhD-baseline (65%). De test wordt minder discriminerend per release-cyclus.
  • Slechts 198 vragen. Eén vraag is ~0,5 procentpunt; statistische ruis is hoog. Verschillen van 1–2 punten tussen modellen zeggen niet veel.
  • Self-consistency inflatie. Topscores gebruiken vaak "meerdere samples + meerderheidsstem" — niet hetzelfde als single-shot. Controleer altijd de methodologie.

Bronnen

← Terug naar alle benchmarks