Kennis

GPQA Diamond

198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen.

Top-modellen

#	Model	Provider	Score	Datum
1	Claude Mythos Preview reasoning	Anthropic	94,6%	2026-04
2	Gemini 3.1 Pro reasoning	Google	94,3%	2026-04
3	Claude Opus 4.7 reasoning	Anthropic	94,2%	2026-04
4	GPT-5.2 Pro reasoning	OpenAI	93,2%	2025-12-11
5	GPT-5.4 reasoning	OpenAI	92,8%	2026-03
6	GPT-5.2 reasoning	OpenAI	92,4%	2025-12-11
7	Gemini 3 Pro reasoning	Google	91,9%	2026-04
8	Claude Opus 4.6 reasoning	Anthropic	91,3%	2026-03

Wat meet het?

GPQA staat voor Graduate-Level Google-Proof Q&A. De "Diamond"-subset zijn 198 vragen die door domein-experts (PhD's in het vakgebied) grotendeels goed worden beantwoord, maar die gespecialiseerde niet-experts mét Google-toegang niet opgelost krijgen. Vandaar "Google-proof".

Opgenomen domeinen: biologie, natuurkunde, scheikunde. Multiple choice met 4 opties. De test bestaat om het punt te maken: dit is niet iets wat LLM's via training-memorisatie kunnen foppen.

Hoe je de score leest

Score is het percentage correct.

Willekeurig gokken: 25% (4 opties).
PhD-expert in eigen domein: ~65% (~74% zonder evidente vergissingen).
Niet-expert met Google: ~34%.
Huidige top: ~94%. Top-modellen zitten ruim boven de expert-baseline.

Voorbeeld-opgave

Voorbeeld (natuurkunde):

"Twee kwantumtoestanden met energieën E₁ en E₂ hebben levensduren van respectievelijk 10⁻⁹ s en 10⁻⁸ s. We willen de twee energieniveaus duidelijk onderscheiden. Welk van de volgende energie-verschillen is voldoende om ze te resolven?"
A. 10⁻⁸ eV · B. 10⁻⁹ eV · C. 10⁻⁴ eV · D. 10⁻¹¹ eV

Juist antwoord: C — via de energie-tijd-onzekerheidsrelatie.

Waar je op moet letten

Verzadigingspunt in zicht. Top-modellen zitten ver boven de PhD-baseline (65%). De test wordt minder discriminerend per release-cyclus.
Slechts 198 vragen. Eén vraag is ~0,5 procentpunt; statistische ruis is hoog. Verschillen van 1–2 punten tussen modellen zeggen niet veel.
Self-consistency inflatie. Topscores gebruiken vaak "meerdere samples + meerderheidsstem" — niet hetzelfde als single-shot. Controleer altijd de methodologie.

Bronnen

← Terug naar alle benchmarks