GPQA Diamond
198 vragen in biologie, natuurkunde en scheikunde op PhD-niveau die je niet kunt Googlen.
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | Claude Mythos Preview reasoning | Anthropic | 94,6% | 2026-04 |
| 2 | Gemini 3.1 Pro reasoning | 94,3% | 2026-04 | |
| 3 | Claude Opus 4.7 reasoning | Anthropic | 94,2% | 2026-04 |
| 4 | GPT-5.2 Pro reasoning | OpenAI | 93,2% | 2025-12-11 |
| 5 | GPT-5.4 reasoning | OpenAI | 92,8% | 2026-03 |
| 6 | GPT-5.2 reasoning | OpenAI | 92,4% | 2025-12-11 |
| 7 | Gemini 3 Pro reasoning | 91,9% | 2026-04 | |
| 8 | Claude Opus 4.6 reasoning | Anthropic | 91,3% | 2026-03 |
Wat meet het?
GPQA staat voor Graduate-Level Google-Proof Q&A. De "Diamond"-subset zijn 198 vragen die door domein-experts (PhD's in het vakgebied) grotendeels goed worden beantwoord, maar die gespecialiseerde niet-experts mét Google-toegang niet opgelost krijgen. Vandaar "Google-proof".
Opgenomen domeinen: biologie, natuurkunde, scheikunde. Multiple choice met 4 opties. De test bestaat om het punt te maken: dit is niet iets wat LLM's via training-memorisatie kunnen foppen.
Hoe je de score leest
Score is het percentage correct.
- Willekeurig gokken: 25% (4 opties).
- PhD-expert in eigen domein: ~65% (~74% zonder evidente vergissingen).
- Niet-expert met Google: ~34%.
- Huidige top: ~94%. Top-modellen zitten ruim boven de expert-baseline.
Voorbeeld-opgave
Voorbeeld (natuurkunde):
"Twee kwantumtoestanden met energieën E₁ en E₂ hebben levensduren van respectievelijk 10⁻⁹ s en 10⁻⁸ s. We willen de twee energieniveaus duidelijk onderscheiden. Welk van de volgende energie-verschillen is voldoende om ze te resolven?"
A. 10⁻⁸ eV · B. 10⁻⁹ eV · C. 10⁻⁴ eV · D. 10⁻¹¹ eVJuist antwoord: C — via de energie-tijd-onzekerheidsrelatie.
Waar je op moet letten
- Verzadigingspunt in zicht. Top-modellen zitten ver boven de PhD-baseline (65%). De test wordt minder discriminerend per release-cyclus.
- Slechts 198 vragen. Eén vraag is ~0,5 procentpunt; statistische ruis is hoog. Verschillen van 1–2 punten tussen modellen zeggen niet veel.
- Self-consistency inflatie. Topscores gebruiken vaak "meerdere samples + meerderheidsstem" — niet hetzelfde als single-shot. Controleer altijd de methodologie.