Wiskunde

AIME (2024/2025)

Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI.

Top-modellen

#	Model	Provider	Score	Datum
1	Grok-3 Mini reasoning	xAI	95,8%	2026-04
2	o4-mini reasoning	OpenAI	93,4%	2026-04
3	Grok-3 reasoning	xAI	93,3%	2026-04
4	LongCat-Flash-Thinking reasoning	Meituan	93,3%	2026-04
5	Gemini 2.5 Pro reasoning	Google	92%	2026-04
6	o3 reasoning	OpenAI	91,6%	2026-04
7	DeepSeek-R1-0528 reasoning	DeepSeek	91,4%	2026-04
8	GLM-4.5 reasoning	Zhipu AI	91%	2026-04

Wat meet het?

De American Invitational Mathematics Examination is oorspronkelijk een 15-vragen wiskunde-wedstrijd voor Amerikaanse middelbare scholieren die via AMC 10/12 kwalificeren. Alle antwoorden zijn gehele getallen van 000 tot 999. In 2025/2026 gebruiken AI-leaderboards AIME 2024 (de twee toetsen samen = 30 problemen) en AIME 2025 als moeilijke wiskunde-benchmark.

Het gaat om creatieve bewijs- en algebra-problemen waar competitie-ervaring helpt, niet alleen memoriseren.

Hoe je de score leest

Score is het aantal correcte antwoorden als percentage.

Willekeurig gokken: 1/1000 per vraag = effectief nul.
Mediane AIME-deelnemer: ~33% (5 van de 15).
Top-tier AIME-deelnemers (USAMO-kandidaten): ~80–100%.
Huidige top: AIME 2024: ~95%. AIME 2025: sommige modellen tikken 100% aan (met self-consistency).

Voorbeeld-opgave

Voorbeeld — AIME 2024, probleem 1:

"Elke ochtend loopt Aya 9 km en bezoekt daarna een koffietent. Als ze met snelheid s km/u loopt, duurt de wandeling 4 uur inclusief t minuten in de koffietent. Met snelheid s+2 km/u duurt het geheel 2 uur en 24 minuten inclusief t minuten. Vind het aantal minuten dat ze loopt plus t wanneer ze met snelheid s+½ km/u loopt."

Antwoord: 204.

Waar je op moet letten

Contaminatie. AIME 2024-opgaven stonden kort na publicatie overal online. Modellen hebben ze vrijwel zeker gezien. AIME 2025 en OTIS-Mock-versies zijn betrouwbaarder.
100%-scores zijn meestal niet single-shot. Top-scores gebruiken vaak pass@k of majority-of-n — het model mag meerdere keren proberen en de stem van de meerderheid telt.
Weinig vragen. Slechts 30 (of 15) problemen. Eén vraag = 3–7 procentpunt. Kleine score-verschillen zijn ruis.

Bronnen

← Terug naar alle benchmarks