AIME (2024/2025)
Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI.
Top-modellen
| # | Model | Provider | Score | Datum |
|---|---|---|---|---|
| 1 | Grok-3 Mini reasoning | xAI | 95,8% | 2026-04 |
| 2 | o4-mini reasoning | OpenAI | 93,4% | 2026-04 |
| 3 | Grok-3 reasoning | xAI | 93,3% | 2026-04 |
| 4 | LongCat-Flash-Thinking reasoning | Meituan | 93,3% | 2026-04 |
| 5 | Gemini 2.5 Pro reasoning | 92% | 2026-04 | |
| 6 | o3 reasoning | OpenAI | 91,6% | 2026-04 |
| 7 | DeepSeek-R1-0528 reasoning | DeepSeek | 91,4% | 2026-04 |
| 8 | GLM-4.5 reasoning | Zhipu AI | 91% | 2026-04 |
Wat meet het?
De American Invitational Mathematics Examination is oorspronkelijk een 15-vragen wiskunde-wedstrijd voor Amerikaanse middelbare scholieren die via AMC 10/12 kwalificeren. Alle antwoorden zijn gehele getallen van 000 tot 999. In 2025/2026 gebruiken AI-leaderboards AIME 2024 (de twee toetsen samen = 30 problemen) en AIME 2025 als moeilijke wiskunde-benchmark.
Het gaat om creatieve bewijs- en algebra-problemen waar competitie-ervaring helpt, niet alleen memoriseren.
Hoe je de score leest
Score is het aantal correcte antwoorden als percentage.
- Willekeurig gokken: 1/1000 per vraag = effectief nul.
- Mediane AIME-deelnemer: ~33% (5 van de 15).
- Top-tier AIME-deelnemers (USAMO-kandidaten): ~80–100%.
- Huidige top: AIME 2024: ~95%. AIME 2025: sommige modellen tikken 100% aan (met self-consistency).
Voorbeeld-opgave
Voorbeeld — AIME 2024, probleem 1:
"Elke ochtend loopt Aya 9 km en bezoekt daarna een koffietent. Als ze met snelheid s km/u loopt, duurt de wandeling 4 uur inclusief t minuten in de koffietent. Met snelheid s+2 km/u duurt het geheel 2 uur en 24 minuten inclusief t minuten. Vind het aantal minuten dat ze loopt plus t wanneer ze met snelheid s+½ km/u loopt."
Antwoord: 204.
Waar je op moet letten
- Contaminatie. AIME 2024-opgaven stonden kort na publicatie overal online. Modellen hebben ze vrijwel zeker gezien. AIME 2025 en OTIS-Mock-versies zijn betrouwbaarder.
- 100%-scores zijn meestal niet single-shot. Top-scores gebruiken vaak pass@k of majority-of-n — het model mag meerdere keren proberen en de stem van de meerderheid telt.
- Weinig vragen. Slechts 30 (of 15) problemen. Eén vraag = 3–7 procentpunt. Kleine score-verschillen zijn ruis.