Wiskunde

AIME (2024/2025)

Amerikaanse wiskunde-olympiade voor middelbare scholieren, nu een frontier-test voor AI.

Top-modellen

# Model Provider Score Datum
1 Grok-3 Mini reasoning xAI 95,8% 2026-04
2 o4-mini reasoning OpenAI 93,4% 2026-04
3 Grok-3 reasoning xAI 93,3% 2026-04
4 LongCat-Flash-Thinking reasoning Meituan 93,3% 2026-04
5 Gemini 2.5 Pro reasoning Google 92% 2026-04
6 o3 reasoning OpenAI 91,6% 2026-04
7 DeepSeek-R1-0528 reasoning DeepSeek 91,4% 2026-04
8 GLM-4.5 reasoning Zhipu AI 91% 2026-04

Wat meet het?

De American Invitational Mathematics Examination is oorspronkelijk een 15-vragen wiskunde-wedstrijd voor Amerikaanse middelbare scholieren die via AMC 10/12 kwalificeren. Alle antwoorden zijn gehele getallen van 000 tot 999. In 2025/2026 gebruiken AI-leaderboards AIME 2024 (de twee toetsen samen = 30 problemen) en AIME 2025 als moeilijke wiskunde-benchmark.

Het gaat om creatieve bewijs- en algebra-problemen waar competitie-ervaring helpt, niet alleen memoriseren.

Hoe je de score leest

Score is het aantal correcte antwoorden als percentage.

  • Willekeurig gokken: 1/1000 per vraag = effectief nul.
  • Mediane AIME-deelnemer: ~33% (5 van de 15).
  • Top-tier AIME-deelnemers (USAMO-kandidaten): ~80–100%.
  • Huidige top: AIME 2024: ~95%. AIME 2025: sommige modellen tikken 100% aan (met self-consistency).

Voorbeeld-opgave

Voorbeeld — AIME 2024, probleem 1:

"Elke ochtend loopt Aya 9 km en bezoekt daarna een koffietent. Als ze met snelheid s km/u loopt, duurt de wandeling 4 uur inclusief t minuten in de koffietent. Met snelheid s+2 km/u duurt het geheel 2 uur en 24 minuten inclusief t minuten. Vind het aantal minuten dat ze loopt plus t wanneer ze met snelheid s+½ km/u loopt."

Antwoord: 204.

Waar je op moet letten

  • Contaminatie. AIME 2024-opgaven stonden kort na publicatie overal online. Modellen hebben ze vrijwel zeker gezien. AIME 2025 en OTIS-Mock-versies zijn betrouwbaarder.
  • 100%-scores zijn meestal niet single-shot. Top-scores gebruiken vaak pass@k of majority-of-n — het model mag meerdere keren proberen en de stem van de meerderheid telt.
  • Weinig vragen. Slechts 30 (of 15) problemen. Eén vraag = 3–7 procentpunt. Kleine score-verschillen zijn ruis.

Bronnen

← Terug naar alle benchmarks