GPT-5.5 scoort records op coding en tokenverbruik

OpenAI heeft gisteren GPT-5.5 uitgebracht, amper zes weken na de release van GPT-5.4. Het nieuwe model scoort op vrijwel elke benchmark hoger dan zijn voorganger en dan concurrenten als Claude Opus 4.7 en Gemini 3.1 Pro, terwijl het minder tokens nodig heeft voor dezelfde taken. Dat laatste maakt het niet alleen slimmer, maar ook voordeliger in gebruik.

Wat GPT-5.5 anders doet

Het verschil met GPT-5.4 zit niet in een nieuwe architectuur, maar in hoe het model werkt. GPT-5.5 begrijpt sneller wat je bedoelt en kan meer stappen zelfstandig uitvoeren: code schrijven en debuggen, online onderzoek doen, data analyseren, documenten en spreadsheets maken, software bedienen en schakelen tussen tools tot een taak af is.

Waar eerdere modellen elke stap sturing nodig hadden, kun je GPT-5.5 volgens OpenAI een rommelige, meervoudige opdracht geven en erop vertrouwen dat het zelf plant, tools inzet, zijn werk controleert en door onduidelijkheden heen navigeert. Dat klinkt als marketing, maar de benchmarkscores ondersteunen die claim grotendeels.

OpenAI benadrukt ook de snelheid: ondanks de hogere prestaties matcht GPT-5.5 de per-token-latency van GPT-5.4 in productie. Grotere, slimmere modellen zijn normaal gesproken trager, maar dat is hier volgens OpenAI niet het geval.

Negen benchmarks, negen keer hoger dan Opus 4.7

OpenAI publiceerde resultaten op tien benchmarks. Op negen daarvan scoort GPT-5.5 hoger dan Claude Opus 4.7, op alle tien hoger dan GPT-5.4. De voorsprong is het grootst op coding-taken en wiskundige probleemoplossing:

Terminal-Bench 2.0 (complexe command-line workflows): 82,7% tegenover 69,4% voor Claude Opus 4.7 en 68,5% voor Gemini 3.1 Pro
SWE-Bench Pro (GitHub-issues oplossen): 58,6%, meer taken in een keer opgelost dan voorgaande modellen
FrontierMath Tier 4 (zware wiskunde): 35,4% tegenover 22,9% voor Opus 4.7 en 16,7% voor Gemini 3.1 Pro
CyberGym (cybersecurity): 81,8% tegenover 73,1% voor Opus 4.7
GDPval (kenniswerk over 44 beroepen): 84,9% tegenover 80,3% voor Opus 4.7
OSWorld-Verified (computerbesturing): 78,7%, vrijwel gelijk aan Opus 4.7 (78,0%)

De enige benchmark waar GPT-5.5 niet bovenaan staat is BrowseComp (online zoeken en browsen), waar Gemini 3.1 Pro met 85,9% net boven de 84,4% van GPT-5.5 uitkomt. GPT-5.5 Pro scoort daar overigens wel 90,1%.

Op de Artificial Analysis Intelligence Index levert GPT-5.5 volgens OpenAI state-of-the-art intelligentie tegen de helft van de kosten van vergelijkbare frontier-modellen. Dat komt doordat het model minder tokens verbruikt voor dezelfde Codex-taken.

Wat early testers zeggen

OpenAI deelde feedback van bijna 200 testpartners. Dan Shipper, CEO van Every, noemt GPT-5.5 het eerste coding-model met serieuze conceptuele helderheid. Hij testte of het model dezelfde rewrite kon produceren als een senior engineer die dagenlang aan een bug had gewerkt. GPT-5.4 kon het niet. GPT-5.5 wel.

Michael Truell, medeoprichter van Cursor, stelt dat GPT-5.5 merkbaar slimmer en vasthoudender is dan GPT-5.4, met sterkere codingprestaties en betrouwbaarder toolgebruik. Een NVIDIA-engineer ging nog verder: het verliezen van toegang tot GPT-5.5 voelt volgens hem alsof er een ledemaat is geamputeerd.

Intern bij OpenAI gebruikt meer dan 85% van het bedrijf Codex wekelijks, niet alleen voor softwareontwikkeling maar ook voor finance, communicatie, marketing en datawetenschap. Het financeteam verwerkte 24.771 K-1-belastingformulieren (71.637 pagina's) en bespaarde daarmee twee weken ten opzichte van het jaar ervoor.

Beschikbaarheid en prijzen

GPT-5.5 rolt nu uit naar Plus-, Pro-, Business- en Enterprise-gebruikers in ChatGPT en Codex. GPT-5.5 Pro, een krachtiger variant, is beschikbaar voor Pro-, Business- en Enterprise-abonnees. De API ontbreekt nog. OpenAI meldt dat die zeer binnenkort komt, maar dat de API-uitrol andere veiligheidsmaatregelen vereist.

Voor Nederlandse ontwikkelaars en bedrijven die LLM's via de API integreren in hun producten, betekent dit even wachten. Wie het model nu wil testen, kan dat in ChatGPT (Plus kost 22 euro per maand) of via Codex. De Pro-variant, die op BrowseComp 90,1% scoort, vereist een Pro-abonnement van circa 220 euro per maand.

Wetenschappelijk onderzoek als bijvangst

Een minder belichte maar opvallende claim: een interne versie van GPT-5.5 heeft een nieuw bewijs gevonden over Ramsey-getallen, een centraal probleem in de combinatoriek. Het bewijs werd later geverifieerd in de wiskundige bewijsassistent Lean. Immunoloog Derya Unutmaz (Jackson Laboratory) gebruikte GPT-5.5 Pro om een genexpressiedataset met 62 samples en bijna 28.000 genen te analyseren, werk dat zijn team naar eigen zeggen maanden zou hebben gekost.

Wat dit betekent als je nu Claude of Cursor gebruikt

Voor Nederlandse ontwikkelaars die dagelijks met Claude Opus 4.7 of Cursor werken, is dit direct relevant. De benchmarkvoorsprong van GPT-5.5 is het sterkst in agentisch coderen: complexe, meerstaps programmeertaken waar het model zelfstandig door een codebase navigeert. Dat is precies het type werk waar steeds meer ontwikkelteams op leunen.

Cursor heeft GPT-5.5 al geintegreerd. Als je Cursor gebruikt, kun je het nieuwe model nu selecteren. Het lagere tokenverbruik per taak vertaalt zich in lagere API-kosten, een direct financieel voordeel voor teams die op basis van verbruik betalen.

Tegelijk past een kanttekening. OpenAI publiceert zijn eigen benchmarks, en de selectie van tests bepaalt het beeld. Anthropic's Claude Opus 4.7 landde pas acht dagen geleden en Anthropic zal ongetwijfeld reageren. De AI-race versnelt: zes weken tussen GPT-5.4 en GPT-5.5, twee weken geleden Opus 4.7. Voor bedrijven die AI inzetten is het belangrijkste advies niet blind wisselen, maar testen welk model het beste presteert voor jouw specifieke taken.

OpenAI brengt GPT-5.5 uit, zes weken na zijn voorganger

Wat GPT-5.5 anders doet

Negen benchmarks, negen keer hoger dan Opus 4.7

Wat early testers zeggen

Beschikbaarheid en prijzen

Wetenschappelijk onderzoek als bijvangst

Wat dit betekent als je nu Claude of Cursor gebruikt

Misschien vind je dit ook leuk

Apple herbouwt Siri met Google Gemini, maar de EU moet wachten

Claude gaat vanaf 15 juni je geautomatiseerde scripts apart afrekenen

Anthropic zit bij Trump aan tafel om Fable 5 terug te krijgen