AI Nieuws

OpenAI brengt GPT-5.5 uit, zes weken na zijn voorganger

· 5 min leestijd

OpenAI heeft gisteren GPT-5.5 uitgebracht, amper zes weken na de release van GPT-5.4. Het nieuwe model scoort op vrijwel elke benchmark hoger dan zijn voorganger en dan concurrenten als Claude Opus 4.7 en Gemini 3.1 Pro, terwijl het minder tokens nodig heeft voor dezelfde taken. Dat laatste maakt het niet alleen slimmer, maar ook voordeliger in gebruik.

Wat GPT-5.5 anders doet

Het verschil met GPT-5.4 zit niet in een nieuwe architectuur, maar in hoe het model werkt. GPT-5.5 begrijpt sneller wat je bedoelt en kan meer stappen zelfstandig uitvoeren: code schrijven en debuggen, online onderzoek doen, data analyseren, documenten en spreadsheets maken, software bedienen en schakelen tussen tools tot een taak af is.

Waar eerdere modellen elke stap sturing nodig hadden, kun je GPT-5.5 volgens OpenAI een rommelige, meervoudige opdracht geven en erop vertrouwen dat het zelf plant, tools inzet, zijn werk controleert en door onduidelijkheden heen navigeert. Dat klinkt als marketing, maar de benchmarkscores ondersteunen die claim grotendeels.

OpenAI benadrukt ook de snelheid: ondanks de hogere prestaties matcht GPT-5.5 de per-token-latency van GPT-5.4 in productie. Grotere, slimmere modellen zijn normaal gesproken trager, maar dat is hier volgens OpenAI niet het geval.

Negen benchmarks, negen keer hoger dan Opus 4.7

OpenAI publiceerde resultaten op tien benchmarks. Op negen daarvan scoort GPT-5.5 hoger dan Claude Opus 4.7, op alle tien hoger dan GPT-5.4. De voorsprong is het grootst op coding-taken en wiskundige probleemoplossing:

  • Terminal-Bench 2.0 (complexe command-line workflows): 82,7% tegenover 69,4% voor Claude Opus 4.7 en 68,5% voor Gemini 3.1 Pro
  • SWE-Bench Pro (GitHub-issues oplossen): 58,6%, meer taken in een keer opgelost dan voorgaande modellen
  • FrontierMath Tier 4 (zware wiskunde): 35,4% tegenover 22,9% voor Opus 4.7 en 16,7% voor Gemini 3.1 Pro
  • CyberGym (cybersecurity): 81,8% tegenover 73,1% voor Opus 4.7
  • GDPval (kenniswerk over 44 beroepen): 84,9% tegenover 80,3% voor Opus 4.7
  • OSWorld-Verified (computerbesturing): 78,7%, vrijwel gelijk aan Opus 4.7 (78,0%)

De enige benchmark waar GPT-5.5 niet bovenaan staat is BrowseComp (online zoeken en browsen), waar Gemini 3.1 Pro met 85,9% net boven de 84,4% van GPT-5.5 uitkomt. GPT-5.5 Pro scoort daar overigens wel 90,1%.

Op de Artificial Analysis Intelligence Index levert GPT-5.5 volgens OpenAI state-of-the-art intelligentie tegen de helft van de kosten van vergelijkbare frontier-modellen. Dat komt doordat het model minder tokens verbruikt voor dezelfde Codex-taken.

Wat early testers zeggen

OpenAI deelde feedback van bijna 200 testpartners. Dan Shipper, CEO van Every, noemt GPT-5.5 het eerste coding-model met serieuze conceptuele helderheid. Hij testte of het model dezelfde rewrite kon produceren als een senior engineer die dagenlang aan een bug had gewerkt. GPT-5.4 kon het niet. GPT-5.5 wel.

Michael Truell, medeoprichter van Cursor, stelt dat GPT-5.5 merkbaar slimmer en vasthoudender is dan GPT-5.4, met sterkere codingprestaties en betrouwbaarder toolgebruik. Een NVIDIA-engineer ging nog verder: het verliezen van toegang tot GPT-5.5 voelt volgens hem alsof er een ledemaat is geamputeerd.

Intern bij OpenAI gebruikt meer dan 85% van het bedrijf Codex wekelijks, niet alleen voor softwareontwikkeling maar ook voor finance, communicatie, marketing en datawetenschap. Het financeteam verwerkte 24.771 K-1-belastingformulieren (71.637 pagina's) en bespaarde daarmee twee weken ten opzichte van het jaar ervoor.

Beschikbaarheid en prijzen

GPT-5.5 rolt nu uit naar Plus-, Pro-, Business- en Enterprise-gebruikers in ChatGPT en Codex. GPT-5.5 Pro, een krachtiger variant, is beschikbaar voor Pro-, Business- en Enterprise-abonnees. De API ontbreekt nog. OpenAI meldt dat die zeer binnenkort komt, maar dat de API-uitrol andere veiligheidsmaatregelen vereist.

Voor Nederlandse ontwikkelaars en bedrijven die LLM's via de API integreren in hun producten, betekent dit even wachten. Wie het model nu wil testen, kan dat in ChatGPT (Plus kost 22 euro per maand) of via Codex. De Pro-variant, die op BrowseComp 90,1% scoort, vereist een Pro-abonnement van circa 220 euro per maand.

Wetenschappelijk onderzoek als bijvangst

Een minder belichte maar opvallende claim: een interne versie van GPT-5.5 heeft een nieuw bewijs gevonden over Ramsey-getallen, een centraal probleem in de combinatoriek. Het bewijs werd later geverifieerd in de wiskundige bewijsassistent Lean. Immunoloog Derya Unutmaz (Jackson Laboratory) gebruikte GPT-5.5 Pro om een genexpressiedataset met 62 samples en bijna 28.000 genen te analyseren, werk dat zijn team naar eigen zeggen maanden zou hebben gekost.

Wat dit betekent als je nu Claude of Cursor gebruikt

Voor Nederlandse ontwikkelaars die dagelijks met Claude Opus 4.7 of Cursor werken, is dit direct relevant. De benchmarkvoorsprong van GPT-5.5 is het sterkst in agentisch coderen: complexe, meerstaps programmeertaken waar het model zelfstandig door een codebase navigeert. Dat is precies het type werk waar steeds meer ontwikkelteams op leunen.

Cursor heeft GPT-5.5 al geintegreerd. Als je Cursor gebruikt, kun je het nieuwe model nu selecteren. Het lagere tokenverbruik per taak vertaalt zich in lagere API-kosten, een direct financieel voordeel voor teams die op basis van verbruik betalen.

Tegelijk past een kanttekening. OpenAI publiceert zijn eigen benchmarks, en de selectie van tests bepaalt het beeld. Anthropic's Claude Opus 4.7 landde pas acht dagen geleden en Anthropic zal ongetwijfeld reageren. De AI-race versnelt: zes weken tussen GPT-5.4 en GPT-5.5, twee weken geleden Opus 4.7. Voor bedrijven die AI inzetten is het belangrijkste advies niet blind wisselen, maar testen welk model het beste presteert voor jouw specifieke taken.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch privé, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.

Gemaakt door een mens, met AI als assistent bij research en redactie. Meer over onze werkwijze in de AI-disclosure en het redactiestatuut.