Het krachtigste Claude-model vindt nu vier keer zo vaak fouten in je code zonder dat je erom vraagt. Anthropic lanceerde vandaag Claude Opus 4.8, en het opvallendste is niet de snelheid of de benchmarks, maar hoe eerlijk het model over zijn eigen werk is geworden.
Waar Opus 4.7 problemen stilletjes kon laten passeren, stopt de nieuwe versie vaker om te zeggen: hier klopt iets niet. Volgens Anthropic is het model vier keer minder geneigd om gebreken in code over het hoofd te zien zonder ze te benoemen. Voor iedereen die Claude als programmeerhulp gebruikt, is dat het verschil tussen een collega die problemen verzwijgt en een collega die ze aanstipt.
Wat is er precies verbeterd?
Opus 4.8 scoort hoger op vrijwel elke benchmark die ertoe doet voor dagelijks gebruik. De grootste sprong zit in Terminal-Bench 2.1, de test die meet hoe goed een model autonoom code schrijft in een terminal: 74,6 procent tegenover 66,1 procent voor Opus 4.7. Dat is een verschil van 8,5 procentpunt.
Even voor de beeldvorming: dat is alsof je stagiair in twee maanden tijd van "bruikbaar na controle" naar "zelfstandig inzetbaar" is gegroeid.
| Benchmark | Opus 4.7 | Opus 4.8 | Verschil |
|---|---|---|---|
| SWE-Bench Pro (agentic coding) | 64,3% | 69,2% | +4,9% |
| Terminal-Bench 2.1 (terminal) | 66,1% | 74,6% | +8,5% |
| Humanity's Last Exam (redeneren) | 54,7% | 57,9% | +3,2% |
| OSWorld (computer use) | 82,8% | 83,4% | +0,6% |
| GDPval (kenniswerk) | 1753 | 1890 | +137 |
Het gemiddelde op agentic taken steeg van 74,9 naar 80,1, volgens Anthropic's benchmark-rapport. Dat klinkt abstract, maar het betekent concreet: minder mislukte taken, minder handmatige correcties, minder "even zelf fixen".
Op Humanity's Last Exam, de multidisciplinaire test die menselijke experts uitdaagt, scoort Opus 4.8 zonder hulpmiddelen 49,8 procent en met tools 57,9 procent. Dat is de hoogste score die een commercieel model behaalde op deze test.
Waarom eerlijkheid het belangrijkste is aan deze release
Betere benchmarks zijn leuk. Eerlijkheid is waar je als gebruiker het meest aan hebt.
Opus 4.8 is vier keer minder geneigd dan zijn voorganger om fouten in code te negeren zonder ze te benoemen. Het model geeft ook vaker aan wanneer het onzeker is over zijn eigen werk en doet minder vaak ongefundeerde beweringen, blijkt uit Anthropic's interne veiligheidstests.
Eerder deze maand schreef Boris Cherny, de maker van Claude Code, dat hij al een half jaar geen code meer zelf schrijft. Als je je hele workflow aan een AI-model toevertrouwt, wil je dat het eerlijk is over wat het niet weet. Opus 4.8 maakt die werkwijze een stuk veiliger.
Op het gebied van alignment presteert Opus 4.8 vergelijkbaar met Claude Mythos Preview, het model dat Anthropic intern beschouwt als het best uitgelijnde. Dat betekent lagere percentages misleidend gedrag en minder medewerking aan misbruik. Voor bedrijven die Claude inzetten bij klantcontact of gevoelige processen, is dat een relevant gegeven.
Hoe werkt adaptive thinking?
Adaptive thinking laat het model zelf beslissen wanneer het diep moet nadenken. Bij een simpele vraag als "hernoem deze variabele" springt Opus 4.8 direct naar het antwoord. Bij een complexe refactor schakelt het automatisch over naar uitgebreider redeneren.
Het resultaat: minder verspilde thinking-tokens bij eenvoudige taken, betere antwoorden bij moeilijke taken. Je hoeft er niets voor in te stellen.
In de praktijk merk je het verschil het sterkst bij agentic workflows. Veel stappen in een automatische pipeline zijn simpel: een bestand openen, een waarde lezen, een resultaat doorgeven. Voorheen verbruikte elke stap het volle redeneerbudget. Nu bespaart adaptive thinking die tokens voor de momenten waarop het ertoe doet.
Daarnaast heeft Anthropic de drempel voor prompt caching verlaagd naar 1.024 tokens. Dat was voorheen hoger. Voor developers die korte, repetitieve API-aanroepen maken, scheelt dat tot negentig procent op de kosten. Geen codewijziging nodig.
Hoeveel kost Opus 4.8?
De standaardprijzen zijn identiek aan Opus 4.7: 5 dollar per miljoen input-tokens en 25 dollar per miljoen output-tokens. In euro's is dat bij de huidige wisselkoers zo'n 4,60 en 23 euro. Je Claude Pro-abonnement van 20 euro per maand krijgt automatisch toegang.
Wacht even, er is ook een nieuw fast mode. Dat levert 2,5 keer hogere output-snelheid voor 10 dollar input en 50 dollar output per miljoen tokens. Klinkt duurder, maar het is drie keer goedkoper dan fast mode bij eerdere modellen. Wie Claude inzet voor real-time toepassingen of klantcontact kan nu rekenen of de snelheidswinst het dubbele tarief waard is.
Voor een Nederlandse developer die dagelijks met de API werkt: bij gemiddeld 500.000 tokens per dag kost Opus 4.8 je zo'n 3,50 euro per werkdag voor input en 12 euro voor output. Dat is identiek aan vorige maand. De verbeterde kwaliteit is gratis.
Drie functies die developers direct raken
Naast adaptive thinking zitten er drie technische vernieuwingen in Opus 4.8 die direct verschil maken voor wie met de API bouwt.
System messages midden in het gesprek. Opus 4.8 accepteert een system-bericht direct na een user-bericht, niet alleen aan het begin van de conversatie. Dat maakt het mogelijk om instructies bij te sturen zonder de volledige system prompt opnieuw te sturen. Bijkomend voordeel: je prompt cache blijft intact, dus je bespaart op input-kosten in agentic loops.
Effort controls. Op claude.ai en in Cowork bepaal je nu zelf hoeveel moeite Claude in zijn antwoord steekt. Een hoge instelling voor complexe analyses, een lage instelling voor snelle lookups. Opus 4.8 staat standaard op hoog. Bij lagere effort verbruik je ook minder van je rate limit, handig als je tegen je daglimiet aanloopt.
Dynamic workflows (research preview). Opus 4.8 kan in een enkele sessie honderden parallelle subagents aansturen. Denk aan een grote codemigratie: het model verdeelt het werk, laat tientallen agents tegelijk aan verschillende bestanden werken, en controleert de output voordat het alles samenvoegt. Dit is nog een preview, geen productiefeature. Maar voor wie al werkt met Claude Code routines is het een vooruitblik op wat er komt.
Hoe ver loopt Opus 4.8 voor op de concurrentie?
Opus 4.8 behaalt een provisional aggregate score van 93, tegenover 85 voor Opus 4.7. Op agentic taken specifiek scoort het gemiddeld 80,1 (was 74,9) en op multimodale taken 76,1 (was 64,3).
Ter vergelijking: GPT-5.4 van OpenAI scoort op SWE-Bench Verified rond de 65 procent. Gemini 3 Pro van Google zit daar vlak bij. Op codeertaken en agentic workflows heeft Opus 4.8 een duidelijke voorsprong, vooral door de combinatie van kwaliteit en eerlijkheid.
Het verschil is het grootst op Terminal-Bench 2.1, de benchmark die het dichtst bij echte developer-workflows staat. Daar scoort Opus 4.8 74,6 procent, waar de meeste concurrenten onder de 70 blijven. Voor wie Claude Code tegenover Codex afweegt, verschuift het plaatje nog wat meer richting Claude.
Wat kun je hier morgen mee?
Als je Claude al gebruikt voor je werk, hoef je niets te doen. Opus 4.8 rolt automatisch uit op claude.ai en is direct beschikbaar via de API, Amazon Bedrock en Google Vertex AI.
Drie dingen die vandaag al anders zijn:
- Code-reviews worden betrouwbaarder. Waar Opus 4.7 een bug kon missen zonder het te melden, is de kans vier keer kleiner dat Opus 4.8 dat doet.
- Korte taken kosten minder tokens. Adaptive thinking zorgt ervoor dat een simpele hernoem-actie niet meer het volle thinking-budget verbruikt.
- Caching werkt op kortere prompts. De drempel daalde naar 1.024 tokens, waardoor ook kleinere API-aanroepen profiteren van tot negentig procent kostenbesparing.
Overigens, Anthropic hintte in de aankondiging dat Claude Mythos binnen enkele weken verschijnt. Opus 4.8 is kennelijk niet het eindstation, maar een tussenstap. En het gaat hard.