Is Anthropic bang voor zijn eigen AI? Recursive self-improvement

Meer dan tachtig procent van de code die Anthropic in productie brengt, is geschreven door Claude. Niet door stagiairs, niet door een offshore-team. Door het AI-model dat het bedrijf zelf bouwt. In een nieuw rapport via The Anthropic Institute laat het bedrijf voor het eerst zien hoe diep die verstrengeling gaat, en het stelt een vraag die je niet elke dag hoort van een techbedrijf: moeten we hier misschien even mee stoppen?

Wat heeft Anthropic precies onthuld?

Engineers bij Anthropic leveren inmiddels acht keer zoveel code per kwartaal als in de periode 2021 tot 2024. Dat klinkt als een productiviteitssprong uit een managementboek, maar de verklaring is simpel: Claude schrijft, de mens stuurt en reviewt. In een interne peiling onder 130 onderzoekers schatten de meesten dat ze met Claude Mythos Preview ongeveer vier keer zoveel output produceren als zonder AI-hulp.

Wacht even, want het wordt concreter. Anthropic draaide in april een retrospectieve analyse op hun eigen codebase. Een geautomatiseerde Claude-reviewer had achteraf een derde van de bugs gevangen die tot incidenten leidden op claude.ai. Bugs die de beste engineers ter wereld hadden gemist.

Het succespercentage van Claude op open-ended taken steeg in zes maanden van 26 naar 76 procent. Een medewerker wordt in het rapport letterlijk geciteerd:

“It's been about five months since I last wrote any code myself.”
Anthropic-medewerker, intern rapport 2026

Wat is recursive self-improvement precies?

Het kernbegrip uit het rapport is recursive self-improvement: een AI-systeem dat goed genoeg wordt om zijn eigen opvolger te ontwerpen en te bouwen. Denk aan een architect die niet alleen gebouwen ontwerpt, maar ook de volgende, betere architect kan maken. Die op zijn beurt weer een nog betere architect maakt. Zonder plafond.

Anthropic stelt dat we daar nog niet zijn. Maar de trend wijst er wel naartoe. De tijdsduur van taken die AI zelfstandig kan uitvoeren verdubbelt elke vier maanden, volgens metingen van evaluatiebureau METR. In maart 2024 kon Claude taken aan die een mens vier minuten kosten. Een jaar later: anderhalf uur. Weer een jaar later: twaalf uur. Als die lijn doortrekt, komen taken van meerdere dagen binnen bereik in 2027.

Hoe goed is Claude inmiddels als onderzoeker?

Anthropic testte hoe goed Claude zelfstandig onderzoek kan doen. Ze gaven AI-agents een open probleem in AI-veiligheid en lieten ze los. De agents moesten zelf hypothesen bedenken, experimenten opzetten, resultaten delen met parallelle agents en dooritereren.

Twee menselijke onderzoekers herstelden in een week ongeveer 23 procent van een specifieke prestatiekloof. De AI-agents herstelden 97 procent, in 800 uur, voor ongeveer 18.000 dollar aan rekenkracht. Overigens kozen de mensen nog steeds het probleem en de beoordelingsrubric. Maar binnen die kaders deed Claude alles zelf.

Een Anthropic-onderzoeker merkte op:

"I think if a junior colleague came back to me with results like this in the same span of time, I would be mildly impressed. The future is now."
Anthropic-onderzoeker, intern rapport 2026

Welke drie scenario's schetst Anthropic?

Het rapport beschrijft drie mogelijke toekomsten. Geen van drieen is geruststellend simpel.

Scenario 1: de trend vlakt af. De exponentiele curves blijken S-curves. Menselijk oordeelsvermogen, het kiezen welk probleem het waard is om op te lossen, blijft een vaardigheid die niet uit schaalvergroting komt. Zelfs in dit scenario verandert de wereld flink: een bedrijf van honderd mensen kan het werk doen van duizend.

Scenario 2: AI-labs blijven versnellen. AI-ontwikkeling wordt grotendeels geautomatiseerd, maar mensen bepalen de richting. Elke medewerker stuurt een piramide van agents aan. Kenniswerk wordt radicaal efficienter, maar dezelfde technologie kan ook worden ingezet voor massasurveillance of geautomatiseerde manipulatie op individueel niveau.

Scenario 3: volledige recursive self-improvement. AI-systemen ontwerpen en trainen hun eigen opvolgers. De snelheid van vooruitgang wordt alleen nog begrensd door rekenkracht, niet door menselijke capaciteit. Anthropic schrijft openlijk dat het niet weet hoe deze wereld eruitziet.

Waarom wil Anthropic op de pauzeknop kunnen drukken?

Het opvallendste aan het rapport is niet de technische analyse. Het is de beleidsaanbeveling. Anthropic schrijft letterlijk dat het goed zou zijn als de wereld de mogelijkheid had om frontier AI-ontwikkeling tijdelijk te pauzeren. Het bedrijf zegt bereid te zijn om zelf te stoppen, maar alleen als andere labs dat verifieerbaar ook doen.

Dat klinkt mooi, maar het is moeilijker dan je denkt. Trainingsruns zijn veel makkelijker te verbergen dan raketsilo's. De prikkel om stiekem door te gaan terwijl anderen pauzeren is enorm. De wereld heeft eerder verificatieregimes gebouwd voor complexe technologieen (denk aan kernwapenverdragen), maar die kostten decennia aan diplomatiek werk. Die tijd is er volgens Anthropic niet.

Een medewerker vat het gevoel binnen het bedrijf samen: "On days where everything works well, I can't help but think nothing I do matters, everything is automated and better and faster than I ever will be. But then there are days where everything breaks and I don't understand why and I realize I have no idea what I've been up to anymore."

Wat verandert er op GitHub?

Even voor de beeldvorming: de verschuiving die Anthropic intern ziet, is niet uniek. GitHub zag in heel 2025 ongeveer een miljard code-commits. Medio 2026 zijn het er 275 miljoen per week. Dat is op koers voor veertien miljard over het jaar. De COO van GitHub zei op X dat het platform "incredibly hard pusht" op capaciteit om het bij te houden.

De bottleneck verschuift. Niet het schrijven van code is het probleem, maar het beoordelen ervan. Anthropic ervaart dat zelf al: menselijke code review is hun nieuwe knelpunt.

Wat kun je hier als ondernemer mee?

De directe relevantie voor jouw bedrijf zit niet in recursive self-improvement zelf. Die zit in de productiviteitscijfers die eraan voorafgaan. Als engineers bij een van de beste AI-labs ter wereld acht keer zoveel output leveren met AI-hulp, dan is de vraag niet of jouw kenniswerkers dezelfde sprong maken, maar wanneer.

De vaardigheid die het meest schaars wordt: AI-output effectief beoordelen en sturen. Niet zelf code schrijven, maar herkennen of de code die Claude schrijft goed genoeg is. Niet zelf onderzoek doen, maar de juiste vragen stellen aan een systeem dat het onderzoek voor je doet. De maker van Claude Code schrijft al een half jaar geen code meer, maar stuurt dagelijks tientallen AI-agents aan.

Concreet: begin met je team te trainen in het reviewen van AI-output. Dat is de skill die over twaalf maanden het verschil maakt tussen bedrijven die AI echt inzetten en bedrijven die er alleen over praten. Als je wilt weten hoe je dat aanpakt, is ons stappenplan voor een AI-werkwijze die je hele team volgt een goed startpunt.

Het volledige rapport is te lezen op de website van The Anthropic Institute.

Is Anthropic bang voor zijn eigen AI?

Wat heeft Anthropic precies onthuld?

Wat is recursive self-improvement precies?

Hoe goed is Claude inmiddels als onderzoeker?

Welke drie scenario's schetst Anthropic?

Waarom wil Anthropic op de pauzeknop kunnen drukken?

Wat verandert er op GitHub?

Wat kun je hier als ondernemer mee?

Misschien vind je dit ook leuk

DeepSeek V4 Pro evenaart Claude voor 14 procent van de prijs

OpenAI brengt GPT-5.5 uit, zes weken na zijn voorganger

Claude gaat vanaf 15 juni je geautomatiseerde scripts apart afrekenen