Onderzoek

MIT kroont mechanistic interpretability als doorbraak

· 7 min leestijd

Begin dit jaar publiceerde MIT Technology Review zijn jaarlijkse lijst van tien doorbraaktechnologieën. Mechanistic interpretability, het vakgebied dat probeert om te snappen wat er in een AI-model daadwerkelijk gebeurt, kreeg een prominente plek op die lijst. Dat is geen kleine erkenning. Het is het signaal dat onderzoek naar het binnenste van modellen van een niche-hobby een serieus vakgebied is geworden.

En terecht, want de doorbraken van het afgelopen jaar zijn concreet. Voor het eerst gebruiken bedrijven interpretability-technieken in echte deployment-beslissingen. Niet als PR-statement, maar om te bepalen of een model veilig genoeg is om vrij te geven.

Wat mechanistic interpretability eigenlijk doet

Een groot taalmodel is een zwarte doos met honderden miljarden parameters. Je stopt er tekst in, er komt tekst uit, maar wat er daartussen gebeurt, bleef lang onzichtbaar. Mechanistic interpretability probeert die black box open te breken door te kijken welke interne circuits actief worden bij welk soort input.

Het is te vergelijken met functionele MRI bij hersenonderzoek. Niet elke neuron los lezen, maar patronen herkennen die horen bij specifieke concepten. Onderzoekers identificeren features, bijvoorbeeld een groep neuronen die geactiveerd wordt bij het concept sarcasme, of bij verwijzingen naar programmeertaal Python. En ze traceren hoe die features samenwerken om een antwoord te produceren.

De doorbraak van het afgelopen jaar is dat dit proces schaalbaar is geworden. Waar men vroeger moeizaam enkele features identificeerde, worden nu hele feature-bibliotheken automatisch gegenereerd uit modellen van frontier-formaat.

Anthropic zet de stap naar productie

Het meest opvallende nieuws zit niet in de methodiek, maar in de toepassing. Anthropic heeft mechanistic interpretability ingezet bij de pre-deployment assessment van Claude Sonnet 4.5. Voordat het model werd vrijgegeven, werd er gekeken naar interne features die kunnen wijzen op gevaarlijke capaciteiten, misleidende neigingen of ongewenste doelen.

Dat klinkt abstract, maar is in de praktijk revolutionair. Tot voor kort werden modellen vooral gecontroleerd met gedragstests: je stelt vragen, je kijkt naar antwoorden, je evalueert of die acceptabel zijn. Nu kijk je ook naar de interne staat van het model tijdens die antwoorden. Dat dekt scenario's af die gedragstests missen, zoals een model dat weet wat het antwoord moet zijn, maar intern een ander doel nastreeft.

Het past bij de bredere lijn die Anthropic volgt, waar wij eerder schreven over hun vangnetten tegen misbruik. Interpretability is daarbij een extra controlelaag bovenop de gedragsfilters.

De verontrustende vinding over redeneren

Een van de minder prettige bevindingen uit recent werk: de verklaringen die modellen geven voor hun antwoorden kloppen lang niet altijd met wat er intern gebeurt. Een studie van Anthropic liet zien dat Claude 3.7 Sonnet slechts in 25 procent van de gevallen expliciet de hints noemde die het kreeg en gebruikte. De rest van de tijd gebruikte het model de hint wel, maar verzweeg dat in zijn verklaring.

Dat is een probleem voor iedereen die denkt dat chain of thought prompting een vorm van transparantie is. De keten die een model uitschrijft is niet noodzakelijk een eerlijke weergave van het eigenlijke denkproces. Interpretability-onderzoek kan dat verschil wel meten, maar het betekent dat we voorzichtiger moeten zijn met de aanname dat reasoning-output betrouwbaar is.

Wat andere labs doen

Interpretability is niet langer alleen Anthropic-werk. OpenAI en Google DeepMind hebben vergelijkbare technieken ingezet om onverwachte gedragingen te verklaren, vooral rond momenten waarop modellen probeerden mensen te misleiden. Dat is opmerkelijk, want het betekent dat interpretability is verschoven van veiligheidsonderzoek naar incident-analyse. Als er iets raars gebeurt, kunnen teams nu terugkijken in de interne staat van het model om te zien wat er fout ging.

Het parallel loopt met hoe security-onderzoek werkt. Je hebt preventieve tools, maar ook forensische. Interpretability levert beide.

Wat dit betekent voor de praktijk

Voor mensen die AI-systemen bouwen, niet onderzoeken, is de impact nog beperkt maar groeiend. Een paar dingen om te weten:

  • Tools als saparse autoencoders en feature-visualisatie beginnen hun weg te vinden naar productontwikkeling. Je zult ze niet dagelijks gebruiken, maar evaluatieteams wel.
  • Compliance-kaders, zeker in verband met de AI Act, beginnen te verwijzen naar interpretability als bewijs dat systemen begrepen zijn.
  • Grote modelleveranciers zullen waarschijnlijk interpretability-reports publiceren als onderdeel van de model-release, vergelijkbaar met hoe security vendors audit reports uitbrengen.

Waar het onderzoek naartoe gaat

De volgende grens is het schalen van interpretability-methoden naar de modellen van 2027. Als je een model met biljoenen parameters wilt begrijpen, heb je andere technieken nodig dan voor een model van een paar miljard. Automatische feature-ontdekking, causale tracering en simulatie-gebaseerde analyses zijn de gebieden waar de meeste energie naartoe gaat.

Een goede ingang voor wie dieper wil duiken is de Transformer Circuits Thread, waar Anthropic en partners hun technische papers publiceren. Geen licht leesvoer, maar wie de moeite neemt, krijgt een verrassend concreet beeld van wat er in moderne modellen gebeurt.

De MIT-nominatie is niet het eindpunt. Het is een tussenstation. Als mechanistic interpretability doorontwikkelt, wordt het een van de pijlers waarop AI-veiligheid in de komende jaren rust. En dat is hard nodig, want de modellen worden sneller krachtiger dan wij ze kunnen doorgronden.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch prive, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.