Tufts-robot verslaat grote taalmodellen op 1 procent energie

Een nieuwe studie van Tufts University, die in juni op ICRA 2026 in Wenen wordt gepresenteerd, laat zien dat een neuro-symbolische robotarchitectuur op gestructureerde manipulatietaken 95 procent succespercentage haalt, tegenover 34 procent voor vergelijkbare Vision-Language-Action modellen. Belangrijker nog, de training vroeg 1 procent van de energie, en uitvoering 5 procent. Dat is geen marginale winst, maar een orde van grootte. Voor Nederlandse logistiek en industrie die met robotisering bezig is, en voor wie zich zorgen maakt over de stroomhonger van AI-datacenters, is dit een onderzoek om goed te lezen.

Wat Duggan en Scheutz concreet vergeleken

Het paper The Price Is Not Right, Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks komt van Timothy Duggan, Pierrick Lorang, Hong Lu en Matthias Scheutz. Zij lieten een robot de Tower of Hanoi oplossen, een klassiek planningsprobleem waarbij schijven in een bepaalde volgorde moeten worden verplaatst. Een fine-tuned VLA, die zich baseert op statistische patronen uit beeld- en tekstdata, kwam uit op 34 procent succes. Hun hybride opzet, waarbij symbolische planning de hoge-niveau stappen bepaalt en een neuraal netwerk alleen de concrete grijphandelingen leert, scoorde 95 procent.

Spannender werd het toen ze een moeilijkere variant testten die de robot in training nog niet had gezien. De neuro-symbolische opzet hield 78 procent succes vast, de VLA zakte naar nul. Dat verschil is typisch voor benaderingen die redeneerregels expliciet in het systeem bouwen, in plaats van ze statistisch te benaderen.

De energiesprong gaat van twintig naar honderd keer

Het energieverhaal is waar het onderzoek harder landt. Het VLA-model trainen duurde anderhalve dag. Het neuro-symbolische systeem was in 34 minuten klaar en gebruikte 1 procent van die energie. Tijdens uitvoering zit het verschil op een factor twintig in het voordeel van de symbolische opzet.

In Nederlandse context tikt dat aan. Volgens het CBS verbruikten datacenters in 2024 4,6 procent van alle elektriciteit in Nederland, goed voor ongeveer 1,9 miljoen huishoudens. Dat aandeel groeit zichtbaar. Als robotica-toepassingen zich laten bouwen met een fractie van die energiehonger, verschuift niet alleen de kostenstructuur, maar ook het ruimtelijke-ordening-gesprek rond nieuwe gigafactorys en datacenters.

Waarom grote taalmodellen hier mank gaan

Vision-Language-Action modellen zijn op papier verleidelijk. Ze beloven een enkel getraind model dat kan kijken, kan begrijpen wat een mens zegt en zelf stuurbewegingen voor een robotarm uitrekent. Voor open-eind-taken werkt dat verrassend goed. Voor gestructureerde taken met meerdere stappen loopt het vast. De VLA probeert het hele plan in een keer statistisch te voorspellen, zonder intern model van de regels. Als stap drie afhangt van wat in stap twee gebeurde, en het trainingsvoorbeeld was een variant met vijf schijven terwijl de testset er zeven heeft, breekt de aanpak.

Symbolische planning, een techniek die in de jaren tachtig bekend stond en daarna uit de mode raakte, heeft hier juist voordeel. Regels blijven regels. Een planner kan bewijsbaar de juiste volgorde uitrekenen, ongeacht hoeveel schijven er liggen. Het Tufts-team gebruikt neurale netwerken daarom alleen waar ze onvervangbaar zijn, voor de gripkinematica en beeldinterpretatie, niet voor de logische planning. Je kunt het zien als ieder deel van het werk neerleggen bij wie er goed in is.

Wat dit betekent voor Nederlandse logistiek en industrie

Nederland is een robotica-land, zij het bescheiden in omvang. Vanderlande bouwt bagagesystemen voor Schiphol en tientallen andere luchthavens. Lely automatiseert melkveestallen. Demcon levert medische en industriele robots. In al deze gevallen draait het om gestructureerde, repetitieve taken, het exacte domein waar het Tufts-werk een voorsprong laat zien. Dat betekent niet dat deze bedrijven morgen hun software herschrijven, maar wel dat de gedachte dat je er een groot foundation model op giet, opnieuw gewogen moet worden.

Voor een Nederlandse AI-consultant, en voor klanten die aan AI-adoptie beginnen, is de les concreet. Als je probleem een duidelijke structuur heeft, bijvoorbeeld een orderpick-proces of een onderhoudsroutine, is een heavy-duty VLA mogelijk de duurste en minst betrouwbare keuze. Een kleinere neurale component gekoppeld aan een regelsysteem kan dezelfde klus goedkoper en voorspelbaarder doen.

De bredere weddenschap rond hybride architecturen

Sinds ChatGPT is het narratief simpel, grotere modellen winnen altijd. Meer parameters, meer data, meer GPU's. Dit onderzoek is een datapunt tegen dat narratief, en niet het eerste. AI-criticus Gary Marcus pleit al jaren voor hybride systemen, en krijgt nu hardere empirische rugdekking. Dat ICRA, de grootste robotica-conferentie, dit paper aanneemt, is een signaal dat het veld zich opent voor architecturen waarin agents en LLMs niet de enige bouwstenen zijn.

Dat heeft gevolgen voor waar Nederlandse bedrijven hun AI-investeringen naar toe sturen. Een model fine-tunen op je eigen data voelt tegenwoordig als de juiste volgende stap. Maar als je taak helder structureerbaar is, kan een paar regels expertkennis plus een lichte neurale laag betrouwbaarder zijn dan de achtste iteratie van je fine-tuned foundation model. Dit onderzoek is een waarschuwingssignaal voor iedereen die denkt dat foundation models bij elk probleem de beste aanpak zijn.

Tufts-robot verslaat grote taalmodellen op 1 procent energie

Wat Duggan en Scheutz concreet vergeleken

De energiesprong gaat van twintig naar honderd keer

Waarom grote taalmodellen hier mank gaan

Wat dit betekent voor Nederlandse logistiek en industrie

De bredere weddenschap rond hybride architecturen

Misschien vind je dit ook leuk

AI stelde vaker de juiste diagnose dan twee artsen op de spoedeisende hulp van Harvard

Vijf vragen waarmee AI je contract beter checkt dan een professor

Anthropic vindt 171 emotievectoren in Claude Sonnet 4.5