AI versloeg dokters in Harvard-spoedtest, NL-zorg moet kiezen

In een spoedgebouw van Beth Israel Deaconess in Boston gingen vorige week 76 patiëntendossiers naar twee artsen en naar een AI. De AI had vaker gelijk. Niet een beetje vaker, twaalf en zeventien procentpunt vaker, in een onderzoek dat in Science verscheen. Wat eruit volgt is geen vervang-de-arts-stuk en ook geen feel-good-update over slimme techniek. Het is een waarschuwing die jouw zorgaanbieder over drie maanden in de schoot geworpen krijgt, want vanaf 1 augustus dwingt de AI Act elke Nederlandse zorginstelling om dezelfde vragen te beantwoorden die Harvard zich nu stelt.

Wat gebeurde er precies bij Beth Israel?

Onderzoekers van Harvard Medical School en Beth Israel Deaconess Medical Center liepen 76 echte spoedeisende-hulp-cases af. Geen toy-cases uit een leerboek, maar dossiers zoals ze in het elektronisch patiëntendossier stonden, inclusief de rommelige aantekeningen, halve afkortingen en chronologische sprongen die elke spoedarts kent. Die dossiers gingen naar twee attending internal-medicine artsen en naar OpenAI's o1, plus zijn voorganger 4o, voor een vergelijking.

De cases werden niet in één keer voorgelegd. De artsen en de modellen kregen ze getrapt te zien: bij triage, bij het eerste contact met de arts, en bij opname op de afdeling of intensive care. Op elk van die drie momenten moesten ze zeggen wat ze dachten dat er aan de hand was, wat de volgende stap zou zijn en welke aanvullende diagnostiek ze wilden inzetten.

De getallen zijn streng. Bij triage gaf o1 in 67 procent van de cases een diagnose die exact of dichtbij de uiteindelijke diagnose lag. Arts 1 zat op 55 procent. Arts 2 op 50 procent. Op elk volgend beslismoment presteerde o1 nominaal beter of gelijk, met de grootste voorsprong precies waar je hem het minst wil hebben: aan de poort, als de patiënt net binnenkomt.

"We tested the AI model against virtually every benchmark, and it eclipsed both prior models and our physician baselines", zegt hoofdauteur Arjun Manrai, AI-lab-directeur bij Harvard. Co-auteur Adam Rodman, internist bij Beth Israel, voegt toe dat hij voor zich ziet hoe een systeem "passively ran over the electronic health record" om kwaliteit te verbeteren. Geen vervanger, een tweede paar ogen.

Maar zou jij hierop willen sterven?

Wacht even. Het is verleidelijk om hier "AI verslaat dokter" van te maken en de boel weer voor een week te laten rusten. Voordat je dat doet, lees de caveats van de auteurs zelf.

Eén: de modellen kregen alleen tekst. Geen X-rays, geen ECG-strookjes, geen luisteren met de stethoscoop, geen kijken in de ogen van een patiënt die rare antwoorden geeft. Manrai zegt het zelf: "Practicing physicians have to listen to the patient, they have to review chest X-ray radiographs, imaging studies." De wereld waarin een arts werkt is niet de wereld die o1 zag.

Twee: de twee artsen waren internal-medicine, geen ER-specialisten. Een spoedarts traint specifiek op het maken van snelle beslissingen onder tijdsdruk met onvolledige informatie. Een internist draait een andere wedstrijd. Dat de AI deze twee versloeg in een spoedcontext is opmerkelijk, maar het is geen wedstrijd tegen het Nederlandse equivalent van een SEH-arts.

Drie, en dit is de belangrijkste: spoedgeneeskunde gaat niet over de juiste diagnose vinden. Spoedeisende hulparts Kristen Panthagani, vaak geciteerd over AI in de zorg, vatte het kernachtig samen. "My primary goal is not to guess your ultimate diagnosis. My primary goal is to determine if you have a condition that could kill you." De vraag is dus niet of de AI de juiste afslag in een differentiaaldiagnose vindt, maar of de AI de afslag mist die jou laat overlijden in de wachtkamer.

En dan is er nog een woord dat de auteurs gebruiken voor het soort fout dat o1 onder druk maakt: sycophantic. Een meeknikkende AI. Eentje die meebuigt met wat je vraagt, in plaats van tegenspraak te geven als de hypothese stinkt. Denk aan een collega die je hardop laat redeneren en steeds knikt, ongeacht of je hypothese klopt. Dat is precies het type fout dat een gestreste arts om vier uur 's nachts ook maakt, en het is precies waarom een AI die "passively over the EHR" loopt geen oplossing is, maar een extra kanaal voor dezelfde valkuil.

Wat draait er in Nederland al echt?

Voordat we doen alsof Boston onze toekomst is, even afstand nemen. In Nederland staat al jaren een speler die diagnostische AI in productie heeft, en dat is geen Big Tech, het is Pacmed uit Amsterdam. Pacmed Critical draait CE-gecertificeerd op de IC en geeft artsen een tweede stem bij de vraag of een patiënt veilig overgeplaatst kan worden van de IC naar een lagere zorgafdeling. Geen taalmodel, wel een gespecialiseerde voorspeller op klinieke data.

Pacmed is opvallend om twee redenen. Ten eerste schaalt het over meerdere ziekenhuizen, wat klinkt als een formaliteit maar in de praktijk de moeilijkste stap is. Een model dat in het Erasmus MC werkt valt vaak om in het LUMC, omdat de patiëntenpopulatie net iets anders is en de protocollen ook. Pacmed heeft die hobbel gepasseerd. Ten tweede draait het lokaal in het ziekenhuis. Geen patiëntdossier dat naar een Amerikaanse cloud gaat. Dat klinkt logisch, maar het is op dit moment het meest ondergewaardeerde concurrentievoordeel in zorg-AI.

Het Erasmus MC heeft een eigen AI-team dat onder andere AI inzet bij het beoordelen van hartecho's en bij het voorspellen van opnameduur na een operatie. Geen ER-diagnose, wel toepassingen die concreet uren in de week schelen. AMC en Radboud doen vergelijkbare dingen. Wat geen van deze instellingen doet, en wat ook niemand op korte termijn van plan is, is een o1-model laten meelezen op de spoedeisende hulp om diagnoses te suggereren. Dat is geen technologische conservatisme. Dat is wettelijk verstandig.

De AI Act-deadline die over drie maanden valt

Vanaf 1 augustus 2026 worden de high-risk-verplichtingen van de Europese AI Act actief. Medische AI valt vrijwel altijd in die categorie, zo werkt Annex III. Dat betekent voor elk model dat diagnostiek ondersteunt, beslissingen over zorg beïnvloedt, of patiëntrisico's classificeert: een conformity assessment door een aangewezen notified body, een gedocumenteerd risk management system, kwaliteitsvereisten op de gebruikte trainingsdata, transparantie naar gebruikers en registratie in een EU-database. Dat is geen formaliteit. Dat is letterlijk een productieproces eromheen.

Wat je makkelijk over het hoofd ziet: de verplichting geldt niet alleen voor de leverancier, maar ook voor de zorginstelling die het systeem gebruikt. Een ziekenhuis dat een AI inzet zonder de leveranciersverplichtingen te checken, draagt zelf medeaansprakelijkheid. Dat geldt ook voor zelf-gebouwde modellen, en steeds meer afdelingen bouwen iets in de marge met een GPT-API of een lokale Llama.

Het Nederlandse kabinet heeft de toezichtsstructuur inmiddels ingevuld. Tien bestaande markttoezichthouders krijgen de bevoegdheid binnen hun eigen domein, met de Autoriteit Persoonsgegevens als coördinator en als toezichthouder voor wat nergens anders past. We schreven hier eerder over in tien Nederlandse loketten kijken straks mee met jouw AI en in het stuk over de uitvoeringswet, en de hoofdlijnen blijven staan. Voor zorg betekent dit concreet dat de Inspectie Gezondheidszorg en Jeugd jouw AI-toepassingen mag inspecteren, en dat de IGJ daar nu al teams op aan het zetten is. De rijksoverheidsbrief vat de structuur in twee minuten samen.

Onder de AI Act ligt de AVG, en die is strenger

De AI Act regelt het systeem. De AVG regelt de data, en die was er eerder. Medische gegevens vallen onder bijzondere persoonsgegevens, artikel 9 AVG, en die mogen in beginsel niet verwerkt worden. Verwerking mag alleen onder strikte uitzonderingen, en zorgverlening is er één. Maar zodra je die data naar een externe AI stuurt, wordt het ingewikkeld.

Stuur je een ER-dossier in een prompt naar een Amerikaanse OpenAI-server, dan zit je in een internationale doorgifte met een aansprakelijkheidsketen die je per stap moet onderbouwen. Houd je het lokaal, met een open-source model op een ziekenhuisserver, dan vermijd je die laag, maar erf je de verantwoordelijkheid voor model-kwaliteit en updates zelf. Pacmed heeft hier een keuze gemaakt en draait on-premises. Anderen kiezen voor Europese cloud, of voor een dedicated tenant in een EU-datacenter met expliciet verbod op trainingsgebruik. Beide kunnen, geen van beide is gratis.

Het KNMG-dossier over AI is voor zorgbestuurders het meest leesbare startpunt. Het zegt onder andere wat veel artsen niet beseffen: het beroepsgeheim is niet weg als je een prompt verzendt. Een patiënt die toestemming geeft voor AI-ondersteuning in het ziekenhuis, geeft niet automatisch toestemming voor data-export naar een buitenlandse provider.

Wat kan jouw zorgaanbieder maandag doen?

Niet wachten tot 1 augustus. Dat is de korte versie. Een iets langere checklist die werkt voor een huisartsenpost, een specialistische kliniek of een ziekenhuisafdeling.

Maak een AI-inventaris. Vraag elk team welke AI-tools ze gebruiken, ook de schaduw-versies. Een huisarts die een eigen ChatGPT-account heeft voor brief-conceptjes, een afdeling met een eigen Copilot-prompt voor verslaglegging, een SEH-team dat een transcriptie-tool draait. Je vindt vrijwel altijd meer dan je dacht.
Classificeer per Annex III. Voor elk gevonden tool: is het beslissingsondersteunend, diagnostisch, risico-classificerend? Dan high-risk. Is het puur administratief (notulen, samenvattingen, aanvraagbrieven), dan beperkt risico, met andere maar lichtere verplichtingen.
DPIA en AI-impact assessment combineren. Voor de high-risk-tools maak je in samenhang met de Functionaris Gegevensbescherming een gecombineerde DPIA en AI-IA. Dat is niet sexy, maar het is wel het document waar de IGJ als eerste om vraagt.
Pilot, geen productie. Tot je conformity assessment rond is, draai je elk diagnostisch model als pilot met expliciete arts-validatie en gelogd. Niemand zit te wachten op een patiënt die overlijdt nadat een AI om half drie 's nachts een suggestie deed die je niet kunt reproduceren.
Vraag je leverancier de papers. Welk notified body? Welke trainingsdata? Welke updates komen wanneer en wat verandert? Een leverancier die hier in mei 2026 nog hummelt, draait niet rond op 1 augustus.

Waar Harvard nog stilvalt

De studie is sterk maar smal. Zesenzeventig patiënten op één locatie, twee niet-ER-artsen als referentie en alleen tekst-input. Auteurs Manrai en Rodman roepen zelf op tot prospectieve studies in echte zorginstellingen, en dat is precies waar Boston naartoe gaat. Tot die tijd is dit onderzoek geen vrijbrief, maar een glasplafond dat een beetje barst kreeg.

Wat het wel betekent: het oude argument dat een groot taalmodel "natuurlijk niet kan diagnosticeren" is dood. Op tekst-cases met complete EHR-input doet o1 het beter dan twee artsen die hetzelfde dossier in handen krijgen, en zonder dat het model getraind was op deze specifieke ziekenhuispopulatie. Voor Nederlandse zorgleiders is dat geen reden om iets over te halen, het is een reden om je AI-governance vandaag op te tuigen, niet in juli.

Want één ding is zeker. Als de eerste Nederlandse zorginstelling een diagnostische AI in productie zet, is de vraag niet of het mag, maar of het is gedocumenteerd. En de tweede vraag, van een zorgverzekeraar of advocaat, is wie het heeft goedgekeurd. Wie nu pas met die documentatie begint, verliest de eerste twee sets.

Op de Harvard-spoed had AI vaker gelijk dan de dokter

Wat gebeurde er precies bij Beth Israel?

Maar zou jij hierop willen sterven?

Wat draait er in Nederland al echt?

De AI Act-deadline die over drie maanden valt

Onder de AI Act ligt de AVG, en die is strenger

Wat kan jouw zorgaanbieder maandag doen?

Waar Harvard nog stilvalt

Misschien vind je dit ook leuk

Nederlandse universiteiten struikelen over hun eigen AI-beleid

EU-icoon voor deepfakes komt eraan, dit moet je weten

Persoonsgegevens en AI, wat je wel en niet mag