Hallucinatie
Wanneer een AI-model met volle overtuiging iets zegt wat feitelijk onjuist of verzonnen is.
Het grootste bekende probleem van taalmodellen: ze verzinnen soms dingen. En ze doen dat met dezelfde zelfverzekerde toon als wanneer ze iets weten. Een uitgevonden citaat, een niet-bestaande wetenschappelijke studie, een verzonnen rechtszaak. Het overkomt alle modellen, ook de beste.
De oorzaak zit in hoe ze werken. Een LLM voorspelt het meest plausibele volgende woord, niet het meest feitelijk correcte. Als "Einstein zei ooit..." grammaticaal aannemelijk is, bedenkt het model iets wat Einstein gezegd zou kunnen hebben. Dat het niet echt is gebeurd, weet het model niet. Er is geen intern mechanisme dat zegt "stop, dit is verzonnen".
Hoe vaak gebeurt het?
De Vectara Hallucination Leaderboard meet hoe vaak modellen feiten verzinnen als je ze vraagt een document samen te vatten. Top-scores in 2026:
- GPT-5.4 nano: 3,1% hallucinatie-rate
- Gemini 2.5 Flash Lite: 3,3%
- Microsoft Phi-4: 3,7%
- Llama 3.3 70B: 4,1%
- Amazon Nova Pro: 5,1%
Dat betekent: zelfs bij een relatief simpele taak (samenvat wat hier staat) verzint 1 op de 20 tot 30 antwoorden iets. Bij moeilijker werk (open vragen over feiten, juridische analyses) lopen de rates veel hoger op.
Echte incidenten
Een paar beroemde voorbeelden van hoe mis het kan gaan:
- Mata v. Avianca (mei 2023). Advocaat Steven Schwartz gebruikte ChatGPT om zes jurisprudentie-zaken op te zoeken. Allemaal verzonnen. De rechter noemde de geciteerde uitspraken "gibberish" en legde Schwartz een boete op van 5.000 dollar. ChatGPT bleef zelfs nadat Schwartz ernaar vroeg volhouden dat de zaken echt waren.
- Air Canada-chatbot (februari 2024). De support-bot verzon een bereavement-fare beleid dat niet bestond. Een klant koos op basis daarvan. Canada's Civil Resolution Tribunal bepaalde dat Air Canada de verzonnen regeling moest honoreren en schadevergoeding moest betalen.
- Deloitte-rapporten (oktober 2025). Twee overheidsrapporten — een van A$440.000 voor Australie en een van CA$1,6 miljoen voor Newfoundland — bleken fictieve academische bronnen en citaten te bevatten. Deloitte betaalde deels terug en leverde gecorrigeerde versies.
- Mark Walters vs. OpenAI (juni 2023). ChatGPT beschuldigde een activist valselijk van verduistering en fraude bij een organisatie waar hij nooit had gewerkt. Walters klaagde OpenAI aan wegens smaad. In mei 2025 oordeelde de rechter in het voordeel van OpenAI, maar de zaak opende juridische vragen over aansprakelijkheid voor AI-uitspraken.
Typen hallucinaties
- Feitenverzinsels: Jaartallen, namen, cijfers die niet kloppen.
- Verzonnen bronnen: Niet-bestaande URLs, artikelen, wetten of paragrafen.
- Tegenstrijdige antwoorden: Het model spreekt zichzelf tegen in dezelfde response.
- Context-hallucinaties: Het model citeert "uit het bijgevoegde document" terwijl die tekst daar niet in staat.
Hoe ga je ermee om?
Drie praktische regels:
- Check feitelijke claims altijd. Namen, cijfers, jaartallen, wetten, citaten. Vooral bij juridische, medische of financiele onderwerpen.
- Gebruik RAG voor specifieke data. Zo haalt het model antwoorden uit een database die jij controleert, in plaats van uit zijn geheugen.
- Kies modellen die bronnen tonen. ChatGPT met search, Claude met web-fetch of Perplexity laten zien waar informatie vandaan komt. Dan kun je de bron zelf openen.
AI-modellen zijn uitstekend voor brainstormen, herschrijven en samenvatten van tekst die je zelf levert. Ze zijn onbetrouwbaar voor feiten die niet ergens op papier staan. Dat onderscheid maken scheelt veel frustratie.