AI Uitleg

RAG (Retrieval Augmented Generation)

Een techniek waarbij AI eerst relevante informatie opzoekt in jouw database voordat het antwoord geeft.

RAG staat voor Retrieval Augmented Generation. Het is een techniek waarbij een AI-model eerst relevante informatie opzoekt in een database, voordat het een antwoord geeft. Dus: vraag binnen → zoek relevant → geef antwoord met die info erbij.

Het adres van het probleem: een LLM weet alleen wat het tijdens training heeft gezien. Het kent jouw interne documenten, jouw productcatalogus, of het nieuws van gisteren niet. RAG lost dat op door externe informatie op het moment van de vraag mee te leveren.

Hoe RAG technisch werkt

Een typische RAG-pipeline heeft drie stappen:

  1. Indexeren. Je documenten worden opgedeeld in stukken (chunks), en elk stuk krijgt een embedding: een numerieke vingerafdruk die betekenis vastlegt. Die vingerafdrukken gaan in een vectordatabase (Pinecone, Weaviate, Qdrant, pg-vector).
  2. Ophalen. Als er een vraag komt, wordt die ook omgezet in een embedding. De vectordatabase zoekt de meest gelijkende chunks. Typisch de top 5 tot 20.
  3. Genereren. Die opgehaalde chunks worden als context aan het model meegegeven, samen met de oorspronkelijke vraag. Het model antwoordt op basis van die specifieke info.

Waarom RAG populair is

RAG lost drie problemen tegelijk op:

  • Verouderde kennis. Het model kent zijn eigen trainings-cutoff. RAG levert altijd verse info.
  • Bedrijfsspecifieke data. Je HR-beleid, interne handleidingen, klantgeschiedenis — niet getraind in een generiek model, wel beschikbaar via RAG.
  • Hallucinaties. Als het model de bron ziet, verzint het minder. Plus: je kunt de bron tonen bij het antwoord, wat controleerbaarheid geeft.

Waar RAG faalt

Klinkt ideaal, maar in de praktijk struikelt RAG op typische plekken:

  1. De zoekstap is niet perfect. Als de vectordatabase de verkeerde chunks ophaalt, is het antwoord nog steeds fout. "Garbage in, garbage out" geldt onverminderd.
  2. Betekenis is niet hetzelfde als woorden. Een embedding snapt dat "auto" en "voertuig" verwant zijn, maar mist soms de precieze juridische definitie die je zocht.
  3. Meerdere documenten combineren. "Wat zijn de verschillen tussen ons verzekeringsproduct A en B?" vereist dat chunks uit beide producten worden opgehaald en vergeleken. RAG doet dat niet altijd goed.
  4. Conflicterende bronnen. Als twee documenten tegenstrijdige info bevatten, kiest het model soms willekeurig.

RAG versus fine-tuning

Voor specifieke bedrijfsdata wint RAG bijna altijd:

  • RAG is sneller te updaten — voeg een document toe en het is direct beschikbaar. Fine-tuning vereist opnieuw trainen.
  • RAG laat bronnen zienfine-tuning smelt de kennis in het model zonder herleidbaarheid.
  • Fine-tuning wint voor stijl, RAG voor feiten. Je kunt ze combineren.

Wanneer zet je het in?

RAG is typisch de eerste keuze voor:

  • Klantenservice-bots die moeten antwoorden op basis van handleidingen
  • Juridische of medische tools die specifieke documenten raadplegen
  • Interne Q&A-systemen (HR, IT-helpdesk)
  • Nieuws- of onderzoeks-samenvattingen op actuele data

In 2026 zijn goede RAG-implementaties vrijwel standaard voor elke serieuze AI-toepassing bij bedrijven. De meeste "chat met je documenten"-producten die je ziet, draaien onder de motorkap op een variant van RAG.

← Terug naar alle termen