AI Uitleg

Context window

De maximale hoeveelheid tekst (in tokens) die een AI-model in een gesprek kan verwerken.

Het context window is de maximale hoeveelheid tekst die een AI-model in een gesprek kan verwerken. Het is het geheugen op korte termijn van het model: alles binnen het venster kan het zien en gebruiken, alles daarbuiten bestaat voor hem niet.

Context wordt gemeten in tokens. Om een gevoel te geven: een pagina A4 is ongeveer 600 tokens, een gemiddelde roman van 300 pagina's is zo'n 180.000 tokens, de complete Harry Potter-serie is ongeveer 1 miljoen tokens.

Hoe groot zijn de huidige vensters?

  • GPT-5: 400.000 tokens (OpenAI)
  • Claude Opus 4.7: 1 miljoen tokens (Anthropic)
  • Gemini 3.1 Pro: ongeveer 1 miljoen tokens (Google, Gemini 1.5 Pro deed eerder ook 2M in preview)
  • Grok 4 Fast: 2 miljoen tokens (xAI) — het grootste venster in april 2026 bij frontier-modellen

Dat zijn enorme getallen vergeleken met een paar jaar geleden. GPT-3 had in 2020 nog maar 4.000 tokens, destijds nauwelijks genoeg voor een lang blogartikel. De schaal is in vijf jaar met een factor 500 gegroeid.

Wat een groot venster je geeft

Met meer context kan je nieuwe dingen doen:

  1. Hele codebases analyseren. Een project van honderden bestanden past in 1M tokens. Claude kan dan vragen als "waar gebruiken we deze functie?" beantwoorden zonder dat jij eerst bestanden hoeft aan te wijzen.
  2. Lange documenten lezen. Een juridisch contract, een onderzoeksrapport, een jaarverslag — in een keer als input meegeven.
  3. Lange gesprekken. Bij een groot venster vergeet het model minder snel wat je eerder besproken hebt.
  4. Meer voorbeelden. Bij few-shot prompting kan je tientallen in plaats van twee of drie voorbeelden meesturen.

Waarom groot niet altijd beter is

Onderzoek laat zien dat modellen minder scherp worden naarmate het venster voller zit. De term is context rot: bij 30 tot 50% vulling begint de kwaliteit te zakken. Specifieke details uit het midden van een groot document worden makkelijker over het hoofd gezien dan details aan het begin of einde (het "lost in the middle"-effect, uit een Stanford-paper uit 2023).

Praktische implicaties:

  • Zet de belangrijkste informatie aan het begin of einde van je prompt
  • Ruim lange gesprekken op: verwijder oude irrelevante context
  • Voor grote documenten: overweeg RAG in plaats van het hele document in het venster duwen

Kosten en snelheid

Een vol venster is duur en traag. 1 miljoen tokens input kost bij Claude Opus 4.7 ruwweg 5 dollar. En het model moet al die tokens verwerken voordat het een antwoord begint, wat seconden kan schelen per vraag. Veel providers hebben daarom een goedkopere tier voor korte prompts en een duurdere voor lange context (Anthropic rekent boven 200K een hogere prijs, OpenAI idem voor GPT-5.4 boven 272K).

← Terug naar alle termen