Context window
Hoeveel tekst een AI-model in één keer kan onthouden tijdens een gesprek. 1 miljoen tokens is ongeveer een complete Harry Potter-serie.
Laatst bijgewerkt op · Toegevoegd: prompt caching als kostbeheersing bij grote context, plus 1M tokens als nieuwe standaard bij frontier-modellen (GPT-5.5, Opus 4.7, Gemini 3.1 Pro).
Het context window is de maximale hoeveelheid tekst die een AI-model in een gesprek kan verwerken. Het is het geheugen op korte termijn van het model: alles binnen het venster kan het zien en gebruiken, alles daarbuiten bestaat voor hem niet.
Context wordt gemeten in tokens. Om een gevoel te geven: een pagina A4 is ongeveer 600 tokens, een gemiddelde roman van 300 pagina's is zo'n 180.000 tokens, de complete Harry Potter-serie is ongeveer 1 miljoen tokens.
Hoe groot zijn de huidige vensters?
- GPT-5.5: 1.000.000 tokens (OpenAI, vanaf april 2026)
- Claude Opus 4.7: 1.000.000 tokens (Anthropic)
- Gemini 3.1 Pro: ongeveer 1.000.000 tokens (Google, Gemini 1.5 Pro deed eerder ook 2M in preview)
- Grok 4 Fast: 2.000.000 tokens (xAI) — het grootste venster bij frontier-modellen
- Qwen 3.6-27B: 256.000 tokens (Alibaba, open weights)
Eén miljoen tokens is in 2026 de feitelijke standaard bij frontier-modellen. GPT-3 had in 2020 nog maar 4.000 tokens, destijds nauwelijks genoeg voor een lang blogartikel. De schaal is in vijf jaar met een factor 250 gegroeid.
Wat een groot venster je geeft
Met meer context kan je nieuwe dingen doen:
- Hele codebases analyseren. Een project van honderden bestanden past in 1M tokens. Claude kan dan vragen als "waar gebruiken we deze functie?" beantwoorden zonder dat jij eerst bestanden hoeft aan te wijzen.
- Lange documenten lezen. Een juridisch contract, een onderzoeksrapport, een jaarverslag — in een keer als input meegeven.
- Lange gesprekken. Bij een groot venster vergeet het model minder snel wat je eerder besproken hebt.
- Meer voorbeelden. Bij few-shot prompting kan je tientallen in plaats van twee of drie voorbeelden meesturen.
Waarom groot niet altijd beter is
Onderzoek laat zien dat modellen minder scherp worden naarmate het venster voller zit. De term is context rot: bij 30 tot 50% vulling begint de kwaliteit te zakken. Specifieke details uit het midden van een groot document worden makkelijker over het hoofd gezien dan details aan het begin of einde (het "lost in the middle"-effect, uit een Stanford-paper uit 2023).
Praktische implicaties:
- Zet de belangrijkste informatie aan het begin of einde van je prompt
- Ruim lange gesprekken op: verwijder oude irrelevante context
- Voor grote documenten: overweeg RAG in plaats van het hele document in het venster duwen
Kosten beheersen met prompt caching
Een vol venster is duur. 1 miljoen tokens input kost bij Claude Opus 4.7 ruwweg 5 dollar, bij GPT-5.5 zit het in dezelfde orde. En het model moet al die tokens verwerken voordat het een antwoord begint, wat seconden kan schelen per vraag.
Prompt caching is de techniek die hier het grootste verschil maakt voor productie-gebruik. Anthropic en OpenAI bieden allebei een caching-tier waarbij een herhaaldelijk meegestuurde context (bijvoorbeeld een handleiding of codebase) de eerste keer volle prijs kost en daarna 90 procent goedkoper is. Voor een agent die continu dezelfde 200K context-tokens meestuurt, betekent dat een effectieve prijs van een fractie van de standaard input-tarieven. Wie een product bouwt op een lange context, moet caching standaard inzetten.
Veel providers hebben daarnaast prijsstaffels: Anthropic rekent boven 200.000 tokens een hogere prijs per token, OpenAI doet hetzelfde voor GPT-5-modellen boven 272.000 tokens. Reken vooraf door wat een typische call kost — niet per ongeluk in de duurdere staffel belanden.