Large Language Models

DeepSeek's cache zakt naar een tiende, je RAG wordt spotgoedkoop

· 7 min leestijd

Wie 's avonds de cloud-rekening van zijn agent ziet binnenkomen, weet hoe gemeen die hoek waar input-tokens verstoken worden kan zijn. Sinds zaterdagmiddag rekent DeepSeek nog maar een tiende voor input cache hits over zijn héle API. Niet alleen voor het splinternieuwe V4-Pro, ook voor V4-Flash en alles wat daaronder draait. Wie agents bouwt die elke turn dezelfde fundering aan context herkauwt, denk klantenservicebots, RAG-pipelines, code-assistenten, ziet de rekening opeens vanuit een ander hoekje. We rekenen door wat dat betekent voor een Nederlandse mkb'er die maandag wakker wordt en zijn architectuurkeuze opnieuw moet wegen.

Wat is er precies gewijzigd?

DeepSeek heeft op 26 april om 12:15 UTC twee dingen tegelijk gedaan. Eén: de prijs voor input cache hits is voor de hele DeepSeek API-suite verlaagd naar één tiende van wat hij was. Twee: bovenop dat is het nieuwe V4-Pro tot 5 mei nog eens 75 procent in prijs gezakt. De cache hit op V4-Pro kost daardoor nu 0,025 yuan per miljoen tokens. Reken om: ongeveer 0,0036 dollar. Minder dan de prijs van een halve houtskoolbriket.

De volledige tarievenlijst staat in de officiële DeepSeek API-documentatie. Voor V4-Flash is de cache hit 0,0028 dollar per miljoen tokens. Een cache miss kost respectievelijk 0,14 dollar (Flash) of 0,435 dollar (V4-Pro promotioneel) per miljoen. Output blijft prijziger met 0,28 of 0,87 dollar per miljoen tokens.

Belangrijk om dit te begrijpen: cache hits zijn de tokens die je opnieuw aanroept. Dezelfde system prompt, dezelfde RAG-context, dezelfde tool-definitions. Alles wat een agent bij elke turn nodig heeft, maar wat niet verandert. In productie-agents is dit makkelijk 70 tot 95 procent van het input-volume. Daar zat de verborgen cloud-rekening.

Voor wie merkt dit verschil het hardst?

Niet voor de bouwer van een eenmalige chatbot die af en toe een vraag krijgt. Wel voor wie iets in productie heeft dat de hele dag dezelfde fundering opnieuw inleest. Drie scenario's waarin dit pijnlijk veel uitmaakt:

  • RAG-pipelines die voor elke gebruikersvraag dezelfde set retrieval-documenten meesturen. Vaak 30.000 tot 100.000 tokens aan context, hooguit twee zinnen aan nieuwe input.
  • Klantenservice-agents met een vaste system prompt van duizenden woorden plus een gedeelde knowledge base. Iedere klant krijgt diezelfde set tokens als input.
  • Code-assistenten die hetzelfde repository-overzicht tussen elke turn opnieuw meesturen, plus de gespreksgeschiedenis tot dan toe.

Een agent die elke turn 50.000 cached tokens hergebruikt en in een werkdag 5.000 turns doet, niet ongebruikelijk voor een mkb'er met een live klantbot, verwerkt 250 miljoen cached input-tokens per dag. Dat hoor je in elke discussie over herhalend promptwerk terug: het zit altijd in dezelfde fundering.

De rekening voor een Nederlandse mkb'er, in euro's

Even voor de beeldvorming: laten we die fictieve klantbot doorrekenen. 250 miljoen cached tokens per dag, 22 werkdagen per maand, dat is 5,5 miljard cached tokens per maand.

Op DeepSeek V4-Flash kost dat tegen het nieuwe tarief 5.500 maal 0,0028 dollar, ongeveer 15,40 dollar per maand. In euro's tegen de huidige koers: krap 14 euro. Inclusief btw rekent een Nederlandse zzp-er ongeveer 17 euro per maand voor deze workload.

Voor de output-tokens komt daar nog wat bij. Stel dat dezelfde agent één miljoen output-tokens per dag produceert (kort antwoord, 200 tokens maal 5.000 turns). 22 miljoen output-tokens maal 0,28 dollar is 6,16 dollar per maand. Daarmee draait de hele agent op tegen de 20 euro per maand inclusief btw, voor een mkb'er die dagelijks duizenden klantvragen automatiseert.

Een paar weken geleden, vóór deze prijswijziging, lag dezelfde rekening tien keer hoger. En dat is inclusief de premium V4-Pro promotie die eind mei afloopt. Daarna stijgen de cache miss-tarieven weer terug, maar de cache hit-prijs van een tiende blijft. Dat is structureel.

Hoe verhoudt dit zich tot Claude en OpenAI?

Hier wordt het pijnlijk voor wie zijn agent op een Westers model bouwt. Anthropic en OpenAI rekenen ook ongeveer 10 procent van het input-tarief voor cache hits, hetzelfde percentage als de stap die DeepSeek nu zet. Het verschil zit in de basisprijs.

  • Claude Haiku 4.5 cache read: 0,10 dollar per miljoen tokens. Dat is 35 keer duurder dan DeepSeek V4-Flash.
  • Claude Sonnet 4.6 cache read: 0,30 dollar. Ongeveer 110 keer duurder.
  • Claude Opus 4.7 cache read: 0,50 dollar. Een factor 180 boven DeepSeek.
  • GPT-5.4 standard cache read: 0,25 dollar. Een factor 90 boven DeepSeek Flash.

De cross-provider data is consistent terug te vinden via Artificial Analysis. Je dezelfde fictieve klantbot van hierboven op Claude Sonnet draaien? Dan praat je over zo'n 1.700 dollar per maand alleen voor de cached input-tokens. Op GPT-5.5 ligt dat nog hoger.

Even afstand nemen. Dit gaat niet over "DeepSeek is in alle gevallen beter". Op uiteindelijke kwaliteit en redeneerwerk presteert V4-Pro op Claude-niveau in benchmarks, maar niet altijd in praktijkscenario's. Een Nederlandse jurist die een AI op nuance laat puzzelen merkt het verschil. Het gaat over kostenstructuur: bij agents waar 80 procent of meer van de input cached is, vermenigvuldig je dat factor-90-verschil met je volume. Daar wordt de afweging echt anders.

Analist Zhang Yi van iiMedia noemde het "een echte inflection point voor long-context AI processing". Dat klopt voor de techniek. Voor een Nederlandse organisatie betekent het dat het gesprek over "naar welke provider sturen we onze data" weer open ligt.

Dit raakt je AVG-discussie

En nu het ongemakkelijke deel. DeepSeek is een Chinees bedrijf, hun infrastructuur staat in China. De data die je naar hun API stuurt, inclusief alles wat in je RAG-context zit, verlaat de Europese juridische ruimte. Voor een Nederlandse mkb'er met klantgegevens of zakelijke informatie in de context betekent dat een serieus AVG-vraagstuk.

De AI Act verandert dit op zichzelf niet. Die regelt risicoclassificatie en transparantie van AI-systemen. Het AVG-vraagstuk staat al langer als blok overeind. Wat je nu hebt: een prijsverschil van factor 50 of meer, dat de afweging "wel of niet doorzetten naar een Chinese API" plotseling weer in beweging brengt.

Drie praktische opties voor wie dit serieus wil overwegen:

  • Pseudonimiseer alles aan de poort. Klantnamen, klantnummers, verzekeringsdata, alles dat persoonsgegeven is, eruit vóór de API-call. OpenAI bracht eerder deze week een gratis filter uit dat dit precies doet, in een aparte processing-stap. Dat filter werkt provider-agnostisch.
  • Splits de architectuur. Gebruik DeepSeek voor wat geen persoonsgegevens raakt (productrecherche, samenvatten, code) en Claude of GPT voor wat dat wel doet. De goedkope flow eet 90 procent van je tokens, de dure flow blijft beperkt.
  • Sluit een DPA. DeepSeek heeft een data processing addendum, maar de juridische beschermingsgraad daarvan onder Chinese wet is een open vraag. Bel je advocaat eerst.

Open-source kant van China speelt ook een rol in deze afweging. Qwen-modellen die in je eigen serverkast draaien hebben dit data-export-vraagstuk niet. Ze zijn duurder per token (eigen GPU's, eigen onderhoud), maar de juridische helderheid is volkomen anders. Voor wie zwaar inzet op cached context is de afweging nu drieledig: DeepSeek API (goedkoopste, AVG-zorg), Westers (duurste, AVG-helder), self-hosted open-source (middelduur, AVG-helder, eigen ops).

Wat zou je maandag kunnen doen?

Drie concrete stappen, in volgorde van moeite:

1. Lees je eigen rekening opnieuw. Open je provider-dashboard, kijk naar de splitsing tussen cached en non-cached input-tokens van vorige maand. Als de cached portion 70 procent of meer is, ben je een prime kandidaat voor wat hier speelt, ongeacht of je naar DeepSeek wilt. Veel teams blijken dit nooit gemeten te hebben.

2. Bouw een minimale benchmark. Niet "DeepSeek vs Claude in een groot project". Pak één specifiek deel van je workflow, bijvoorbeeld de antwoord-formuleringsstap in je klantbot, en draai 100 echte klantvragen door beide modellen. Vergelijk kwaliteit en latency, niet alleen prijs. Het kan dat DeepSeek voor jouw specifieke use-case net niet goed genoeg is, of juist verrassend goed.

3. Praat met je DPO. Als je überhaupt overweegt om productieverkeer naar een Chinese provider te sturen, is dat geen technisch besluit maar een juridisch én strategisch besluit. De DPO zegt je vooraf wat de pseudonimisatiegrenzen zijn. Dat scheelt je een week onderhandelen achteraf.

Want en dat is misschien de echte verschuiving die deze prijsupdate zichtbaar maakt: de architectuurkeuze voor agents wordt steeds minder een prompt-engineering vraag, en steeds meer een vraag van waar mag wat draaien tegen welke prijs. Dat hoort thuis op de vrijdagmiddag-agenda van het hele leiderschapsteam, niet alleen bij de DevOps-engineer met de cloud-creditcard.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch privé, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.

Gemaakt door een mens, met AI als assistent bij research en redactie. Meer over onze werkwijze in de AI-disclosure en het redactiestatuut.