Je gooit een klantmail in ChatGPT om snel een antwoord op te stellen, en zonder dat je erbij stilstaat reizen de naam, het adres en het telefoonnummer mee de cloud in. Voor een NL-bedrijf met klantdata is dat een AVG-zorg die elke maandagochtend groter wordt. OpenAI heeft daar nu zelf een filter voor gebouwd. Hij is open-source, draait op je laptop, en een Nederlandse AI-pionier had er binnen een week een NL-fork bovenop staan.
De Privacy Filter verscheen op 22 april als een onopvallende post van OpenAI op Hugging Face. Geen GPT-5.5-fanfare, geen Sam Altman-tweet, gewoon een modelletje van anderhalf miljard parameters dat persoonsgegevens uit tekst knipt voordat die tekst ergens anders heen gaat. Apache 2.0-licentie, gratis, en als je hem in een browser zet hoeft je input nooit je laptop te verlaten.
Voor wie dagelijks AI in zijn werk gebruikt is dat geen detail. Het is het ontbrekende stukje tussen "we willen AI inzetten" en "onze functionaris voor gegevensbescherming staat het ook toe".
Wat doet die filter precies?
Privacy Filter leest een stuk tekst en markeert acht soorten persoonsgegevens: namen, adressen, e-mailadressen, telefoonnummers, URL's, datums, accountnummers en alles wat OpenAI als secret classificeert (denk aan API-keys, paspoortnummers, BSN-achtige reeksen). Per gevonden stukje krijg je een start- en eindpositie en een label terug. Wat je daarmee doet is aan jou: vervangen door <PRIVATE_PERSON>, weglaten, of doorsturen naar een review-laag.
Onder de motorkap zit een mixture-of-experts-architectuur van 1,5 miljard parameters waarvan er per token maar 50 miljoen actief zijn. Je kunt het zien als een panel van 128 specialisten waarvan er telkens vier mogen meepraten. Resultaat: een model dat klein genoeg is om op een MacBook te draaien en groot genoeg om een F1-score van 96 procent te halen op de PII-Masking-300k-benchmark. Eén forward-pass kan tot 128.000 tokens behappen, wat in de praktijk neerkomt op een dik dossier zonder dat je 't moet hakken in stukjes.
Drie regels Python en je hebt 'm draaien:
from transformers import pipeline
classifier = pipeline(task="token-classification", model="openai/privacy-filter")
classifier("Hi, ik ben Sanne de Vries, sanne@bakkerij.nl, 06-12345678")
Waarom doet OpenAI dit zelf?
Tot vorige week was het beste open-source PII-detectiemodel iets als Microsoft Presidio: prima voor wie regex en handmatige regels niet erg vindt, niet zo prima voor genuanceerde zinnen waarin "Den Haag" een stad is en niet een meneer Haag. OpenAI plaatst zichzelf nu midden in dat gat. In hun aankondiging staat het droog: "This release is part of our broader effort to support a more resilient software ecosystem by providing developers with practical infrastructure for building with AI safely."
Vertaald: ze hebben er belang bij dat ontwikkelaars ChatGPT en de OpenAI-API blijven gebruiken zonder dat hun juridische afdeling op de rem gaat staan. Een gratis, lokaal draaiende filter is een vorm van inkoop-aanmoediging. Maar voor jou als gebruiker maakt die motivatie weinig uit. De tool werkt, hij is open, en hij hoort niet bij een abonnement dat je morgen kan verliezen.
Werkt hij ook op Nederlands?
Hier wordt het interessant. De model-kaart van OpenAI is opvallend kort over taaldekking: "Primarily English; selected multilingual robustness evaluation reported." Dus: vooral Engels, met enige steekproef in andere talen. Spaans en Frans worden in voorbeelden genoemd, Hindi en Chinees ook. Nederlands? Wordt niet expliciet vermeld.
Dat is het soort halfslachtige multilingualiteit waar Nederlandse ontwikkelaars al jaren tegenaan lopen. Je krijgt een model dat formeel "meertalig" heet, maar als je hem op een NL-zin loslaat zie je dat hij struikelt over typisch Nederlandse aanduidingen. Een Engelstalig PII-model herkent "Jan Jansen" als persoon prima, maar voor "ds. J.G. ter Schegget" of "mevrouw Van der Meer-Brouwer" wordt het al ingewikkelder. Adressen met huisnummer-toevoegingen zoals "Weteringstraat 45H" krijgen Engelse modellen vaak ook half mee, half niet. En een BSN heeft helemaal niets gemeen met een Amerikaans social security number qua patroon.
Dit is precies waarom een NL-test geen luxe is. Voor een mkb-bedrijf in Twente of Limburg met klantdata in keurig Nederlands is "primarily English" niet genoeg. Je hebt een filter nodig die ook "p/a", "t.a.v.", "huisnummer 12-bis" en "06-nummer" begrijpt.
Edwin Rijgersberg gooide er meteen een NL-versie op
Binnen dagen na de OpenAI-release verscheen er op Hugging Face een Privacy Filter NL-space van Edwin Rijgersberg. Voor wie zijn naam niet kent: Rijgersberg bouwde in 2024 als hobbyproject GEITje, het eerste grote open Nederlandse taalmodel. Mistral 7B, doorgetraind op tien miljard NL-tokens uit het Dutch Gigacorpus en MADLAD-400. Open source, Apache 2.0, en jarenlang het ankerpunt voor iedereen die een eigen NL-LLM wilde finetunen zonder afhankelijk te zijn van OpenAI of Google.
Dat hij nu binnen een week na de Privacy Filter-launch zelf een NL-demo online zet zegt twee dingen. Eén: de tool is interessant genoeg om er moeite voor te doen. Twee: er is een actieve NL-AI-community die dit soort gaten vrijwillig dichtloopt, terwijl Den Haag nog ruzie maakt over wie er nou precies toezicht moet houden op de AI Act.
De space draait op Hugging Face's gratis ZeroGPU-tier. Je plakt een Nederlandse tekst in het invoerveld, en je ziet welke fragmenten als persoonsgegevens worden gemarkeerd. Voor een mkb'er die wil weten of dit voor zijn klantenservice-archief werkt is dat een test van vijf minuten in de browser, zonder iets te installeren. Voor wie hem productie-klaar wil maken is de demo een vertrekpunt: zie wat er werkt, zie waar hij struikelt, en finetune zo nodig op je eigen domein.
Wat het kost en waar je 'm pakt
Dit is het deel waar het filter zich onderscheidt. Geen API-tarief, geen rate limit, geen "starting at €X per maand". De gewichten staan op Hugging Face onder openai/privacy-filter, en je mag ze commercieel gebruiken. Voor een NL-bureau dat al een eigen serverkast heeft is dat aantrekkelijk, en het past in een bredere trend dat open-weight modellen die lokaal draaien steeds vaker volstaan voor specifieke taken.
De échte rekensom voor een NL-mkb'er is anders dan "wat kost dit ding". Hij is: wat kost het me als ik het niet doe? Een datalek met 500 klantnamen die per ongeluk in een ChatGPT-prompt zijn beland is bij de Autoriteit Persoonsgegevens een meldplicht-incident. De boetes onder de AVG lopen tot 4 procent van de wereldwijde jaaromzet, en bij de AI Act komen daar voor specifieke high-risk-toepassingen nog eens schalen overheen. Een gratis filter die dat risico aan de poort weghaalt is geen kostenpost. Hij is een verzekering die niets kost.
Wat de filter niet is
Hier moet je wel oppassen. OpenAI is in zijn model-kaart opvallend duidelijk over wat dit ding niet is. "Tool is a redaction aid, not anonymization or compliance guarantee." Vrij vertaald: het is een hulp, geen garantie. Een paar specifieke valkuilen die ze zelf noemen:
- Ongebruikelijke namen of regionale conventies kunnen worden gemist. "Tjalling Hiddinga" valt makkelijker buiten de boot dan "Jan Jansen".
- In korte teksten over-redacteert hij makkelijker. Een mailtje van twee regels krijgt soms meer maskering dan nodig is.
- Voor medische, juridische, financiële en HR-workflows is menselijke review en domeinspecifieke evaluatie nog steeds nodig.
- Niet-Latijnse scripts, mixed-format teksten en hele lange documenten geven kwaliteitsverlies.
Dit zijn geen randvoorwaarden die je kunt negeren. Een NL-zorginstelling die patiëntgegevens door dit filter haalt en denkt "klaar, AVG-proof" maakt een fout die later duur uitvalt. Het filter is een eerste linie. Een DPIA blijft nodig, en voor echt gevoelige domeinen blijft een menselijke check de tweede linie. De algemene regels rondom persoonsgegevens en AI blijven onverkort gelden, alleen heb je nu wel een tool die het 96 procent van het werk uit handen neemt.
Voor wie dit echt iets oplost
Drie typen organisaties hebben hier maandag iets aan. De eerste: het mkb dat een eigen wrapper rond ChatGPT of Claude bouwt voor zijn medewerkers. Een online retailer met klantenservice die mailtjes door een AI laat samenvatten. Een advocatenkantoor dat zaakdossiers door Claude laat analyseren. Een marketingbureau dat klantbriefings door een LLM jaagt. In al die gevallen is een PII-filter aan de poort het verschil tussen "we mogen dit niet uitrollen van onze DPO" en "we mogen dit van onze DPO als jullie het zo bouwen".
De tweede: bedrijven met een eigen AI-platform of agent-laag. Wie meerdere agents tegelijk aan een project laat werken raakt in de problemen als die agents elkaar gevoelige data doorgeven. Een filter die op de bus tussen agents zit voorkomt dat een klantnaam die in stap 1 binnenkomt in stap 7 in een log-bestand belandt. Het is operationele hygiëne, en die was tot nu toe iets wat je zelf moest knutselen.
De derde: de overheid. Het Rijk verwerkt voor zijn AI-experimenten enorme hoeveelheden burgergegevens, en de uitvoeringswet AI-verordening die nu in consultatie ligt vraagt expliciet om concrete privacy-by-design-maatregelen. Een tool die gratis op een rijksoverheids-server kan draaien zonder Amerikaans cloudcontract is voor de digitaal-bestuurlijke kant van de Bezuidenhoutseweg geen detail.
Wat de komende weken gaat gebeuren
De vorm waarin dit filter de breedte ingaat staat nog niet vast. Voor de hand ligt dat MCP-servers van Anthropic en plug-ins van OpenAI er een wrapper omheen krijgen. Een team-skill in Claude Code die deze filter op je input draait voordat je iets verstuurt is in een middag te bouwen. NL-IT-leveranciers zoals Exact, AFAS of Bouwens & van Amerongen zouden hem in hun klant-portalen kunnen wegmoffelen zonder dat de eindgebruiker er iets van merkt.
De vraag voor jouw bedrijf is dus niet meer of een PII-filter haalbaar is. Hij was er. Hij is gratis. Een Nederlander heeft hem op NL gezet. De vraag is of je hem komende maand in je workflow inbouwt, of dat je wacht tot je DPO 'm voor je instelt.