YouTube-makers klagen Apple aan om AI-trainingsdata

Begin april diende zich een rechtszaak aan die, als je er de details van leest, eerlijk gezegd best schokkend is. Een groep YouTube-creators, waaronder Ted Entertainment (bekend van de h3h3Productions-kanalen) en golfchannels MrShortGameGolf en Golfholics, heeft een class-action aangespannen tegen Apple, OpenAI en Amazon. De aanklacht, deze bedrijven zouden miljoenen video's hebben geschraapt om AI-modellen te trainen, en ze zouden daarbij expliciet YouTube's beveiligingen hebben omzeild.

Het is een zaak die het gat blootlegt tussen wat de AI-industrie zegt over "publiek beschikbare data" en wat daar in de praktijk onder valt. En het is tegelijk een zaak die ons in Europa dwingt om scherp na te denken over wat "legitieme trainingsdata" eigenlijk betekent.

Wat er volgens de aanklacht is gebeurd

De aanklagers beweren dat Apple (en via dezelfde dataset ook OpenAI en Amazon) de zogenaamde Panda-70M dataset gebruikte. Die is oorspronkelijk samengesteld door Snap Inc. en bevat clips uit ongeveer 3,1 miljoen YouTube-video's, opgebroken in zo'n 70,8 miljoen fragmenten. Geen klein scriptje dus, maar een industrie-schaal operatie.

Wat de zaak bijzonder maakt, is hoe volgens de aanklagers die data werd verkregen. De complaint beschrijft hoe Apple zou hebben gewerkt met yt-dlp, een open-source downloadtool. Om YouTube's detectie te omzeilen zou Apple IP-adressen hebben geroteerd via virtuele machines, verlopen sessie-credentials programmatisch hebben vernieuwd, en verzoeken verdeeld hebben over meerdere machines om CAPTCHA-triggers te ontwijken. Ook zouden ze YouTube's origin verification tokens hebben nagebootst.

Dat is geen grijs gebied meer. Als deze beweringen kloppen, is dit een bewuste en systematische omzeiling van technische beschermingsmaatregelen. Dat kan onder Amerikaans recht onder de DMCA vallen, en onder Europees recht onder verschillende bepalingen van de Databankenrichtlijn en de DSA.

Waarom dit meer is dan "weer een rechtszaak"

Sinds het begin van de grote AI-hausse is het aantal Amerikaanse copyright-zaken tegen AI-training de 100 gepasseerd. Veel daarvan gaan over auteurs, muzieklabels of uitgevers. Wat deze zaak anders maakt, is drieledig. Eén, de aanklagers zijn individuele creators, geen mediaconglomeraten. Dat maakt het een politiek zwaarder verhaal. Twee, het gaat niet om tekst maar om video, de volgende en lucratievere frontier. En drie, de beschreven modus operandi is agressiever dan bij eerdere zaken.

Precedent uit lopende zaken is gemengd. In de Bartz v. Anthropic-zaak oordeelde de rechter eerder dit jaar dat AI-training op gekochte boeken onder fair use valt, maar dat het opslaan van gepiraatte kopieën dat niet doet. Die zaak schikte uiteindelijk voor 1,5 miljard dollar. Als het beginsel "fair use tot het stelen begint" standhoudt in hogere rechtbanken, wordt de Apple-zaak een belangrijke test, want het omzeilen van technische beveiligingen tegen scraping lijkt qua juridische categorie behoorlijk op pirateren.

Wat dit betekent onder Europees recht

In Europa is de situatie juridisch strenger dan in de VS. De Text and Data Mining-uitzondering in de Copyright Directive staat AI-training toe op openbaar toegankelijke werken, mits rechthebbenden niet expliciet hebben opt-out gekozen. YouTube's Terms of Service verbieden scraping expliciet, dat is in juridische zin een reservering onder artikel 4(3) van die richtlijn.

Dat betekent, ongeacht de uitkomst in de VS, dat wie modellen traint op YouTube-data zonder toestemming in Europa problemen krijgt. Dat is bovendien gekoppeld aan de AI Act-deadline, die per 2 augustus 2026 van kracht wordt en bepaalt dat aanbieders van general-purpose AI-modellen transparant moeten zijn over hun trainingsdata. Alle grote modellen die na die datum worden uitgerold, moeten kunnen laten zien waar hun data vandaan komt.

Wie vandaag al werkt met generatieve AI in een Nederlandse context, moet dus twee dingen checken, welke modellen je gebruikt en welke claim die leveranciers maken over hun trainingsdata. Dat hangt ook samen met persoonsgegevens in AI-modellen, want YouTube-video's bevatten vaak gezichten en stemmen van herkenbare personen.

Wat creators en makers hier uit leren

Als jij content produceert (video, tekst, audio, design) is dit een wake-up call. Je bestanden op het internet zijn waarschijnlijk al in trainingsdata beland. Dat geldt niet alleen voor video's op YouTube, maar ook voor artikelen op je blog, foto's op sociale media, en open-source code op GitHub. Of dat legaal was, wordt in de komende maanden en jaren voor een groot deel bepaald door zaken als deze.

Wat je kunt doen, praktisch:

Check je platformvoorwaarden. YouTube's ToS verbiedt scraping, dat is je juridische reservering. Voor eigen sites, zet een noai-meta tag en een Robots.txt-regel die AI-scrapers uitsluit.
Registreer werken waar dat kan. In Nederland kan dat via Buma/Stemra voor muziek, bij Pictoright voor beeld. Voor videowerk via een deposito-dienst of een notariële vastlegging.
Volg collectieve acties. In de VS lopen klassenacties zoals deze; in Europa ontstaan vergelijkbare initiatieven. Voor individuele creators is een eigen rechtszaak zelden haalbaar, maar deel uitmaken van een groepsactie wel.
Gebruik AI niet als excuus om zelf te scrapen. Het is verleidelijk om te denken dat als zij het doen, jij het ook mag. Dat is onjuist en juridisch een slecht idee.

Hoe dit het AI-landschap verschuift

Waar ik zelf het meest benieuwd naar ben, is welke modellen straks op de markt overblijven als rechtbanken dit soort zaken systematisch in het voordeel van rechthebbenden gaan beslissen. Modellen die getraind zijn op verdachte datasets, worden dan juridisch besmet. De hergebruikwaarde ervan voor bedrijven daalt snel, want niemand wil later geconfronteerd worden met compensatievorderingen of gebruiksverboden.

Anthropic heeft daar publiekelijk al op geanticipeerd. In hun publieke statements benadrukken ze actief dat hun trainingsprotocol schone data en vangrails als uitgangspunt heeft. OpenAI's juridische positie is defensiever, en nu Apple in hetzelfde schuitje belandt, wordt het interessant om te zien of de "we scrape alles wat openbaar is" school van AI-bedrijven houdbaar blijft.

Wat je hier maandag uit meeneemt

De komende twaalf maanden gaan bepalend zijn voor hoe de AI-industrie met intellectueel eigendom omgaat. Deze Apple-zaak kan precedent scheppen dat ver buiten YouTube reikt. Voor Nederlandse bedrijven die AI inzetten, is het moment gekomen om van leverancier te vragen welke datastandaarden zij hanteren, en of hun modellen "schoon" zijn getraind. Niet in marketingzin, maar in juridische zin.

Voor dieper lezen, 9to5Mac's eerste verslag van de rechtszaak heeft de meeste technische details, en Norton Rose Fulbright's AI-litigation overzicht geeft een goede bredere context van waar we staan.

YouTube-makers slepen Apple voor de rechter om AI-training

Wat er volgens de aanklacht is gebeurd

Waarom dit meer is dan "weer een rechtszaak"

Wat dit betekent onder Europees recht

Wat creators en makers hier uit leren

Hoe dit het AI-landschap verschuift

Wat je hier maandag uit meeneemt

Misschien vind je dit ook leuk

EU-icoon voor deepfakes komt eraan, dit moet je weten

Nederlandse universiteiten struikelen over hun eigen AI-beleid

Persoonsgegevens en AI, wat je wel en niet mag