Grok 3 verslaat Claude, en Musk gaf vorige week toe waarom

Vrijdagmiddag, tweede koffie, en je besluit om je AI-rekening eens kritisch te bekijken. Grok 3 staat in elke vergelijking naast Claude en GPT, scoort hoger op wiskunde, en is voor X Premium-abonnees gratis te gebruiken in de webinterface. Dat oogt als een no-brainer voor een mkb'er die nu 240 euro per maand aan ChatGPT Plus-licenties betaalt voor zijn team. Tot Elon Musk afgelopen donderdag in een Californische rechtbank vertelde hoe Grok 3 eigenlijk zo goed werd. Het antwoord was één woord. En het verandert hoe je naar die switch moet kijken.

Wat is Grok 3 eigenlijk?

Grok 3 is het taalmodel van xAI, het AI-bedrijf van Elon Musk. xAI heeft het model in februari 2025 gelanceerd op zogenaamde Colossus-infrastructuur, een datacenter in Memphis met ongeveer 200.000 GPU's. Het bedrijf claimde dat Grok 3 met tien keer meer rekenkracht is getraind dan zijn voorganger.

Wat het verschil maakt met de eerste Grok-versies, is dat 3 ook redeneer-modi heeft. Een Think-modus laat het model stap voor stap denken voor je een antwoord krijgt, vergelijkbaar met OpenAI's o3 of DeepSeek's R1. Een Big Brain-modus zet meer compute in voor lastige problemen. Beide modi kosten extra tokens en zijn niet altijd beschikbaar in de gratis-tier.

Inmiddels is Grok 3 niet meer xAI's vlaggenschip. Grok 4 is in de zomer gelanceerd, en Grok 4.1 Fast staat al weken in de Vercel-gateway en op OpenRouter. Toch googlen Nederlandse gebruikers nog vaak op "Grok 3", want dat is het model dat ze in het nieuws zagen toen het in februari verscheen, en wat ze in hun X-interface terugvinden.

Waar Grok 3 wint, en waar het tekortschiet

Op rekenwerk is Grok 3 echt goed. Op de AIME-toets, een verzameling olympiade-wiskundevragen, scoort het model 93,3 procent. Dat is hoger dan GPT-4o op het moment van release en hoger dan de Claude 3.5 Sonnet die toen de markt domineerde. Op GPQA, de benchmark voor PhD-physics, presteert Grok 3 ook bovengemiddeld. Op MMLU, de algemene kennisbenchmark, ligt het rond de 92 procent.

Maar wiskunde is niet alles. Voor codering blijft Claude de standaard. Op SWE-bench Verified haalt Claude Sonnet meer dan 70 procent en Grok komt daar niet bij in de buurt. Voor lange documenten heeft Grok 3 een context van 131.000 tokens, ruim voldoende voor de meeste cases maar minder dan Claude's 200.000 of de 1 miljoen die DeepSeek V4 nu biedt.

De praktische vertaling: als je vooral wiskundige analyses doet, is Grok 3 een sterke keuze. Voor coding, voor lange beleidsstukken, of voor agent-werk is Claude of GPT-5.5 doorgaans beter.

Wat kost het je echt in euro?

Hier breekt de gratis-mythos. Grok 3 is alleen "gratis" als je het via x.com gebruikt. Voor X Premium-abonnees (acht euro per maand) zit het inclusief, voor X Premium+ (achttien euro per maand) krijg je meer toegang en de Big Brain-modus.

Wil je het via API? Dan betaal je drie dollar per miljoen input-tokens en vijftien dollar per miljoen output-tokens, volgens de officiele xAI-documentatie. Reken het om naar euro: ongeveer 2,80 euro in en 14 euro uit. Dat is exact dezelfde tariefstructuur als Claude Sonnet 4.5. Geen prijskorting, geen no-brainer.

Voor een mkb-team van vijf mensen dat samen 200.000 tokens per dag gebruikt, kom je via API uit op rond de 85 euro per maand. Via X Premium+ zit je op 90 euro voor het hele team, vergelijkbaar prijsniveau, maar dan met X-feed-toegang en zonder API-flexibiliteit. Bekijk ons AI-prijzenoverzicht van week 16 voor de volledige vergelijking met andere modellen.

Nieuwe API-gebruikers krijgen 25 dollar aan gratis credits bij signup, en xAI biedt 150 dollar per maand extra via een data-sharing-programma. Daarover komen we straks terug, want die clausule is bij klantdata een dealbreaker.

Wacht even, hoe goed is Grok 3 eigenlijk in het Nederlands?

Ik heb drie korte tests gedraaid. Een marketing-tekst herschrijven van zakelijk naar speels, een belastingvraag over de KOR-regeling beantwoorden, en een stuk juridisch jargon vereenvoudigen voor een klant. De marketing-tekst kwam er bruikbaar uit, met af en toe een Engelse calque (klantcentricaal in plaats van klantgericht). De KOR-vraag werd correct beantwoord, maar zonder de nuance dat de regeling per 2025 is herzien. Het juridische stuk werd toegankelijk, maar Grok zette er één keer een feitelijke fout in over een wettelijke termijn.

Niet slecht, dus. Maar Claude en GPT-5.5 maken op hetzelfde rijtje minder Nederlandse fouten. En voor klantgerichte tekst raad ik nog altijd Claude aan boven Grok 3, want toon en register zitten daar dichter bij wat een Nederlandse mkb-klant verwacht.

Wat Musk vorige week onder ede zei

Donderdag 30 april. Een federale rechtbank in Californië. Elon Musk zit in de getuigenbank in zijn eigen rechtszaak tegen OpenAI, Sam Altman en Greg Brockman. De zaak gaat over de vraag of OpenAI zijn oorspronkelijke non-profit-missie heeft verlaten.

De aanklager stelt één vraag die de zaak een onverwachte wending geeft. Heeft xAI distillatie-technieken gebruikt op OpenAI's modellen om Grok te trainen? Musk antwoordt eerst dat dit "een algemene praktijk in de AI-industrie" is. Op de vervolgvraag of dat ja betekent, zegt hij één woord, "Partly," volgens de verslaglegging van TechCrunch.

Distillatie, voor wie niet thuis is in AI-jargon, dit is alsof iemand jouw cursusmateriaal kopieert om sneller een eigen cursus te kunnen geven. Je laat een eigen model leren door de antwoorden van een ander, beter model na te bootsen. Het is technisch slim. Je krijgt de capaciteiten van een groot model zonder de bijbehorende trainingskosten. En juridisch is het een grijs gebied. Het is niet uitdrukkelijk illegaal, maar het schendt vrijwel zeker de gebruiksvoorwaarden van OpenAI, Anthropic, Mistral en, ironisch genoeg, xAI zelf.

Het is ook niet de eerste beschuldiging dit jaar. In februari beschuldigde OpenAI het Chinese DeepSeek van precies dezelfde tactiek, en het Witte Huis kwam met regelgevende dreigementen. MIT Technology Review beschrijft de eerste week van het proces in detail, inclusief de aanwijzingen voor een settlement-push die in de laatste rechtsdag opdook.

Waarom dit jouw inzet raakt als je nu een keuze maakt

Voor een Nederlandse ondernemer of CTO die overweegt om Grok 3 in productie te nemen, zijn er drie concrete risico's bovenop de gewone tool-afweging.

Het eerste is juridische onzekerheid. Musk v. Altman loopt nog. Wat de uitkomst ook wordt, of het nu een schikking, een vonnis of een intrekking is, er hangt onzekerheid boven de status van Grok-modellen die op gedistilleerde OpenAI-data zijn getraind. Voor een prototype is dat acceptabel. Voor een productie-systeem dat een afhankelijkheid wordt voor je klantflows, is het een risico dat je niet onderschat.

Het tweede is de AI Act-koppeling. De Europese verordening eist transparantie over training-data voor general-purpose AI-modellen. xAI publiceert weinig over zijn datapijplijn. Een model met een wankele paper trail wordt voor compliance-officers een hoofdpijndossier zodra de GPAI-verplichtingen volgend jaar volledig in werking treden. Lees ook hoe Nederland zijn AI Act-uitvoeringswet nog steeds aan het missen is.

Het derde is data-rechten. Het 150-dollar-per-maand-data-sharing-programma waarmee xAI extra credits aanbiedt, betekent dat xAI je inputs en outputs mag gebruiken voor verdere training. Voor klantdata of medische data is dat onverenigbaar met de AVG. Lees de gebruiksvoorwaarden zorgvuldig, want er staan opt-out-clauses in, maar de default is vaak opt-in.

Wanneer Grok 3 wel logisch is, en wanneer niet

Tijd om concreet te worden. Hier is wanneer ik Grok 3 zou aanraden, en wanneer niet.

Wel: voor real-time research op X-content, omdat het model unieke toegang heeft tot de X-feed. Voor wiskundige analyses op openbare data. Voor experimentele prototypes waar je sowieso geen klantdata gebruikt. En voor wie X Premium al heeft, want dan is het effectief gratis en aanvullend op je bestaande Claude- of ChatGPT-abonnement.

Niet: voor klantdata of medische dossiers, vanwege de combinatie AI Act, AVG en de data-sharing-clausules. Voor productie-systemen waar je leunt op één model, omdat de juridische onzekerheid en het feit dat xAI zelf al naar Grok 4 is verschoven een vendor-risico oplevert. Voor coding-werk, omdat Claude Opus 4.7 en goedkopere alternatieven zoals Xiaomi's MiMo daarop simpelweg beter scoren.

Het bredere punt: gratis tools zijn nooit echt gratis. Bij Grok 3 betaal je niet met euro's, maar met juridische onzekerheid en met data-rechten. Voor je het in productie zet, lees de voorwaarden, kijk naar de rechtszaak-uitkomst, en vergelijk de praktijkprestaties op je eigen taken. En als je één keer per dag wilt weten wat de Nederlandse markt met deze keuzes doet: schrijf je in voor onze AI-nieuwsbrief.

Grok 3 leek de gratis Claude-killer, totdat Musk onder ede sprak

Wat is Grok 3 eigenlijk?

Waar Grok 3 wint, en waar het tekortschiet

Wat kost het je echt in euro?

Wacht even, hoe goed is Grok 3 eigenlijk in het Nederlands?

Wat Musk vorige week onder ede zei

Waarom dit jouw inzet raakt als je nu een keuze maakt

Wanneer Grok 3 wel logisch is, en wanneer niet

Misschien vind je dit ook leuk

De braafste AI-agent overtreedt de EU-wet bijna de helft van de tijd

Amerikaanse overheid dwingt Claude Fable 5 en Mythos 5 offline

De AI-talentkloof kost Nederland 780 miljoen euro per jaar