Gemma 4 van Google verslaat modellen 20 keer groter

Google DeepMind bracht op 2 april een nieuwe Gemma uit en de cijfers zijn opvallend. Het grootste model uit de familie heeft 31 miljard parameters, draait nog op een krachtige laptop en presteert beter dan gesloten modellen die twintig keer zo groot zijn. Dat is uitzonderlijk voor een model dat iedereen gratis mag downloaden.

De release bestaat uit vier modellen, allemaal onder de Apache 2.0-licentie. Die staat commercieel gebruik toe, evenals aanpassingen en doorverkoop, zonder enige restrictie. Google hield tot nu toe vrijwel altijd vast aan een eigen licentie met beperkingen. Dat ze daar nu vanaf stappen, zegt veel.

Vier varianten, van telefoon tot datacenter

De vier varianten lopen van klein naar fors. De E2B telt ongeveer 2,3 miljard parameters en is bedoeld voor smartphones en IoT-apparaten. De E4B is iets groter en draait op een moderne laptop. Daarboven zit een Mixture-of-Experts-model van 26 miljard parameters waarvan er bij elke berekening slechts vier actief zijn, wat het model snel maakt zonder veel rekenkracht te kosten. De grootste variant is de 31B, een traditioneel model waarbij alle parameters meedoen, en je hebt er een GPU met 24 GB aan boord voor nodig.

Door deze opbouw kies je per toepassing welke schaal het meest logisch is. Voor een chatbot die offline op een telefoon draait pak je de E2B. Wil je op je werklaptop iets bouwen dat ongeveer dezelfde prestaties levert als de gratis versie van ChatGPT, dan kies je de E4B. Voor een SaaS-product met serieuze rekenkracht zet je de 31B op een eigen GPU-server.

De cijfers zijn opvallend

De 31B haalt een Elo van 1452 op LMArena, het onafhankelijke leaderboard waar gebruikers twee modellen blind vergelijken. Daarmee staat het model op plek drie van alle tekstmodellen, voor diverse betaalde modellen van OpenAI en Anthropic. Op de Artificial Analysis Intelligence Index gaat de score van 10 punten bij Gemma 3 (27B) naar 39 punten bij Gemma 4 (31B). Bijna een verviervoudiging in één generatie.

Wat dat in de praktijk betekent: een gratis model op je eigen server zit nu op het niveau van wat je tot voor kort alleen bij de GPT-4-familie zag. Wie al zag dat open source in 2025 volwassen werd, krijgt vandaag het sluitende bewijs.

Multimodaal, ook zonder internet

Gemma 4 verwerkt meer dan alleen tekst. De kleinere varianten E2B en E4B nemen ook audio en beeld als input. Je laadt een foto en vraagt wat erop staat. Je spreekt Nederlands in en krijgt een samenvatting terug. Alles lokaal: geen data die naar een Amerikaanse cloud verdwijnt, geen vertraging die afhangt van je internetverbinding.

De grote 31B doet tekst en beeld, maar geen audio. Google legt de audio-functionaliteit bewust bij de kleine modellen, want daar levert lokale verwerking het grootste voordeel op. Een tolk-app hoeft niets naar de cloud te sturen. Een bedrijfsserver met de 31B-versie leest documenten en grafieken net zo goed.

Het contextvenster is 256K tokens. Dat staat gelijk aan ongeveer zeshonderd pagina's tekst die je in één keer kunt aanleveren. Voor een open model is dat veel ruimte. Waarom zulke grote contextvensters het werken met AI fundamenteel veranderen, is een verhaal apart.

Apache 2.0 maakt dit anders dan Gemma 3

Tot en met Gemma 3 hanteerde Google een eigen licentie die open was, maar restricties bevatte. Bij Gemma 4 stappen ze daar volledig vanaf. Apache 2.0 is de meest gebruikte open-source licentie in de softwarewereld. Het verschil lijkt juridisch detail, maar in de praktijk is het flink. Een startup die met Gemma bouwt hoeft niet langer haar advocaat in te schakelen om te checken of commercieel gebruik binnen de regels valt. Ze pakt het model, traint het bij op eigen data en brengt het product naar de markt.

Voor Nederlandse bedrijven is dat precies wat ontbrak. Wie niet afhankelijk wil zijn van Amerikaanse cloudleveranciers voor AI (denk aan organisaties die onder de Nederlandse digitale overheidsregels vallen, zorginstellingen, of mkb-bedrijven met gevoelige data) kan nu een topmodel op eigen hardware draaien. Geen account, geen factuur, geen dataverkeer buiten Nederland.

Tegenover Claude en GPT

Gemma 4 evenaart de frontier-modellen niet op elk gebied. Voor het allerzwaarste werk (geavanceerd redeneren, complexe code, lange agentische taken) blijven Claude Opus 4.7 en GPT-5.1 voorop. Maar de kloof is kleiner dan ooit. En voor 90 procent van het dagelijks werk (schrijven, samenvatten, vertalen, classificeren) zit Gemma 4 op gelijk niveau. Zonder dat er een tokenrekening tegenover staat.

De grootste winnaar is uiteindelijk niet Google zelf, maar het hele open-source-ecosysteem. Hugging Face, Ollama en LM Studio ondersteunen Gemma 4 binnen een dag na release out of the box. De community komt de komende weken met fine-tunes en distillations die nog efficiëntere varianten opleveren.

Wat dit betekent voor jou

Ben je ondernemer en wil je AI inbouwen in je product? Bekijk of een zelfgehoste Gemma 4 voldoet, in plaats van een duur API-abonnement bij OpenAI. Voor veel taken is dat al het geval. Ben je developer? Installeer vanavond Ollama op je laptop en draai ollama run gemma4 om zelf te ervaren waar een open model in 2026 staat. Als kenniswerker mag je rekenen op meer Google in je organisatie, en minder ChatGPT-licenties.

De grens tussen een open-source hobbymodel en een model dat de wereld draait, is met Gemma 4 weg. En dat verschil merk je niet op een benchmark, maar op je maandelijkse cloudrekening.

Gemma 4 verslaat modellen die twintig keer zo groot zijn

Vier varianten, van telefoon tot datacenter

De cijfers zijn opvallend

Multimodaal, ook zonder internet

Apache 2.0 maakt dit anders dan Gemma 3

Tegenover Claude en GPT

Wat dit betekent voor jou

Misschien vind je dit ook leuk

AI-week 18, OpenAI mag nu ook buiten Azure leveren

AI-week 17, drie labs zetten agents in productie

OpenAI brengt GPT-5.5 uit, zes weken na zijn voorganger