Large Language Models

Gemini Flash TTS spreekt Nederlands voor drie cent per minuut

· 5 min leestijd

Google heeft op 15 april Gemini 3.1 Flash TTS uitgebracht, een spraakmodel dat Nederlands volwaardig ondersteunt, in dertig stemmen beschikbaar is en te sturen valt met meer dan tweehonderd audiotags. Het prijskaartje trekt de aandacht: ongeveer drie cent per minuut gegenereerde audio bij het standaardtarief, een fractie van wat ElevenLabs voor vergelijkbare kwaliteit rekent. Voor Nederlandse contact-centers, e-learning-producenten en bureaus die ingesproken webflows bouwen kantelt daarmee de rekensom onder welke omstandigheden tekst-naar-spraak zinvol is. Tot voor kort liep een voice-bot snel uit de hand op de TTS-factuur. Dat argument is nu grotendeels weg.

Dertig stemmen, audiotags en ook gewoon Nederlands

Het model, `gemini-3.1-flash-tts-preview` in de API, is Googles antwoord op de controleerbaarheid waar ElevenLabs zijn positie aan dankt. Je stuurt de uitvoer met inline tags als `[cheerful]`, `[whispering]` of `[pause]`, naast niet-verbale aanwijzingen voor lachen, zuchten en klemtonen. In Google AI Studio zitten daar bovenop Director's Notes en Scene Direction, waarmee je een volledige spreekcontext in één prompt vastlegt. De uitvoer is meertalig met meer dan zeventig talen, en Nederlands is expliciet opgenomen in de speech-generation documentatie onder de BCP-47-code `nl`.

Op het onafhankelijke Artificial Analysis TTS-leaderboard haalt Gemini 3.1 Flash TTS een Elo van 1.211, wat het op dit moment in de bovenste laag zet van de kwaliteit-prijsverhouding. De dertig stemmen dragen allemaal astronomische namen, van Zephyr en Puck tot Kore en Algenib. Wie Gemini 3.1 Pro al kent herkent het patroon: dezelfde architectuur, andere modaliteit. Multi-speaker-dialoog is native, dus je genereert twee of meer sprekers in één pass zonder losse audiobestanden te hoeven samenvoegen.

Waarom de prijs de markt verstoort

De standaard-tarieven zijn $1 per miljoen tekst-input-tokens en $20 per miljoen audio-output-tokens. Google rekent 25 audio-tokens per seconde audio, wat neerkomt op $0,0008 per seconde of ongeveer $0,048 per minuut gegenereerde spraak. Omgerekend naar euro plus 21 procent btw zit je op circa 0,04 tot 0,05 cent per seconde en drie tot vier eurocent per minuut. De batch-API halveert die tarieven nog eens, tot $0,50 per miljoen tekst-tokens en $10 per miljoen audio-tokens. Tijdens de preview is alles gratis via Google AI Studio.

Het contrast met de gevestigde partijen is groot. ElevenLabs rekent voor Flash v2.5 rond $0,05 per 1.000 karakters en voor Multilingual v3 ongeveer $0,18 per 1.000 karakters. Een klantenservice-bot die maandelijks een paar honderd minuten audio produceert komt met ElevenLabs al snel tegen de honderd euro per maand aan, terwijl Gemini 3.1 Flash TTS op een paar tientjes blijft bij hetzelfde volume. Schaalt dat door naar tienduizenden minuten per maand, dan groeit het verschil in absolute euro's mee. Dat zet een streep door een argument dat veel projecten de laatste twee jaar op de lange baan schoof.

Wat dit betekent voor Nederlandse voice-workflows

In consultancy-gesprekken over AI-adoptie komt TTS de laatste tijd terug in drie hoeken. Contact-centers willen hun IVR-menu's vervangen door een voice-bot die echt klantvragen kan beantwoorden. E-learning-teams willen trainingsvideo's automatisch ingesproken krijgen in het Nederlands, met pauzes en klemtonen op de juiste plek. En webteams herinneren zich de WCAG-verplichting voor read-aloud-functies die ze ooit afschoten omdat ReadSpeaker-licenties te duur bleken. In alle drie de gevallen was prijs de belangrijkste blokkade, niet de kwaliteit.

Die blokkade valt nu grotendeels weg. Een voice-bot die eerder 400 euro per maand aan TTS kostte zit nu op 25 tot 50 euro, exclusief het onderliggende taalmodel dat de antwoorden genereert. Voor bureaus die voor klanten bouwen verschuift daarmee de businesscase. Een project dat anders aan vendor ReadSpeaker of Acapela hing kan nu met Gemini en een Claude Sonnet 4.6 of GPT-5.4 in de backend draaien. Dat is technisch inmiddels een kwestie van een paar honderd regels code, wat je kostprijs per minuut audio in klantprojecten transparant maakt.

De haken en ogen

Er zitten wel grenzen aan wat je vandaag productie-klaar zet. Google waarschuwt zelf dat de kwaliteit gaat driften zodra een fragment langer is dan "enkele minuten". De aanbeveling is om scripts te segmenteren, bijvoorbeeld per alinea, en de audio-bestanden achteraf aan elkaar te plakken. Het context-venster is 32.000 tokens en er is geen streaming, dus voor echt real-time telefonie wacht je op Gemini 3.1 Flash Live, dat Google deze week ook heeft aangekondigd.

Het model zit nog in preview-status, dus een harde SLA ontbreekt. Af en toe falen generaties zonder duidelijke reden en heb je retry-logic nodig. Custom voice-cloning, het kenmerkende ElevenLabs-trucje waarmee je een specifieke stem nabouwt, is er niet. Je kiest uit de dertig ingebouwde stemmen en stuurt dan met audio-tags. Tot slot staat op alle uitvoer een SynthID-watermark, dat bedoeld is om AI-audio detecteerbaar te houden. In de praktijk merkt een eindluisteraar er niets van, maar hou er rekening mee bij broadcast-productie waar opgenomen stemmen soms door forensische audio-analyse heen moeten.

Zo begin je deze week

De snelste weg is Google AI Studio. Inloggen met je Google-account, in de model-dropdown "Gemini 3.1 Flash TTS Preview" kiezen en een Nederlandstalig fragment plakken. Voeg tags toe als `[cheerful]` of `[pause long]` en exporteer de audio direct als MP3 of WAV. Voor API-gebruik is de model-slug `gemini-3.1-flash-tts-preview`; de pricing-overzicht staat op ai.google.dev/gemini-api/docs/pricing. Enterprises die al op Vertex AI zitten vinden het model in dezelfde regio's als Gemini 3.1 Pro. Workspace-klanten met Google Vids krijgen de functie zonder API-contact erbij als ingebouwde voice-over-optie.

Voor wie de directe vergelijking wil maken heeft Simon Willison een uitgebreide test met audio-samples gepubliceerd, inclusief eigen observaties over waar de audio-tags wel en niet werken zoals je zou verwachten. Wie zelf een voice-bot aan het ontwerpen is kan dat stuk als vertrekpunt gebruiken voor een bestek-achtig testplan.

Waar dit naartoe gaat

De scherpe prijs is geen eenmalig gebaar. Google zet vol in op voice als input- en output-modaliteit, met Gemini 3.1 Flash Live voor streaming-scenario's en Gemini Robotics-ER 1.6 voor embodied toepassingen. Voor Nederlandse bureaus die AI-projecten verkopen betekent dat hun offertes komende maanden een regel TTS-kosten kunnen bevatten die niet langer een afschrikker is. Een interessante vervolgvraag is of Nederlandse contact-center-leveranciers als Content Guru of CM.com Gemini Flash TTS snel gaan integreren, of dat ze bij hun bestaande ReadSpeaker-partnerships blijven. Voor de partij die boekt, maakt dat een meetbaar verschil op de maandfactuur.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch privé, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.

Gemaakt door een mens, met AI als assistent bij research en redactie. Meer over onze werkwijze in de AI-disclosure en het redactiestatuut.