GPT-Bidi-1: OpenAI's nieuwe stem voor ChatGPT uitgelegd

De stem van ChatGPT loopt al een jaar achter op de rest. Je laat het assistentje moeiteloos schrijven op het niveau van GPT-5.5, maar zodra je gaat praten zakt het terug naar een oudere, houterige audiomotor. Daar lijkt OpenAI nu iets aan te doen. In de app dook een nieuw model op met de codenaam GPT-Bidi-1, gebouwd om te luisteren en te praten op hetzelfde moment. Als het waarmaakt wat de naam belooft, is dit de upgrade waarmee AI aan de telefoon eindelijk volwassen wordt. En dat raakt jouw klantenservice harder dan de zoveelste chatbot-update.

Wat is er precies opgedoken?

In de ChatGPT-app, op zowel web als mobiel, is een nieuw spraakmodel gesignaleerd met de naam gpt-bidi-1, samen met aankondigingsteksten als "the next generation of Voice" en de belofte van een "major leap in intelligence". De vondst werd op 16 juni gedeeld door de X-gebruikers @M1Astra en @chetaslua en uitgewerkt door techsite TestingCatalog.

OpenAI zelf heeft niets bevestigd. De codenaam kan voor de lancering nog veranderen, en wanneer de uitrol begint is onduidelijk. Even de verwachtingen temperen dus: dit is een lek, geen launch. Maar het feit dat de model-aanduiding al in de live-app rondzwerft, op meerdere platformen tegelijk, wijst erop dat een uitrol naar gebruikers dichtbij is. Bedrijven laten zulke labels zelden per ongeluk in hun productie-app staan.

Wat betekent bidirectioneel eigenlijk?

Bidirectioneel betekent dat het model tegelijk kan luisteren en praten, in plaats van netjes om de beurt. De huidige generatie stem-AI werkt in beurten: jij praat, dan zij, dan jij weer.

Denk aan het verschil tussen een portofoon en een echt telefoongesprek. Bij een portofoon zegt iedereen om de beurt "over". Bij een telefoongesprek praat je soms door elkaar heen, val je elkaar in de rede en mompel je "ja" of "mm-hm" terwijl de ander nog bezig is. Dat laatste, dat menselijke meeluisteren, is precies wat een AI in beurtmodus niet aankan. Zeg "mm-hm" tegen de huidige stemmodus en hij denkt vaak dat je het woord overneemt, en valt stil.

Technisch komt het erop neer dat het model twee geluidsstromen tegelijk verwerkt, die van jou en die van zichzelf, zonder strikt te wachten op wiens beurt het is. Daardoor kan het halverwege een zin van richting veranderen als jij iets nieuws zegt. Snelheid is daarbij alles: zit er meer dan een fractie van een seconde tussen, dan voelt het gesprek meteen kunstmatig.

De techniek erachter is niet nieuw. Het Franse AI-lab Kyutai liet met het model Moshi al zien dat het kan: het eerste echte full-duplex spraakmodel, met een vertraging van ongeveer 200 milliseconden, zo'n beetje de snelheid van een normaal gesprek. In hun onderzoekspaper beschrijven de makers het kort en krachtig:

“Moshi kan altijd spreken en luisteren, en allebei tegelijk als dat nodig is.”
Kyutai, Moshi-onderzoek (2024)

GPT-Bidi-1 lijkt diezelfde aanpak naar het grootste publiek te brengen dat er is: de honderden miljoenen mensen die ChatGPT al gebruiken.

Wat kan de stem nu al, en wat nog niet?

De huidige Advanced Voice Mode is al een spraak-naar-spraakmodel: je kunt het onderbreken, het antwoordt in bijna telefoonsnelheid en het hoort toon en emotie. Voor veel mensen voelt dat al verrassend natuurlijk.

Maar onder de motorkap werkt het nog in beurten. Het wacht tot jij klaar bent, en elke tussenwerping leest het als een interruptie. Volgens de gelekte teksten voegt GPT-Bidi-1 daar drie intelligentieniveaus aan toe, High, Medium en Instant, net als aan de tekstkant. Zo ruil je per taak snelheid tegen diepgang: even snel een openingstijd opvragen kan op Instant, een ingewikkelde uitleg zet je op High. Voor een servicedesk is dat handig, want de meeste vragen zijn simpel en een enkele is dat niet.

Het kost je niets extra om dit straks te proberen. Stemfuncties zitten in de gratis ChatGPT en in ChatGPT Plus, dat in Nederland 22 euro per maand inclusief btw is. Wil je weten hoe groot dit publiek is, kijk dan eens naar onze ChatGPT-statistieken.

De tekst racete vooruit, de stem bleef achter

De tekstkant van ChatGPT draait inmiddels op GPT-5.5, terwijl de stem bleef hangen op een oudere audiostack. Dat gat voel je: in een chat krijg je doordachte antwoorden, hardop klinkt het assistentje soms een stuk simpeler.

Spraak is gewoon moeilijker dan tekst. Alles moet in real time gebeuren, met een vertraging van milliseconden, anders valt het gesprek dood. Een tekstmodel mag een seconde nadenken, een stem niet. Overigens is OpenAI hiermee niet de eerste. Google bouwde bidirectioneel streamen al in Gemini Live, en ook Apple herbouwt Siri met AI van Google, al moet de EU op die functies nog wachten. De stemstrijd is in volle gang, en hij gaat hard.

Wat verandert dit voor AI aan de telefoon?

Dit is de upgrade die AI-telefonie van gimmick naar bruikbaar tilt. Een AI die bevriest bij elk "ja, en?" klinkt als een keuzemenu uit 2010. Een AI die gewoon doorpraat terwijl jij tussendoor iets zegt, klinkt als een collega.

Dat is precies waar het in de klantenservice op vastloopt. Mensen onderbreken, twijfelen hardop en praten door de bandtekst heen. Tot nu toe maakte dat AI aan de lijn onhandig. Full-duplex haalt die rem eraf, en de cijfers laten zien waarom dat de moeite waard is.

AI handelt nu al ongeveer een kwart van de Nederlandse klantenservice-cases af, en dat loopt naar verwachting op naar 41 procent in 2027, blijkt uit de AI-klantenservicedata van TheAIDaily. Een AI-interactie kost daarbij ongeveer 0,62 dollar tegenover 7,40 dollar voor een menselijke afhandeling, een besparing van zo'n 92 procent. Tegelijk staan we nog vroeg in de curve: volgens het CBS gebruikte in maart 2026 pas 13,8 procent van de Nederlandse microbedrijven AI, blijkt uit onze AI-adoptiecijfers voor Nederland.

Stel je een avondje voor bij een installatiebedrijf. De telefoon gaat, een klant vraagt of de monteur morgen nog langskomt, bedenkt zich halverwege en wil eigenlijk een nieuwe afspraak. Een keuzemenu raakt hier de weg kwijt en een chatbot in beurtmodus laat de klant zijn vraag drie keer herhalen. Een full-duplex stem volgt de bocht, bevestigt tussendoor met een "ja, ik kijk even" en boekt de afspraak om, zonder dat de klant het gevoel heeft tegen een machine te schreeuwen. Als jij een webshop of een servicedesk runt, is de telefoon vaak je duurste kanaal. Een stem die echt gesprekken kan voeren, niet alleen vragen kan afvinken, is dan geen speeltje maar een kostenpost die kantelt.

Mag je AI zomaar de telefoon laten opnemen?

Nee, je moet de beller vertellen dat hij met een AI praat. De EU AI Act verplicht sinds de transparantieregels dat mensen weten wanneer ze met een AI-systeem in gesprek zijn, en die regel gaat in op 2 augustus 2026. Voor een AI die telefoongesprekken voert, betekent dat een duidelijke melding aan het begin van het gesprek.

Dat klinkt als een drempel, maar in de praktijk is het een korte zin: "U spreekt met een digitale assistent." Belangrijker is dat hoe natuurlijker de stem klinkt, hoe scherper die meldplicht wordt. Juist een model dat niet meer van een mens te onderscheiden is, maakt die ene zin onmisbaar. Houd dat in je achterhoofd voordat je een AI-stem op je hoofdlijn zet, want een boete voor een ontbrekende melding is duurder dan het gesprek dat je ermee bespaarde.

Werkt dit ook fatsoenlijk in het Nederlands?

De huidige stemmodus spreekt al redelijk Nederlands, maar struikelt over namen, dialect en snel onderbreken. Vraag hem hardop om "de bestelling van mevrouw Van der Heijden" en je merkt waar de grens ligt.

Meer redeneerkracht en echt full-duplex zouden dat moeten verbeteren, maar tot het model uit is, is dat een belofte en geen feit. Test het straks dus eerst zelf op je eigen, echte klantvragen voordat je het op een live lijn zet. Een demo in het Engels zegt weinig over hoe het je Nederlandse klant te woord staat, en je klanten merken het verschil meteen. Let vooral op hoe het model omgaat met een klant die er tussendoor iets uitflapt, want dat is precies de situatie waarvoor bidirectioneel is bedoeld.

Wat kun je hier deze week mee?

Concreet kun je GPT-Bidi-1 nu nog niet gebruiken, want het is niet uitgebracht. Maar je kunt je er wel op voorbereiden, zodat je klaarstaat als de toggle verschijnt.

Kijk welk telefoon- of servicekanaal je de meeste tijd kost en schrijf de drie meest gestelde vragen op.
Test de huidige Advanced Voice Mode op precies die vragen, zodat je een eerlijke nulmeting hebt voordat het nieuwe model er is.
Reken je duurste gesprekskanaal door: wat kost een telefoongesprek je nu echt aan tijd, en welk deel daarvan is herhaalwerk?
Leg vast hoe je een AI-melding aankondigt, zodat je op 2 augustus 2026 niet wordt verrast door de transparantieplicht.

Volgens de berichtgeving komt "Bidi (Latest)" als extra optie naast de bestaande stemmodus, niet in de plaats ervan. Je houdt dus zelf de regie. We houden de release bij in onze dagelijkse AI-nieuwsbrief, zodat je het hoort op de dag dat de knop bij jou opduikt.

De richting is intussen duidelijk. Net zoals ChatGPT onlangs leerde voor je af te rekenen via Visa, schuift OpenAI stap voor stap naar een assistent die hele taken overneemt. Eerst getypt, nu ook hardop.

OpenAI werkt aan een ChatGPT-stem die tegelijk praat en luistert

Wat is er precies opgedoken?

Wat betekent bidirectioneel eigenlijk?

Wat kan de stem nu al, en wat nog niet?

De tekst racete vooruit, de stem bleef achter

Wat verandert dit voor AI aan de telefoon?

Mag je AI zomaar de telefoon laten opnemen?

Werkt dit ook fatsoenlijk in het Nederlands?

Wat kun je hier deze week mee?

Misschien vind je dit ook leuk

Cursor krijgt zijgesprekken: zo stel je een zijvraag terwijl je agent doorwerkt

Meta zet een gratis AI-agent in je WhatsApp die klanten 24/7 helpt

Chinees open model verslaat Claude Opus 4.8: zo probeer je Kimi K3 gratis uit