Large Language Models

Google maakt video van je beschrijving, foto en geluid in een gesprek

· 8 min leestijd

Een kleianimatiefilmpje over hoe eiwitten zich vouwen, compleet met voice-over en stop-motionbeweging. Dat was de demo waarmee Google gisteren Gemini Omni presenteerde op I/O 2026. Eén zin intikken, en het model bouwt de video. Geen camera, geen montagetafel, geen After Effects. Alleen een beschrijving van wat je wilt zien. Google noemt het de stap van "tekst voorspellen" naar "de werkelijkheid simuleren." Dat is een grote belofte. Maar de eerste versie laat genoeg zien om serieus te nemen.

Wat kan Gemini Omni precies?

Omni is een multimodaal model dat tekst, afbeeldingen, audio en bestaande videofragmenten combineert tot nieuwe video. Het verschil met eerdere tools als Veo of Sora: je hoeft niet meer per stap te werken. Je voert een gesprek. "Maak een video van dit productfoto in een winkelomgeving." "Verander de achtergrond naar een strand." "Voeg een voice-over toe die het product uitlegt." Elke stap bouwt voort op de vorige, zoals je met een video-editor zou werken, maar dan in gewone taal.

Nicole Brichtova, directeur productmanagement bij DeepMind, omschrijft het zo: "Het is de volgende stap in het combineren van de intelligentie van Gemini met de renderingcapaciteiten van onze mediamodellen." Dat klinkt abstract, maar in de praktijk betekent het dat het model begrijpt wat je vraagt in plaats van alleen pixels te genereren. Het kent fysica, cultuur, perspectief.

Demo van Gemini Omni videogeneratie
Gemini Omni genereert video uit een combinatie van tekst en afbeeldingen. Bron: 9to5Google, 19 mei 2026.

Welke invoer accepteert het?

Omni accepteert vier soorten input, los of gecombineerd:

  • Tekst. Een beschrijving van de video die je wilt. Hoe specifieker, hoe beter het resultaat.
  • Foto's. Tot vijf foto's als referentie. Het model behoudt de details van je onderwerp: gezichtskenmerken, kledingkleur, achtergrond.
  • Audio. Een geluidsfragment of voice-over die het model in de video verwerkt.
  • Bestaande video. Een clip die je wilt bewerken, uitbreiden of transformeren.

De kracht zit in de combinatie. Stuur een productfoto, een audiofragment van je merkjingle en de tekst "laat het product draaien in een moderne keuken" en Omni bouwt de video. Voor een marketingteam dat nu duizenden euro's kwijt is aan productvisualisatie, is dat een serieuze verschuiving.

Hoe lang zijn de video's?

De eerste versie, Omni Flash, genereert clips van tien seconden. Dat klinkt kort, maar Google zegt dat dit een bewuste keuze is, niet een technische beperking. "We willen het in meer handen krijgen," zegt het team. Tien seconden is genoeg voor een Instagram Reel, een YouTube Short of een productdemo.

Een krachtigere versie, Omni Pro, is in ontwikkeling. Die maakt langere video's in hogere kwaliteit. Google brengt hem uit wanneer er "een merkbare stap boven Flash" is bereikt. Geen datum, geen beloftes. Wel een signaal dat er meer aankomt.

Waar kun je het nu gebruiken?

Omni Flash is vanaf gisteren beschikbaar op drie plekken:

  • De Gemini-app (web en mobiel). De eenvoudigste manier. Selecteer de video-modus, typ je beschrijving, voeg foto's toe en genereer.
  • YouTube Shorts. Direct in de YouTube-interface kun je Omni-video's genereren en publiceren. De avatar-functie zit hier ook in: neem je stem op en Omni maakt een digitale versie van je die de video presenteert.
  • Flow. Google's nieuwe creatieve studio voor langere projecten en professioneel gebruik.

De API voor developers komt "de komende weken" via Google AI Studio en Vertex AI. Dat is de route voor bedrijven die videogeneratie in hun eigen producten willen inbouwen.

Je hebt minimaal een Google AI Plus-abonnement nodig (circa twintig euro per maand). AI Pro en AI Ultra geven meer capaciteit.

Hoe voorkomt Google deepfakes?

Dit is de vraag die iedereen stelt bij AI-video. Google heeft twee mechanismen ingebouwd.

Ten eerste: SynthID-watermerken. Elke door Omni gegenereerde video krijgt een onzichtbaar digitaal watermerk dat detecteerbaar is voor verificatietools. Dat is dezelfde technologie die Google al inzet voor afbeeldingen en audio.

Ten tweede: de avatar-onboarding. Om een digitale versie van jezelf te maken, moet je eerst een verificatieproces doorlopen waarbij je jezelf filmt terwijl je een reeks cijfers uitspreekt. Dat voorkomt dat iemand anders jouw gezicht en stem gebruikt zonder toestemming.

Overigens komt dit precies op het moment dat de EU nudifier-apps verbiedt en de watermerkplicht per december 2026 ingaat. Google loopt met SynthID vooruit op die regelgeving.

Hoe verhoudt het zich tot Sora en Runway?

OpenAI's Sora en Runway's Gen-3 zijn de bekendste AI-videogenerators op dit moment. Maar ze werken fundamenteel anders dan Omni. Sora genereert video vanuit tekst en daar houdt het op. Runway biedt meer bewerkingsmogelijkheden maar vereist een aparte interface.

Omni's troef is de conversationele aanpak. Je bewerkt video's door erover te praten, niet door knoppen te klikken. En de integratie met YouTube en het Google-ecosysteem geeft het een distributievoordeel dat geen enkele concurrent heeft. Een video maken en direct publiceren op YouTube Shorts zonder van platform te wisselen is iets wat creators graag willen.

Er zit een kanttekening bij. Google waarschuwt dat bewerkingsprompts "zeer specifiek" moeten zijn, anders riskeert het model dat het elementen verandert die je wilt behouden. Wie vaag vraagt, krijgt onvoorspelbare resultaten. Dat is een probleem dat alle AI-videotools delen, maar het is eerlijk dat Google het zelf benoemt.

Wat kun je hier als bedrijf mee?

De meest voor de hand liggende toepassingen voor een Nederlands bedrijf:

  • Productvisualisatie. Foto van je product uploaden, beschrijving geven, en je hebt een korte reclameclip zonder fotograaf of videograaf.
  • Social media content. Tien-seconde clips voor Instagram Reels, TikTok of YouTube Shorts. Eén beschrijving, tien varianten.
  • Interne communicatie. Een korte uitlegvideo voor het team maken op basis van een memo of presentatie.
  • Advertenties. Google benadrukt specifiek de tekst-renderingcapaciteiten. Advertenties met leesbare tekst in beeld, iets waar AI-video tot nu toe mee worstelde.

Sundar Pichai vatte het kernachtig samen: "AI beweegt van tekst voorspellen naar de werkelijkheid simuleren." Voor de meeste bedrijven is dat nog toekomstmuziek. Maar met tien-seconde clips voor twintig euro per maand begint het bereikbaar te worden.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch privé, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.

Gemaakt door een mens, met AI als assistent bij research en redactie. Meer over onze werkwijze in de AI-disclosure en het redactiestatuut.