AI Uitleg

Multimodaal

Een AI die niet alleen tekst begrijpt, maar ook afbeeldingen, audio of video kan verwerken.

Gepubliceerd op 17 april 2026

Multimodaal betekent: een AI die niet alleen tekst begrijpt, maar ook andere soorten data — afbeeldingen, audio, video, soms zelfs 3D of moleculaire structuren. De moderne frontier-modellen zijn vrijwel allemaal multimodaal.

Concreet: je kunt een screenshot uploaden en vragen wat erop staat. Je kunt een foto van een whiteboard maken en vragen om een schone digitale versie. Je kunt een audio-opname meesturen en om een samenvatting vragen. De tekst-output werkt zoals je gewend bent, maar de input is veel rijker.

Wat is een modaliteit?

Gangbare modaliteiten in 2026:

Tekst (origineel domein)
Afbeelding — input (analyseren) en output (genereren)
Audio — spraak verstaan (ASR) en genereren (TTS)
Video — frames analyseren (Gemini, Claude, GPT-5), videosegmentatie
Code — vaak als aparte modaliteit behandeld
Bestanden — PDF, Excel, Word direct inleesbaar zonder aparte omzetting

Hoe werkt het onder de motorkap?

Twee grondvormen:

Losse encoders. Een apart netwerk zet de afbeelding of audio om in een representatie die het taalmodel kan verwerken. GPT-4 Vision werkte zo: een vision-encoder plus de bestaande tekstmodel.
Native multimodaal. Het model is vanaf de basis getraind op gemixte data: tekst + beeld + audio tegelijk. Gemini (Google) is sinds versie 1 native multimodaal. Claude 3 en GPT-4o volgden die richting.

Native multimodaliteit werkt beter bij taken waar modaliteiten door elkaar lopen: "kijk naar deze grafiek en vergelijk met de cijfers in deze Excel".

Concrete capabilities in 2026

Handschrift lezen — redelijk tot goed, afhankelijk van leesbaarheid
Grafieken en tabellen interpreteren — meestal indrukwekkend, maar controleer cijfers altijd (risico op hallucinatie)
UI-screenshots begrijpen — basis voor browser-agents zoals Anthropic Computer Use en OpenAI Operator
Medische beelden — in gespecialiseerde varianten (Google Med-PaLM M, OpenAI Healthcare)
Video-begrip — Gemini kan tot 2 uur video tegelijk analyseren, Claude tot circa 20 minuten
Spraak naar spraak — GPT-4o's geavanceerde spraakmodus, voice-to-voice met emotie, onderbreken en pauze-beheer

Wat nog niet goed werkt

Precieze locaties in beelden. "Zet een cirkel op de derde knop van links" — modellen slagen hier vaak niet in zonder een tussenlaag.
Kleine tekst. Kleine fonts in screenshots worden soms verkeerd gelezen, vooral bij lage resolutie.
Lange video. Twee uur is het record, maar de aandacht raakt geleidelijk verspreid; details uit het midden verdwijnen.
Realtime. Veel modellen zijn nog niet snel genoeg voor directe spraak-interactie zonder merkbare vertraging.
3D en fysieke modellen. Modellen kunnen 3D-objecten "lezen" maar niet goed bewerken of ontwerpen.

Gegenereerde output

Multimodaal werkt ook de andere kant op. Modellen die niet alleen tekst maar ook beeld of geluid maken:

Afbeeldingen: DALL-E 3, Midjourney, Flux, Stable Diffusion 3, Imagen
Video: Sora (OpenAI), Veo (Google), Runway
Audio: Suno, Udio voor muziek; ElevenLabs voor spraak
3D: Meshy, Luma Genie (nog in opkomst)

Wat het betekent voor gebruik

Voor dagelijks werk betekent multimodaliteit dat je minder hoeft te vertalen. Een foto kan als input, een screenshot kan als referentie, een audio-opname kan direct als bron. Voor ontwikkelaars: de grens tussen "tool voor tekst", "tool voor beeld" en "tool voor geluid" verdwijnt. Een moderne AI-toepassing is multimodaal by default.

← Terug naar alle termen