Gemini kijkt mee op je scherm en klikt de knoppen voor je aan
Tools & Apps

Gemini kijkt mee op je scherm en klikt de knoppen voor je aan

· 10 min leestijd

Gemini 3.5 Flash kan sinds dinsdag je beeldscherm zien en bedienen. Google's goedkoopste AI-model klikt op knoppen, vult formulieren in en navigeert door websites. Het bijzondere: in dezelfde sessie kan het model iets opzoeken via Google Search of een adres checken op Maps. Dat maakt het de eerste AI die schermbesturing, webzoeken en kaartnavigatie combineert in één model, voor anderhalve dollar per miljoen tokens. Voor bedrijven die herhalende schermtaken willen automatiseren, is dit de goedkoopste instap tot nu toe.

Wat kan Gemini nu precies op je scherm?

Het model maakt screenshots van je scherm, analyseert wat het ziet en stuurt vervolgens muis- en toetsenbordacties terug. Het kan een webformulier openen, de juiste velden herkennen, tekst invoeren en op 'Verzenden' klikken. Dat werkt in de browser, op de desktop en op mobiele interfaces.

Overigens is Gemini niet de eerste AI met schermbesturing. Anthropic lanceerde Claude Computer Use in oktober 2025, en OpenAI werkt aan vergelijkbare functionaliteit. Maar Google doet iets dat nog niemand deed: het bouwde schermbesturing in hetzelfde model dat ook Google Search en Maps aanspreekt.

Waar Claude een apart model of een extra softwarelaag nodig heeft voor een webzoekopdracht, kan een Gemini-agent in één sessie een locatie opzoeken op Maps, een route uitstippelen en het resultaat invullen in een applicatie op je scherm. Denk aan het opzoeken van een BTW-nummer via Google, om dat vervolgens automatisch in te vullen in je boekhoudsoftware. Zonder van model te wisselen.

Waarom maakt het uit dat alles in één model zit?

Eén model voor alles scheelt complexiteit en kosten. Tot nu toe hadden ontwikkelaars die een AI-agent met schermbesturing wilden bouwen meerdere modellen nodig: één voor de scherminteractie, één voor het opzoeken van informatie, en soms een derde voor het interpreteren van de resultaten. Elke modelwissel kost tokens, introduceert vertraging en vergroot de kans op fouten.

Google consolideerde die drie capaciteiten in één API-aanroep. Minder code, snellere agents, lagere kosten. Voor een ontwikkelaar die een workflow automatiseert, zoals "zoek dit bedrijf op, open hun website, vul dit formulier in", maakt dat het verschil tussen een middagproject en een weeklang integratietraject.

Even voor de beeldvorming: vergelijk het met het verschil tussen drie aparte apps openen om een taak te doen, en alles in één venster kunnen afhandelen. De agent hoeft niet meer te schakelen tussen "kijk-modus", "zoek-modus" en "doe-modus". Hij zit gewoon te werken.

Wat kost het om een AI je scherm te laten bedienen?

Gemini 3.5 Flash is de goedkoopste optie voor schermbesturing. Bij 1,50 dollar per miljoen input-tokens (ongeveer 1,38 euro) en 9 dollar per miljoen output-tokens (8,28 euro) is het model ruwweg tien keer goedkoper dan Claude Opus 4.8 en drie keer goedkoper dan GPT-5.5.

ModelInput (per 1M tokens)Output (per 1M tokens)Schermbesturing
Gemini 3.5 Flash$1,50 (€1,38)$9,00 (€8,28)Ingebouwd
Claude Sonnet 4.6$3,00 (€2,76)$15,00 (€13,80)Ingebouwd
GPT-5.5$5,00 (€4,60)$15,00 (€13,80)Via API
Claude Opus 4.8$15,00 (€13,80)$75,00 (€69,00)Ingebouwd

Die prijskloof wordt relevant zodra je een agent de hele dag laat draaien. Als je ontwikkelaar een agent bouwt die dagelijks honderd formulieren invult, loopt het verschil op tot honderden euro's per maand. De volledige specs en prijzen van Gemini 3.5 Flash staan in onze model tracker.

Let op: alle prijzen zijn in dollar en exclusief 21 procent BTW. Afhankelijk van de wisselkoers betaal je als Nederlands bedrijf circa 20 procent meer dan het dollarbedrag.

De benchmarks op een rij

Op OSWorld, de standaardbenchmark voor schermbesturingsagents die taken uitvoert op Ubuntu, Windows en macOS, scoort Gemini 3.5 Flash 78,4 van de 100. Dat plaatst het vlak achter GPT-5.5 (78,7) en een stuk achter Claude Opus 4.8 (83,4), dat de lijst aanvoert.

ModelOSWorld-scorePrijs (input/1M tokens)
Claude Opus 4.883,4$15,00
GPT-5.578,7$5,00
Gemini 3.5 Flash78,4$1,50
GPT-5.4 mini72,1$3,00
Gemini 3 Flash65,1$1,00

De prijs-prestatieverhouding valt op. Claude Opus scoort 6 procent hoger, maar kost tien keer zoveel. Voor taken waar 95 procent nauwkeurigheid voldoende is, zoals het invullen van standaardformulieren of het testen van een webapplicatie, is Gemini 3.5 Flash een fractie van de prijs.

Waar loop je tegenaan in de praktijk?

Schermbesturing via AI is broos. Het model werkt met een screenshot-actie-loop: maak een foto van het scherm, besluit wat te doen, voer de actie uit, maak een nieuwe foto. Die loop struikelt over onverwachte pop-ups, CAPTCHAs en dynamisch ladende pagina's.

Ontwikkelaars op Hacker News melden gemengde ervaringen met Gemini's schermbesturing. Het model geeft soms op bij complexe taken en volgt instructies minder betrouwbaar dan Claude, volgens meerdere commentatoren. "Het model gooide zijn digitale armen in de lucht en gaf op", schrijft een ontwikkelaar die PDF-tabellen probeerde te extraheren. Anderen noemen de prijs als doorslaggevend voordeel: drie keer goedkoper dan GPT-5.5 maakt het de moeite waard om te experimenteren, ook als het niet perfect is.

Google zelf onderkent de risico's. Het model heeft twee optionele beveiligingen: een bevestigingsstap voor gevoelige acties (zoals het verwijderen van bestanden) en automatische taakafsluiting als het model een prompt injection detecteert. Beide staan standaard uit, wat betekent dat je ze als ontwikkelaar bewust moet aanzetten.

De eerlijke samenvatting: voor eenvoudige, voorspelbare workflows werkt het betrouwbaar. Denk aan het dagelijks invullen van dezelfde vijf formulieren of het testen van een vaste klikroute in je webapplicatie. Voor complexe, wisselende taken waar de interface verandert, is menselijk toezicht nog nodig.

Wat betekent dit voor je bedrijf?

De technologie achter schermbesturing gaat sneller dan de meeste bedrijven beseffen. McKinsey draait inmiddels op 25.000 interne AI-agents, volgens Bloomberg. In Nederland automatiseert bijna 30 procent van de bedrijven werkprocessen specifiek om personeelstekorten op te vangen, blijkt uit CBS-cijfers van april 2026. En uit recent onderzoek van ABN Amro blijkt dat 78 procent van het Nederlandse mkb al AI gebruikt, maar dat slechts 9 procent daar formeel beleid voor heeft.

Dit is de context waarin Gemini Computer Use relevant wordt. Het is nu een API voor ontwikkelaars. Maar de trend is duidelijk: AI gaat van chatten naar handelen. Microsoft Copilot voert al hele taken uit op de achtergrond. Claude werkt taken af in Slack als een digitale collega. Gemini voegt daar schermbesturing aan toe: de AI die niet alleen praat, maar ook klikt.

Wacht even, want hier zit een les in die verder gaat dan Gemini. De drie grootste AI-platformen investeren allemaal in hetzelfde: agents die niet alleen tekst produceren, maar acties uitvoeren in je bestaande software. Binnen een jaar zit deze technologie in producten die je al gebruikt, van Google Workspace tot Microsoft 365. Voor mkb-bedrijven die herhalende schermtaken hebben, van data-invoer tot rapportages samenvoegen, is de vraag niet meer óf AI dat kan overnemen, maar wanneer het betrouwbaar genoeg is voor jouw specifieke workflow.

Volgens de AI-adoptiecijfers van TheAIDaily loopt Nederland voorop in het gebruik van AI-tools, maar achter in het organiseren ervan. Die kloof, veel tools maar weinig strategie, is precies waar schermbesturing-agents in kunnen passen: gestructureerde automatisering van taken die nu handmatig op een scherm worden uitgevoerd.

Wat kun je hier deze week mee?

Als je een ontwikkelaar in je team hebt, kan die vandaag de Gemini 3.5 Flash API uitproberen via de Gemini Developer API. Google biedt een demo-omgeving via Browserbase en een referentie-implementatie op GitHub om schermbesturing te testen zonder eigen infrastructuur.

Heb je geen ontwikkelaar? Dan is de actie anders maar niet minder waardevol. Inventariseer welke schermtaken in je bedrijf herhalend en voorspelbaar zijn: het overtypen van data tussen twee systemen, het dagelijks invullen van dezelfde formulieren, het controleren van dezelfde dashboards. Dat zijn de eerste kandidaten zodra deze technologie klaar is voor productie.

En gezien de prijsontwikkeling, anderhalve dollar per miljoen tokens voor het goedkoopste model, is de drempel lager dan je denkt. De technologie die nu in de API-fase zit, vergelijkbaar met waar chatbots drie jaar geleden waren, komt sneller in consumentenproducten terecht dan de meeste bedrijven verwachten. De bedrijven die nu al weten welke taken ze willen automatiseren, hebben straks een voorsprong van maanden.

Michael Groeneweg
Geschreven door Michael Groeneweg AI-consultant bij Digital Impact en oprichter van UnicornAI.nl

Michael is AI-consultant bij Digital Impact in Rotterdam en oprichter van UnicornAI.nl, waar hij AI-oplossingen en SaaS-integraties bouwt voor bedrijven. Al tien jaar ondernemer, en sinds een paar jaar weigert hij iets te doen waar geen AI in verweven zit, zakelijk noch privé, tot mild ongenoegen van zijn omgeving. Zijn reizen door de wereld zijn inmiddels een serie experimenten in wat AI wel en niet kan vanaf een terrasje in Lissabon of een treinstation in Tokio. Hij test obsessief nieuwe tools, bouwt oplossingen voor klanten, en vindt dat niemand de hype moet geloven, maar ook niemand meer kan doen alsof AI niet alles verandert. Houdt van goede koffie, lange vluchten en mensen die met AI bouwen in plaats van er alleen over praten.

Gemaakt door een mens, met AI als assistent bij research en redactie. Meer over onze werkwijze in de AI-disclosure en het redactiestatuut.