Codex CLI 0.128 introduceert /goal voor langlopende doelen

De vraag op vrijdagmiddag, vlak voor je laptop dichtklapt: kan ik deze migratie nog dit weekend afronden, of schuift het door naar maandag? OpenAI plaatste gisteren een antwoord in Codex CLI 0.128.0. Met de nieuwe /goal-feature laat je een doel achter in je terminal, een refactor, een framework-upgrade, een test-suite die uitgebreid moet worden, en je codeer-agent pakt het op. Pauze, hervatten, doorgaan na een crash. Niet meer hopen dat hij niet halverwege uitvalt.

Wat verandert /goal aan een Codex-sessie?

Vroeger startte je een Codex-task in de terminal en bleef je bidden. Klapte je laptop dicht, viel je VPN weg of crashte het proces na zes uur, dan was je sessie kwijt. Geen onthoud, geen "ga verder waar je was". Wel een logbestand om in te lezen wat er ongeveer was gebeurd.

Met /goal verschuift dat. De feature draait via een app-server, dus de doel-context leeft buiten je lokale terminal. Je geeft een doel ("upgrade dit project van Symfony 6 naar 7 en zorg dat alle tests groen blijven"), Codex slaat dat op met versies van zijn eigen plan, voortgang en uitvoer-logs, en jij krijgt vier knoppen in je TUI: aanmaken, pauzeren, hervatten, wissen.

Geen schermbabysitten meer.

Wat dit praktisch verandert: je sluit gewoon je laptop. Open je hem morgenochtend weer, dan trek je de sessie naar voren, lees je wat Codex 's nachts heeft gedaan en je accepteert of corrigeert. De long-horizon flow van GPT-5.3-Codex die OpenAI in februari demonstreerde, en die toen alleen via custom scripts en strakke markdown-files te krijgen was, zit nu in de stock CLI.

Hoeveel werk haal je hier echt uit?

OpenAI's eigen demo van februari is een handige bovengrens. In die test draaide Codex circa 25 uur onafgebroken, gebruikte ongeveer 13 miljoen tokens en produceerde rond de 30.000 regels code. Een experimentele design-tool, van specificatie tot werkende UI, in één run.

Engineer Derrick Choi vatte de winst in dat blog samen met een belangrijk detail: "course corrections don't wipe progress." Vrij vertaald: als Codex halverwege merkt dat hij een aanname fout heeft, hoeft hij niet helemaal opnieuw te beginnen. Hij past zijn plan aan en gaat door. Dat klinkt klein, maar dit is precies waarom langlopende AI-runs eerder altijd uitviel: één foute aanname om 02:00 uur en de hele nacht was verspild.

Even afstand nemen: dit is geen "gisteren GPT-3, vandaag GPT-5"-sprong. Dit is hetzelfde model dat je al kent, maar met genoeg infra-werk eromheen om de zwakke plek van autonome coding-agents, namelijk geheugen tussen sessies, eindelijk dicht te timmeren.

Voor jouw dev-team betekent dit: een halve dag tot een dag per langlopende refactor. Niet meer, niet minder. Je laat een goed gespecificeerde taak draaien terwijl jij in een meeting zit, en bij terugkomst ligt er een PR klaar om te reviewen. Dit is alsof je een junior dev een goed gespecificeerde week-opdracht geeft en maandag terugkomt voor de review, alleen werkt deze junior 's nachts door en stelt geen vragen tussendoor.

Hoe zit het met de prijs?

De /goal-feature zelf kost niets, hij zit in de gratis open-source codex CLI. Wat je wel betaalt is het model. Codex draait standaard op GPT-5.3-Codex en sinds eind april ook op GPT-5.5 voor wie een hoger abonnement heeft.

De rekensom voor een Nederlandse mkb-er met een dev-team:

ChatGPT Plus, circa 22 euro per maand inclusief btw. Bevat Codex-toegang. Genoeg voor één developer die /goal eens per week voor een langlopende taak inzet.
ChatGPT Business, vanaf circa 24 euro per gebruiker per maand inclusief btw. Voor teams met meerdere devs en gedeeld gebruik.
API-tokens, als je via de API werkt betaal je per miljoen tokens. Een 25-uurs run zoals OpenAI's demo komt op enkele tientallen euro's, mits je niet onnodig grote contexten meestuurt.

De terugverdientijd is een ochtend. Eén refactor die normaal vier uur kost en die nu in de nacht is afgehandeld, betaalt het abonnement van een hele maand terug.

Een eerlijke vergelijking met Claude Code

Anthropic had een paar moeilijke weken. Claude Code had wekenlang stille kwaliteitsproblemen die Anthropic uiteindelijk publiekelijk bevestigde. Inmiddels is dat opgelost, maar het litteken zit er nog: NL-teams die op Claude Code zaten zijn de afgelopen weken aan het rondkijken geweest.

Wat /goal voor Codex doet, persistente context tussen sessies, heeft Claude Code wel via plugins en de claude-mem skill, maar niet als ingebouwde feature. Cursor zit weer in een andere hoek: meerdere agents die parallel aan dezelfde repo werken, met jou als regisseur.

Geen winnaar. Wel: drie partijen, drie filosofieën.

Codex, één agent, lange horizon, persistente sessies. Goed voor migraties en grote refactors waar je 's nachts tijd wint.
Claude Code, sterk in nuance en code-review-stijl werk. Onze eerdere vergelijking met Cursor staat nog grotendeels.
Cursor, multi-agent parallelisme. Goed als je meerdere onafhankelijke kleine taken tegelijk wilt uitvoeren.

Voor een NL-team dat nu al op Claude Code zit, is /goal geen reden om te switchen. Wel een reden om Codex CLI ernaast te zetten, voor het type taak waar Codex sterker in is geworden: alles wat 6+ uur autonoom draaien vergt.

De Nederlandse praktijk maakt dit concreet. Een doorsnee NL-bureau met vier of vijf devs heeft elke maand wel een achterstand op het gebied van library-upgrades en deprecations. Een Symfony 6 die naar 7 moet, een PHPUnit 10 naar 11, een Vue 2 die ergens nog blijft hangen in een legacy-onderdeel. Het is geen werk waar iemand op vrijdag enthousiast voor blijft zitten. Maar zonder dat onderhoud loopt je codebase langzaam vast en wordt elke nieuwe feature duurder. /goal verschuift dit type werk van "iemand moet er een dag voor reserveren" naar "we laten Codex erover lopen tijdens het weekend en reviewen maandag".

Welke taken werken hier wel, welke niet?

Niet elke taak past in een /goal-flow. De feature werkt het best voor werk met een duidelijke specificatie en een meetbare eindstaat.

Wel geschikt:

Framework-migraties (Symfony 6→7, Laravel 11→12, Vue 2→3, Rails major upgrades)
Test-suite uitbreiden naar 80% coverage met bestaande conventies
Dependency-updates met automatische test-runs en regressie-checks
Repetitieve refactors over een grote codebase (alle controllers van klasse-syntax naar arrow-functions, type hints toevoegen, deprecation-fixes)
Een PHP 7-codebase voorbereiden op PHP 8.4 met expliciete return types

Niet geschikt:

"Verbeter mijn app", te vaag, geen meetbare eindstaat
Productdefinities zonder spec, waar je halverwege beslissingen wilt nemen
Taken die externe diensten nodig hebben die niet in de container draaien (oude on-prem databases, niet-gemockte third-party APIs)
Werk waar de spec waarschijnlijk halverwege verandert door product-feedback

Een speels detail uit hoe Codex hiermee omgaat: hij schrijft in zijn eigen Plan.md-bestand zijn voortgang en overwegingen op, alsof hij notes maakt voor de volgende sessie. Een agent die zijn eigen aantekeningen ordent voor wanneer hij weer wakker wordt. Klein maar veelzeggend voor waar autonome coding-tools heengaan.

Wat staat dit weekend op je agenda?

Drie concrete acties voor wie dit weekend wil testen.

Een. Update je Codex CLI naar 0.128.0 (codex update werkt nu vanuit de tool zelf). Daarmee krijg je /goal en de bredere permissie-profielen.

Twee. Kies één pijnpunt waar je al maanden tegenaan loopt. Een dependency-upgrade die je steeds uitstelt, een refactor van een legacy-controller, een test-suite die op 40% coverage hangt. Schrijf een nuchtere doelstelling van vier of vijf zinnen. Geef Codex die als /goal en laat hem draaien.

Drie. Plan maandagochtend een uur vrij om de PR die hij oplevert serieus te reviewen. Niet alles wat een autonome agent produceert is mergeable. Maar als acht van de tien wijzigingen kloppen, heb je je weekend gewonnen en kun je de andere twee handmatig oplossen.

Voor NL-bureaus en consultants die AI-tooling al hebben uitgelegd aan hun klanten: dit is het type ontwikkeling dat de bal verlegt van "AI helpt mijn dev-team sneller typen" naar "AI vervangt een hele shift". Niet morgen al de norm. Wel een bouwsteen waar je nu mee moet experimenteren, voordat je klant het aan jou vraagt.

Wat moet je vooraf wel goed regelen?

Een autonome agent die uren of een nacht doorwerkt zonder dat jij erbij zit, vraagt om een paar afspraken vooraf. Niet om de fun eraf te halen, wel om maandagochtend geen crisis te hebben.

De belangrijkste drie:

Werk in een sandbox. Codex CLI 0.128 introduceerde uitgebreide permissie-profielen en zandbak-configuraties. Gebruik die. Laat /goal niet draaien op een dev-omgeving die rechtstreeks aan een productie-database hangt. Een agent die de hele nacht refactort en daarbij per ongeluk een migratie uitvoert tegen de live-omgeving, is niet de soort productiviteitswinst waar je naar op zoek bent.
Branch en backup. Laat /goal werken op een aparte branch, niet op main of develop. Simon Willison's notities bij deze release benadrukken hetzelfde: behandel de output van een long-horizon run als een PR van een externe contributor, niet als trusted commits van je eigen team.
Spec voorbereiden, niet bedenken-onderweg. /goal werkt alleen als je doel meetbaar en eenduidig is. "Migreer alle controllers naar PHP 8.4 syntax" is meetbaar. "Maak de codebase moderner" is dat niet. Bij twijfel: schrijf eerst een korte specificatie van twee tot drie alinea's, neem die door met een collega, en geef die pas aan Codex.

Voor NL-organisaties die onder de AVG of de AI-Verordening vallen geldt nog een vierde punt. Een autonome agent die toegang heeft tot je code en mogelijk tot persoonsgegevens in je test-data is een verwerker. Check je verwerkingsregister, kijk of je provider (OpenAI of een NL-cloudpartner) in lijn met je DPIA zit, en zet logging aan zodat je achteraf kunt reconstrueren wat de agent heeft aangeraakt.

Saai, maar wel het verschil tussen een productiviteitsslag en een datalek-melding bij de Autoriteit Persoonsgegevens.

Geef Codex een doel en je migratie loopt vannacht door

Wat verandert /goal aan een Codex-sessie?

Hoeveel werk haal je hier echt uit?

Hoe zit het met de prijs?

Een eerlijke vergelijking met Claude Code

Welke taken werken hier wel, welke niet?

Wat staat dit weekend op je agenda?

Wat moet je vooraf wel goed regelen?

Misschien vind je dit ook leuk

Zo stop je herhalend promptwerk in een team-skill

OpenAI's workspace agents bouwen rapporten terwijl jij vergadert

Anthropic brengt Claude Design uit als Figma-uitdager