Agentic

Terminal-Bench 2.1

Kan het model complexe taken in een terminal-omgeving zelfstandig afmaken, van code compileren tot servers opzetten?

Wat meet het?

Terminal-Bench meet hoe goed AI-agents volledige, realistische taken in een Linux-container uitvoeren. Taken bestaan uit proteinsynthese, async-code debuggen, beveiligingslekken verhelpen, ML-modellen trainen en servers configureren. Het model krijgt een instructie, een Docker-container en een tijdslimiet. De tests kijken alleen naar het eindresultaat, niet naar de tussenstappen.

Hoe je de score leest

Percentage correcte eindresultaten. De benchmark bevat 89 taken uit software engineering, machine learning, security en data science. Elke taak wordt binair gescoord: voltooid of niet.

Voorbeeld-opgave

Stel een containeromgeving op met een PostgreSQL-database, importeer een CSV-dataset, schrijf een query die de top-10 klanten sorteert op omzet, en exporteer het resultaat als JSON.

Waar je op moet letten

Terminal-Bench bevat uitsluitend Linux-taken. Windows- en macOS-workflows worden niet getest. De taken vereisen volledige autonomie: het model mag geen menselijke hulp vragen. Versie 2.1 corrigeerde 26 taken uit 2.0 voor bugs en reward-hacking.

Bronnen

← Terug naar alle benchmarks