Agentic

MCP Atlas

Kan het model de juiste tools vinden, combineren en aansturen via het Model Context Protocol om een realistische taak op te lossen?

Wat meet het?

MCP Atlas meet hoe goed een taalmodel tools ontdekt, parameters correct invult, meerdere servers coordineert en antwoorden baseert op tool-output. De benchmark gebruikt 1.000 door mensen geschreven taken over 36 echte MCP-servers en 220 tools. Elke taak bevat ook afleidende tools die er relevant uitzien maar niet nodig zijn.

Hoe je de score leest

Claims-based scoring met gedeeltelijke punten. Elke taak definieert feitelijke claims die het antwoord moet bevatten. Het model krijgt punten voor elke correcte claim, aangevuld met diagnostiek over tool-ontdekking, parametrisering, syntax, foutherstel en efficientie.

Voorbeeld-opgave

Gebruik de Spotify MCP-server om de top-5 nummers van een artiest op te halen en de GitHub MCP-server om een issue aan te maken met die gegevens als inhoud.

Waar je op moet letten

MCP Atlas test alleen single-turn taken: het model krijgt een opdracht en moet in een keer de juiste tools kiezen en aanroepen. Multi-turn conversaties worden niet getest. De 500 taken in de publieke leaderboard zijn een subset van de volledige 1.000.

Bronnen

← Terug naar alle benchmarks