Prosus, het technologiebedrijf achter merken als OLX, iFood en PayU, zoekt een Senior LLM Inference Engineer voor hun AI-team in Amsterdam. Je beheert de productie-infrastructuur die LLMs serveert aan miljoenen gebruikers, met een H200 GPU-vloot als speelveld.

Wat ga je doen

Je deployt en optimaliseert LLM-serving infrastructuur met vLLM, bouwt async productie-API's met strikte latency-SLA's en implementeert A/B-testing en canary deployments. Je beheert Kubernetes en Slurm GPU-clusters met multi-tenant allocatie, optimaliseert GPU-gebruik en houdt de kosten in de hand. Monitoring, SLI's/SLO's en model versioning vallen onder jouw verantwoordelijkheid.

Wat ze zoeken

5+ jaar ervaring in MLOps, platform engineering of ML-infrastructuur
Productie-ervaring met vLLM of vergelijkbaar serving framework
GPU cost optimization-expertise met tracking en budgettering
Sterke Python-skills; FastAPI of vergelijkbare productie-API-ervaring
Kubernetes en Docker voor GPU-workloads
Ervaring met job orchestration (Slurm, Ray, Argo, Kubeflow)
Pre: model compressie (quantization, pruning), multi-tenant GPU-clusterbeheer

Wat ze bieden

State-of-the-art H200 GPU-infrastructuur
Werken met een expert ML-team met NeurIPS-publicaties en Hugging Face-releases
Significante autonomie in tool- en infrastructuurkeuzes
Hybride werken vanuit Amsterdam's AI House (200+ AI-professionals)
Competitief salaris en top-spec MacBook Pro

Gevraagde skills

vLLM Python Kubernetes FastAPI GPU Optimization MLOps Docker

Wat ga je doen

Wat ze zoeken

Wat ze bieden

Gevraagde skills

Vergelijkbare vacatures

Senior Machine Learning Engineer LLMs

Machine Learning Staff Engineer ADAS

Machine Learning Engineer

Machine Learning & AI Engineer