Prosus, het technologiebedrijf achter merken als OLX, iFood en PayU, zoekt een Senior LLM Inference Engineer voor hun AI-team in Amsterdam. Je beheert de productie-infrastructuur die LLMs serveert aan miljoenen gebruikers, met een H200 GPU-vloot als speelveld.
Wat ga je doen
Je deployt en optimaliseert LLM-serving infrastructuur met vLLM, bouwt async productie-API's met strikte latency-SLA's en implementeert A/B-testing en canary deployments. Je beheert Kubernetes en Slurm GPU-clusters met multi-tenant allocatie, optimaliseert GPU-gebruik en houdt de kosten in de hand. Monitoring, SLI's/SLO's en model versioning vallen onder jouw verantwoordelijkheid.
Wat ze zoeken
- 5+ jaar ervaring in MLOps, platform engineering of ML-infrastructuur
- Productie-ervaring met vLLM of vergelijkbaar serving framework
- GPU cost optimization-expertise met tracking en budgettering
- Sterke Python-skills; FastAPI of vergelijkbare productie-API-ervaring
- Kubernetes en Docker voor GPU-workloads
- Ervaring met job orchestration (Slurm, Ray, Argo, Kubeflow)
- Pre: model compressie (quantization, pruning), multi-tenant GPU-clusterbeheer
Wat ze bieden
- State-of-the-art H200 GPU-infrastructuur
- Werken met een expert ML-team met NeurIPS-publicaties en Hugging Face-releases
- Significante autonomie in tool- en infrastructuurkeuzes
- Hybride werken vanuit Amsterdam's AI House (200+ AI-professionals)
- Competitief salaris en top-spec MacBook Pro