Prosus, het technologiebedrijf achter merken als OLX, iFood en PayU, zoekt een Senior LLM Inference Engineer voor hun AI-team in Amsterdam. Je beheert de productie-infrastructuur die LLMs serveert aan miljoenen gebruikers, met een H200 GPU-vloot als speelveld.

Wat ga je doen

Je deployt en optimaliseert LLM-serving infrastructuur met vLLM, bouwt async productie-API's met strikte latency-SLA's en implementeert A/B-testing en canary deployments. Je beheert Kubernetes en Slurm GPU-clusters met multi-tenant allocatie, optimaliseert GPU-gebruik en houdt de kosten in de hand. Monitoring, SLI's/SLO's en model versioning vallen onder jouw verantwoordelijkheid.

Wat ze zoeken

  • 5+ jaar ervaring in MLOps, platform engineering of ML-infrastructuur
  • Productie-ervaring met vLLM of vergelijkbaar serving framework
  • GPU cost optimization-expertise met tracking en budgettering
  • Sterke Python-skills; FastAPI of vergelijkbare productie-API-ervaring
  • Kubernetes en Docker voor GPU-workloads
  • Ervaring met job orchestration (Slurm, Ray, Argo, Kubeflow)
  • Pre: model compressie (quantization, pruning), multi-tenant GPU-clusterbeheer

Wat ze bieden

  • State-of-the-art H200 GPU-infrastructuur
  • Werken met een expert ML-team met NeurIPS-publicaties en Hugging Face-releases
  • Significante autonomie in tool- en infrastructuurkeuzes
  • Hybride werken vanuit Amsterdam's AI House (200+ AI-professionals)
  • Competitief salaris en top-spec MacBook Pro