PhD AI Alignment: Value Assessment for Open Models

TU Delft · Delft

Kantoor Junior Fulltime

€36.708 — €46.572 per jaar

TU Delft zoekt een PhD-kandidaat voor onderzoek naar AI alignment in samenwerking met de Nederlandse Politie. Je onderzoekt hoe open-source AI-modellen verantwoord kunnen worden ingezet in gevoelige publieke domeinen, met een focus op waardebeoordeling en veiligheidsgaranties.

Wat ga je doen

Je werkt in de Web Information Systems-groep (EEMCS) en besteedt 20% van je tijd bij de afdeling Strategie en Innovatie van de Nationale Politie. Je onderzoek richt zich op het formaliseren van waarde-taxonomieen en alignment-metrics voor foundation models: red-teaming, synthetische data voor kwetsbaarheidsanalyse, en downstream alignment-technieken als DPO, RLHF en constitutional AI. Het doel is een raamwerk waarmee organisaties open-weights modellen systematisch kunnen evalueren op ethische en operationele normen.

Wat ze zoeken

MSc in Computer Science, Data Science of aanverwant vakgebied met AI/ML-vakken
Interesse in AI alignment, human-AI interaction en explainable AI
Beheersing van het Nederlands is vereist vanwege samenwerking met de Politie
Bereidheid tot een veiligheidsscreening (BO-niveau) door de Rijksoverheid

Wat ze bieden

Salaris: €3.059 - €3.881 bruto per maand (oplopend over 4 jaar)
8% vakantietoeslag en 8,3% eindejaarsuitkering
Contract voor 5 jaar (verlengd t.o.v. standaard 4 jaar)
Begeleiding via TU Delft Graduate School
Relocation-ondersteuning en Dual Career Programme

Gevraagde skills

Python LLMs RLHF Red Teaming NLP AI Safety

Wat ga je doen

Wat ze zoeken

Wat ze bieden

Gevraagde skills

Vergelijkbare vacatures

Postdoc Scalable Graph Learning

Applied Scientist

Postdoctoraal Onderzoeker AI Chatbots Mentale Gezondheid

Machine Learning Research Engineer