Embedding
Een numerieke vingerafdruk van betekenis, waarmee AI kan zoeken op wat tekst bedoelt in plaats van op exacte woorden.
Een embedding is een numerieke weergave van betekenis. Tekst wordt omgezet in een reeks getallen (typisch 768, 1.536 of 3.072 lang) en woorden of zinnen met vergelijkbare betekenis krijgen vergelijkbare reeksen. "Hond" en "puppy" liggen dicht bij elkaar, "hond" en "kwantummechanica" ver uit elkaar.
Daarmee kan een computer iets doen dat voorheen onmogelijk was: zoeken op betekenis in plaats van op exacte woorden. Een zoekopdracht "wat eet mijn nieuwe huisdier" matcht met een pagina over "voeding voor puppy's", zelfs als het woord "nieuw huisdier" daar nooit voorkomt.
Hoe embeddings ontstaan
Een embedding-model is vaak een apart getrainde versie van een LLM. In plaats van tekst te genereren, produceert het een vector: een rij getallen. Modellen die je in 2026 tegenkomt:
- OpenAI text-embedding-3-large: 3.072 dimensies, sterke kwaliteit, 0,13 dollar per 1M tokens
- Cohere embed-v3: 1.024 dimensies, goed voor meertalige toepassingen
- Voyage AI voyage-3: populair bij juridische en medische teams
- Open-source: BGE, E5, nomic — draaien op je eigen hardware zonder kosten per query
Wat je ermee doet
Drie hoofdgebruiken:
- Semantisch zoeken. Je zet al je documenten in embeddings, en bij elke zoekopdracht vergelijk je de vraag-embedding met die van de documenten. Top-10 meest vergelijkbare = resultaten.
- RAG. Hetzelfde idee, maar dan als opmaat naar een LLM-antwoord. Embeddings zijn de motor onder vrijwel elk modern RAG-systeem.
- Clusteren en classificeren. Groepeer 10.000 klantfeedbacks op thema zonder dat je de categorieen vooraf hoeft te definieren. Of: bouw een spam-filter dat nieuwe soorten spam herkent op basis van gelijkenis met eerdere spam.
Hoe gelijkenis werkt
De maat voor "hoe vergelijkbaar?" is meestal cosine similarity: de hoek tussen twee vectoren. Dichtbij 1 = zeer vergelijkbaar, dichtbij 0 = niks mee te maken, -1 = tegengesteld (zeldzaam in praktijk).
Je slaat de embeddings op in een vectordatabase. Populaire keuzes in 2026:
- Pinecone: managed, makkelijk om te starten
- Weaviate: open source met managed optie
- Qdrant: Rust-based, snel, veel features
- pgvector: PostgreSQL-extensie, handig als je al PostgreSQL gebruikt
- ChromaDB: lichtgewicht, goed voor prototypes
Veelvoorkomende valkuilen
- Chunking-keuzes. Je moet je documenten ergens opsplitsen. Chunks van 200 tokens zijn precies, maar missen context. Chunks van 2.000 tokens zien het grote geheel, maar ruizen. De sweet spot ligt typisch op 300 tot 800 tokens met overlap.
- Taal. Embedding-modellen zijn meestal op Engels-gericht, al zijn de multilingual modellen inmiddels goed. Voor Nederlands adviseert de praktijk: test met jouw eigen data.
- Domein. Juridische tekst en medische tekst hebben hun eigen "ruimte". Een generiek embedding-model mist soms subtiliteiten. Voyage en Cohere hebben domein-varianten voor precies dit probleem.
- Context missen. Twee chunks kunnen los lijken terwijl samen ze pas betekenis hebben. Daarvoor worden varianten als parent-child chunking of recursive retrieval gebruikt.
Waarom embeddings ertoe doen
Embeddings zijn de stille infrastructuur onder moderne AI-toepassingen. Vrijwel elke AI-zoekbalk, elke chatbot die jouw documenten kent, elke "vergelijkbare items"-suggestie op een webshop draait op embeddings. Je ziet ze nooit, maar ze zijn overal.