Je bouwt een AI-chatbot die vragen beantwoordt op basis van je productdocumentatie. Of een interne zoektool die door honderden pagina's beleid navigeert. Op een gegeven moment stuit je op het begrip "vector database". Wat is dat, en heb je er een nodig?
Dit artikel legt het uit, van de wiskundige basis tot de praktische keuze tussen tools.
Wat is een vector?
Een vector is in wiskundige zin een lijst van getallen die een punt in een meerdimensionaal ruimte beschrijft. Klinkt abstract, maar het concept is simpel in de praktijk.
Stel: je wilt de gelijkenis meten tussen twee teksten. Een traditionele database vergelijkt of de woorden letterlijk overeenkomen. Een vector database vergelijkt de betekenis.
Hoe werkt dat? Via embeddings.
Wat zijn embeddings?
Een embedding is een wiskundige representatie van tekst (of een afbeelding, of geluid) als een vector met honderden of duizenden getallen. Deze getallen representeren de semantische betekenis van de tekst.
Het slimme: teksten met vergelijkbare betekenis hebben vergelijkbare vectoren. "Auto" en "wagen" liggen dicht bij elkaar in de vectorruimte. "Auto" en "pizza" liggen ver uit elkaar.
Dit maakt semantisch zoeken mogelijk: zoeken op betekenis in plaats van op exacte woorden.
📐 Visualisatie
Stel je een 3D-ruimte voor. Elk woord, zin of document is een punt in die ruimte. Gerelateerde concepten clusteren bij elkaar. Een vector database berekent razendsnel welke punten het dichtst bij een gegeven punt liggen.
Hoe werkt semantisch zoeken?
Zonder vector database zoek je op steekwoorden: als je zoekt op "omzet verhogen", vind je alleen documenten die letterlijk "omzet verhogen" bevatten.
Met een vector database zoek je op betekenis: een zoekopdracht naar "meer verkopen" vindt ook documenten over "omzetgroei", "sales optimalisatie" en "conversie verbeteren", ook als die woorden niet in je zoekterm staan.
Dit is waarom RAG-systemen zo effectief zijn: ze vinden de meest relevante chunks op basis van betekenis, niet alleen op woordovereenkomst.
Verschil met traditionele databases
Traditionele databases (PostgreSQL, MySQL, MongoDB) slaan gestructureerde data op en zoeken via exacte query's: "WHERE naam = 'Jan'" of "WHERE prijs < 100".
Vector databases slaan embeddings op en zoeken via gelijkenis: "geef me de 5 meest gerelateerde documenten aan deze zoekopdracht."
Ze zijn complementair: gebruik traditionele databases voor gestructureerde bedrijfsdata, vector databases voor semantisch doorzoekbare content.
Populaire vector database opties
Pinecone
De meest populaire managed vector database. Volledig in de cloud, schaalbaar, uitstekende documentatie. Ideaal voor teams die snel willen starten zonder infrastructuurbeheer.
Prijs: gratis tier voor projecten tot 1 project en beperkte indexen, betaalde tiers vanaf ca. 70 dollar/maand.
Weaviate
Open-source vector database met sterke features voor hybrid search (combinatie van vectorzoeken en keyword search). Beschikbaar als managed service of self-hosted.
Prijs: gratis self-hosted, managed cloud vanaf ca. 25 dollar/maand.
Chroma
Open-source, Python-native vector database. Ideaal voor prototypes en kleinere projecten. Extreem eenvoudig te implementeren, maar minder schaalbaar dan Pinecone of Weaviate.
Prijs: volledig gratis, open-source.
pgvector
Een PostgreSQL-extensie die vectoropslag en -zoekopdrachten toevoegt aan je bestaande PostgreSQL-database. Als je al PostgreSQL gebruikt, is dit de eenvoudigste manier om vector search toe te voegen zonder een aparte database.
Prijs: gratis, open-source.
Wanneer heb je een vector database nodig?
Heb je een vector database nodig:
Kosten in perspectief
De kosten van een vector database zijn voor de meeste MKB-toepassingen verwaarloosbaar vergeleken met de waarde die ze leveren.
Voor een typisch MKB-RAG-project zijn de maandelijkse kosten van de vector database 0-30 euro. De LLM-API-kosten voor queries zijn vaak groter.
Meer over RAG en hoe vector databases daarin passen, lees je in ons artikel: RAG uitgelegd: hoe AI jouw eigen documenten begrijpt.
Voor een technische vergelijking van vector databases, bekijk ANN Benchmarks voor de meest actuele prestatievergelijkingen.
Conclusie
Vector databases zijn geen technologisch speelgoed: ze zijn de infrastructuur achter praktisch elke serieuze AI-applicatie die zoekt of retrieval doet. Als je een RAG-systeem bouwt, een semantische zoekfunctie implementeert, of AI wilt laten werken met een grote documentbibliotheek, heb je er een nodig.
Begin met Chroma of pgvector voor je prototype. Als je product groeit naar serieuze volumes, schakel je over naar Pinecone of Weaviate. De migratie is eenvoudiger dan je denkt, want de architectuur blijft hetzelfde.
🎯 Actie voor vandaag
Als je al een RAG-idee hebt: installeer Chroma via pip en bouw een prototype. Het duurt minder dan een uur om je eerste semantische zoekfunctie werkend te hebben.