Om verwarring en onduidelijkheid te voorkomen volgt hieronder een bondige begrippenlijst.
Algoritme
Een set van regels en instructies die een computer uitvoert.
AI-model
Een AI-model is het resultaat van het trainen van een algoritme op data. Een voorbeeld van een AI-model is een taalmodel (LLM).
AI-systeem
Een op een machine gebaseerd systeem dat is ontworpen om met verschillende niveaus van autonomie te werken en dat na het inzetten ervan aanpassingsvermogen kan vertonen, en dat, voor expliciete of impliciete doelstellingen, uit de ontvangen input afleidt hoe output te genereren zoals voorspellingen, inhoud, aanbevelingen of beslissingen die van invloed kunnen zijn op fysieke of virtuele omgevingen.
Applicatie
Een applicatie is een versie van het project waar de eindgebruiker mee te maken krijgt.
Bias
De aannames of vooroordelen die in een AI-model kunnen zitten.
Chunking
Chunking is een techniek om grote stukken tekst in kleinere stukken tekst, chunks, op te delen. Dit maakt het makkelijker om een tekst te verwerken en te analyseren.
Chunk-size is het maximale aantal karakters dat een chunk kan bevatten en refereert dus naar de lengte van een chunk.
Codebase
Een codebase bestaat uit alle code die tot nu toe gemaakt is en in het onderhavige project relevant is voor de ontwikkeling van de applicatie.
Embeddingsmodel
Een embeddingsmodel is het model dat de vertaling maakt van tekst naar een numerieke weergave (zie ook: Vectorstore).
Finetunen
Finetunen is het opnieuw trainen van een bestaand AI-model. Op deze manier kan je het model specificeren voor een bepaald doel of een bepaalde dataset. Je bouwt dus een model niet vanaf niets op, maar neemt een bestaand model als uitgangspunt (foundational model).
Foundational model
Een foundational model is een basis machine learning model, dat is getraind op grote hoeveelheden data. Dit model kan worden doorgetraind voor specifiekere taken (finetunen).
Generatieve AI
Een AI-systeem dat een output genereert op basis van een prompt. Dit kan een tekstuele output zijn, maar bijvoorbeeld ook een afbeelding.
Hallucinatie
Informatie dat gegenereerd is door een taalmodel (LLM) die feitelijk onjuist is. Het model genereert antwoorden die niet gebaseerd zijn op de gegeven input, of op feitelijke informatie uit de trainingsdata. Dit kan verschillende oorzaken hebben.
Hoog risico AI-systeem
Onder hoog risico AI-systemen vallen onder andere systemen die opereren in de volgende gebieden:
Biometrie;
Kritieke infrastructuur;
Onderwijs en beroepsopleiding;
Werkgelegenheid, personeelsbeheer en toegang tot zelfstandige arbeid;
Rechtshandhaving;
Migratie-, asiel- en grenstoezichtsbeheer;
Rechtsbedeling en democratische processen;
Wat er precies onder deze onderwerpen wordt verstaan is te lezen in hoofdstuk III en bijlage III van de AI-verordening.
Voor hoog-risico AI-systemen gelden strengere regels en eisen dan lagere risicocategorieën. Welke rol je hebt ten opzichte van het AI-systeem (aanbieder, gebruiksverantwoordelijke, importeur of distributeur) bepaalt welke verantwoordelijkheid je hebt ten aanzien van deze regels en eisen.
Ingestion
Sub-functies die samen zorgen voor het prepareren van data om in een vectorstore opgeslagen te kunnen worden.
Inputdata
Inputdata is data die in een AI-systeem worden ingevoerd of direct door een AI-systeem worden verworven en op basis waarvan het systeem een output genereert.
Knowledgebase
Een knowledge base is een kennisbank met informatie die je kan onderzoeken of raadplegen.
Modelparameters
Instellingen van een AI-model die je kan aanpassen, die beslissen hoe een LLM output genereert. De parameters hebben invloed op de kwaliteit, diversiteit en creativiteit van de output.
Persoonsgegevens
Alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon ('de betrokkene'); als identificeerbaar wordt beschouwd een natuurlijke persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificator zoals een naam, een identificatienummer, locatiegegevens, een online identificator of van een of meer elementen die kenmerkend zijn voor de fysieke, fysiologische, genetische, psychische, economische, culturele of sociale identiteit van die natuurlijke persoon.
Prompt
Een prompt is de input van de gebruiker waarop het AI-systeem reageert.
Query
Een query is een opdracht die je aan een database geeft om een bepaalde actie uit te voeren en die mogelijk ook informatie teruggeeft.
RAG-pipeline
Een RAG-pipeline is een keten van subprocessen die samen als doel hebben om vanuit een vraag van een gebruiker (user):
voor de vraag relevante informatie op te halen uit een vectorstore middels een retriever.
De vraag te beantwoorden met een taalmodel.
Responsible AI
Responsible AI gaat over dat een AI-systeem geen schade mag toebrengen aan mensen of de samenleving, dat AI-systemen transparant en controleerbaar zijn en dat ze zijn ontworpen met respect voor menselijke waarden en rechten. Om tot responsible AI te komen kunnen we kijken naar een aantal subcategorieën:
Accuraatheid
Fairness
Transparantie
Accountability
Privacy
Security
Compliancy aan regelgeving
Menselijk toezicht
Retriever
Een retriever in een RAG-pipeline haalt relevante documenten op uit een vectorstore. Dit wordt als context meegegeven aan een taalmodel.
Taalmodel
Een taalmodel of Large Language Model (LLM) genereert taal op basis van een input-vraag en eventuele context die wordt meegegeven. Het is getraind met grote hoeveelheden tekst en is specifiek bedoeld om bestaande content te analyseren (begrijpen) en nieuwe content te genereren.
Token
Kleinere eenheden van tekst. Dit kan bijvoorbeeld een leesteken, woord of deel van een tekst zijn.
Training
Het proces waarbij een algoritme wordt geleerd om patronen in gegevens te herkennen.
Trainingsdata
Trainingsdata is data die worden gebruikt voor het trainen van een AI-systeem door de leerbare parameters hiervan aan te passen.
Validatiedata
Validatiedata is data die worden gebruikt voor het verrichten van een evaluatie van het getrainde AI-systeem en voor het afstemmen van onder andere de niet-leerbare parameters en het leerproces ervan, om underfitting of overfitting te voorkomen.
Vectorstore
In een vectorstore zijn ingesloten (embedded) vectoren opgeslagen. Deze vectoren zijn multidimensionale numerieke representaties van gegevens zoals afbeeldingen of tekst. Het is een manier om gegevens weer te geven op basis van de betekenis ervan.
Verboden AI-systeem
Vanaf 2 februari 2025 geld er een verbod op AI-systemen binnen de volgende gebieden:
Doelbewust negatief beïnvloeden van gedrag (door bijvoorbeeld sublimale technieken, manipulatie of misleiding);
AI-systemen die doelbewust de kwetsbaarheden van personen gebruiken (denk aan leeftijd of specifieke sociale of economische omstandigheden);
AI-systemen die sociale score toekennen die als gevolg een nadelige of ongunstige behandeling van bepaalde personen of groepen personen kan hebben;
Het boordelen of voorspellen van risico’s, op basis van profilering of een beoordeling van diens persoonlijkheidseigenschappen en -kemerken;
Het scraping van gezichtsafbeeldingen van internet of CCTV-beelden;
Het afleiden van emoties van personen;
Biometrische categorisering;
Biometrische identificatie op afstand met het oog op rechtshandhaving.
Meer is te lezen in hoofdstuk II van de AI-verordening.
Woo
In de Wet open overheid (Woo) is geregeld dat overheidsorganisaties informatie moet geven over wat de overheid doet, hoe ze dat doet en waarom. Dit moeten ze uit zichzelf doen, of als iemand daar om vraagt (een Woo-verzoek). Zo kunnen onder andere burgers de overheid controleren.
Veel van deze begrippen komen uit het document overheidsbrede visie op generatieve AI