Door prompt fuzzing vertellen AI-chatbots je nog steeds hoe je een bom maakt

AI-chatbots worden steeds krachtiger en veelzijdiger, maar onderzoek laat zien dat hun beveiliging nog lang niet waterdicht is. Waar deze systemen ontworpen zijn om schadelijke of illegale verzoeken te weigeren, blijken ze in de praktijk onder bepaalde omstandigheden toch te manipuleren. Dit vormt een reëel risico, zeker nu AI-modellen steeds vaker geïntegreerd zijn in bedrijfsprocessen zoals klantenservice, HR, financiën en IT-beheer.

AI als tweesnijdend zwaard

Voor organisaties zijn large language models (LLM’s) waardevolle hulpmiddelen. Ze versnellen workflows, automatiseren communicatie en ondersteunen besluitvorming. Tegelijkertijd zijn het ook potentiële aanvalsvectoren. Net zoals securityteams AI inzetten om bedreigingen te detecteren, kunnen aanvallers dezelfde technologie gebruiken om zwakke plekken te vinden en uit te buiten.

Een belangrijk risico ontstaat wanneer AI-agents toegang hebben tot gevoelige informatie of systemen. Denk aan chatbots die klantgegevens verwerken, tools die interne documentatie ontsluiten of systemen die automatisch rapportages genereren. Als een aanvaller erin slaagt zo’n model te manipuleren, kan die mogelijk data exfiltreren, systemen verstoren of ongeautoriseerde acties laten uitvoeren.

Het omzeilen van AI-beveiliging (fuzzing)

LLM’s zijn niet deterministisch: dezelfde input leidt niet altijd tot exact dezelfde output. Dit maakt ze flexibel, maar ook kwetsbaar. Beveiligingsmaatregelen — vaak “vangrails” genoemd — proberen ongewenst gedrag te blokkeren door bepaalde patronen of intenties te herkennen.

Aanvallers kunnen deze vangrails omzeilen via een techniek die bekendstaat als fuzzing. Hierbij worden kwaadaardige verzoeken telkens subtiel aangepast — door woorden te veranderen, zinnen te herstructureren of context toe te voegen — totdat het model tóch een ongewenst antwoord geeft. Uit onderzoek van Unit 42 blijkt dat op verschillende manieren te omzeilen.

Moderne fuzzing gaat verder dan handmatig experimenteren. Het proces kan volledig geautomatiseerd worden, waarbij AI zelf nieuwe varianten van prompts genereert. Hierdoor ontstaat een schaalbaar systeem dat continu zoekt naar zwakke plekken in de beveiliging.

Evolutionaire optimalisatie: genetische algoritmen

Een belangrijke ontwikkeling is het gebruik van genetische algoritmen om fuzzing effectiever te maken. Dit werkt vergelijkbaar met natuurlijke selectie:

Elke promptvariant fungeert als een “individu”
Kleine willekeurige wijzigingen (mutaties) worden toegepast
De meest succesvolle varianten (bijv. prompts die dichter bij een jailbreak komen) krijgen een hogere “fitness score”
Alleen de beste varianten worden gebruikt om nieuwe generaties te creëren

Na meerdere iteraties evolueren prompts tot zeer geoptimaliseerde aanvalsvormen. Opvallend is dat deze uiteindelijke prompts vaak totaal niet meer lijken op de oorspronkelijke poging — ze zijn subtieler, minder herkenbaar en daardoor moeilijker te blokkeren.

Experimenten tonen aan dat binnen relatief weinig generaties al effectieve “jailbreaks” kunnen ontstaan: situaties waarin het model alsnog gedrag vertoont dat expliciet verboden is.

Fundamentele kwetsbaarheid van LLM’s

De kern van het probleem ligt in de aard van LLM’s zelf. Deze modellen bevatten kennis die tijdens training is opgedaan, inclusief potentieel gevoelige of gevaarlijke informatie. Beveiligingslagen proberen die kennis af te schermen, maar verwijderen haar niet volledig.

Dit betekent dat:

Schadelijke kennis latent aanwezig blijft in het model
Beveiliging vooral afhankelijk is van detectie en filtering
Variaties in taalgebruik deze filters kunnen omzeilen

Omdat taal eindeloos te variëren is, bestaat er altijd een kans dat een bepaalde formulering onder de radar blijft. Dit maakt perfecte beveiliging in de praktijk vrijwel onmogelijk.

Risico’s in bedrijfsomgevingen

Hoewel extreme voorbeelden (zoals het genereren van gevaarlijke instructies) vaak worden gebruikt om kwetsbaarheden te demonstreren, liggen de grootste risico’s in zakelijke toepassingen:

Data-exfiltratie: AI-agents die gevoelige informatie prijsgeven
Prompt injection: manipulatie van AI om interne regels te negeren
Onbedoelde systeemtoegang: via gekoppelde API’s of tools
Automatiseringsmisbruik: het laten uitvoeren van schadelijke acties

Een ogenschijnlijk onschuldige interface, zoals een klantenservicechatbot, kan zo een ingang worden naar kritieke systemen.

Waarom traditionele filters niet volstaan

Veel huidige beveiligingsmechanismen zijn gebaseerd op herkenning van bekende patronen of verboden termen. Dit is onvoldoende omdat:

Aanvallers continu nieuwe formuleringen genereren
Context de interpretatie van een prompt verandert
AI-systemen zelf helpen bij het bedenken van omzeilingen

Effectieve beveiliging vereist daarom dynamische en adaptieve systemen die niet alleen letten op woorden, maar ook op intentie, gedrag en context.

Aanbevolen verdedigingsstrategieën

Om AI-systemen beter te beschermen, zijn meerdere lagen van beveiliging nodig:

1. Beperk toegang en functionaliteit

Geef AI alleen toegang tot strikt noodzakelijke data en systemen
Gebruik het principe van least privilege

2. Isoleer input en output

Behandel alle gebruikersinput als onbetrouwbaar
Valideer en filter outputs voordat ze worden gebruikt in systemen

3. Monitor en log gedrag

Detecteer patronen van misbruik of iteratieve aanvalspogingen
Analyseer afwijkend gedrag van AI-agents

4. Implementeer sterke basisbeveiliging

Authenticatie en autorisatie
Rate limiting
Zero-trust architectuur

5. Continu testen (red teaming)

Simuleer aanvallen met geautomatiseerde en willekeurige prompts
Test actief op nieuwe kwetsbaarhede

Door: Drifter

Login met de gegevens die u gebruikt bij softtrack

Door prompt fuzzing vertellen AI-chatbots je nog steeds hoe je een bom maakt

AI als tweesnijdend zwaard

Het omzeilen van AI-beveiliging (fuzzing)

Evolutionaire optimalisatie: genetische algoritmen

Fundamentele kwetsbaarheid van LLM’s

Risico’s in bedrijfsomgevingen

Waarom traditionele filters niet volstaan

Aanbevolen verdedigingsstrategieën

Feedback Gebruiker

Aanbevolen Reacties

Log in om te reageren

Bladeren

Activiteit