Onderzoekers blijven nieuwe manieren ontdekken waarop grote taalmodellen (LLM’s) eenvoudig te misleiden zijn. Ondanks hoge scores op benchmarks en claims dat kunstmatige algemene intelligentie (AGI) nabij is, blijken modellen in de praktijk naïef en gemakkelijk te verwarren in situaties waarin gezond verstand en menselijke achterdocht normaal gesproken zouden overheersen.
Run-on zinnen en slechte grammatica als aanvalsmethode
Een recent ontdekt probleem is dat modellen hun ingebouwde veiligheidsregels verliezen wanneer gebruikers zeer lange, slecht geformuleerde instructies geven zonder punten of duidelijke zinsafsluiting. Het resultaat is dat het model minder vaak de kans krijgt om “nee” te zeggen en tóch gevoelige of schadelijke informatie prijsgeeft.
Onderzoekers noemen dit fenomeen de “refusal-affirmation logit gap”: tijdens de training leren modellen om bij schadelijke verzoeken meestal te weigeren, maar die mogelijkheid blijft in de kern aanwezig. Het weigeren is slechts statistisch waarschijnlijker gemaakt, niet structureel onmogelijk. Door de zin maar niet te beëindigen, kan een aanvaller die balans eenvoudig verstoren.
Tests met meerdere bekende modellen laten zien dat deze aanpak in 75 tot 100 procent van de gevallen succesvol was, vaak zonder dat de prompt specifiek moest worden aangepast. Daarmee is duidelijk dat uitsluitend vertrouwen op interne alignments en weigertokens een zwakke strategie is: vastberaden aanvallers kunnen de beschermlagen omzeilen.
Verborgen boodschappen in afbeeldingen
Een ander kwetsbaar punt zit in het verwerken van afbeeldingen. In experimenten bleek dat modellen opdrachten konden “zien” die voor mensen verborgen bleven. Dit werkte doordat verkleinde versies van een afbeelding subtiele kleurverschillen toonden die bij volledige resolutie onzichtbaar waren.
In een demonstratie werd bijvoorbeeld tekst zichtbaar gemaakt wanneer een afbeelding door het model werd geschaald. Het commando luidde om agenda-afspraken van een gebruiker op te vragen en door te sturen. Het model interpreteerde dit als legitieme instructie en voerde het uit.
Omdat verschillende modellen verschillende algoritmes gebruiken om afbeeldingen te verkleinen, moet een aanval per platform worden afgestemd. Maar in de praktijk bleek de methode breed toepasbaar op uiteenlopende interfaces en applicaties. Dit betekent dat beeldmateriaal — vaak gedacht onschuldig te zijn — een vector voor datalekken kan vormen.
Kwetsbare interfaces en slechte UX
Naast verborgen instructies in afbeeldingen wijzen onderzoekers ook op een “giftige combinatie” van prompt-injectie, gebrekkige inputvalidatie en slecht ontworpen gebruikersinterfaces. Deze factoren samen maken het mogelijk dat gevaarlijke commando’s ongemerkt worden uitgevoerd, zonder waarschuwing aan de gebruiker.
Beveiliging als sluitpost
Volgens experts komt dit alles voort uit een fundamenteel misverstand over hoe AI-systemen werken. Beveiligingsmaatregelen worden vaak achteraf toegevoegd, terwijl de technologie zelf voortdurend verandert en dus moeilijk met vaste controles te beveiligen is.
Een ander probleem is dat verreweg de meeste modellen primair in het Engels getraind zijn. Bij gebruik in andere talen vallen belangrijke contextuele signalen weg, waardoor de kans op misbruik groter wordt. Taal wordt zo zelf een aanvalsmiddel waar de huidige beveiligingspraktijk niet goed op is ingericht.
“Insecure by design”
Veel AI-systemen zijn feitelijk “insecure by design”: ze zijn gebouwd met zwakke of omslachtige veiligheidslagen, terwijl er enorme hoeveelheden ruwe data zijn ingestopt. Dat maakt de modellen krachtig, maar ook ondoorzichtig en moeilijk schoon te houden.
Een treffende metafoor beschrijft een LLM als een vuilnisberg die met een laag sneeuw is bedekt om er een skiberg van te maken: op het eerste gezicht bruikbaar en leuk, maar onder de oppervlakte broeit rotzooi die vroeg of laat weer naar boven komt.
De huidige golf aan ontdekte kwetsbaarheden is daar slechts een voorproefje van. Sommige aanvallen zullen daadwerkelijk leiden tot datalekken, misbruik of maatschappelijke schade. Het feit dat dit mogelijk is door iets simpels als slechte grammatica of een subtiel verkleinde afbeelding, toont hoe broos de beveiliging van veel AI-systemen op dit moment nog is.
Door: Drifter
Aanbevolen Reacties
Er zijn geen reacties om weer te geven.
Log in om te reageren
Je kunt een reactie achterlaten na het inloggen
Login met de gegevens die u gebruikt bij softtrack