De nieuwste generatie AI-modellen van bedrijven als Anthropic en OpenAI zou volgens verschillende berichten in staat zijn om softwarekwetsbaarheden op een niveau te ontdekken dat voorheen nauwelijks haalbaar was. Namen als Claude “Mythos” en GPT-5.5-Cyber circuleren inmiddels als bijna mythische systemen: modellen die in grote codebases zelfstandig beveiligingsproblemen kunnen identificeren die mogelijk jarenlang verborgen zijn gebleven.
Toch ligt de werkelijke ontwikkeling waarschijnlijk minder bij “magische supermodellen” en veel meer bij de manier waarop AI-systemen georganiseerd worden. Het Amsterdamse securitybedrijf Hadrian laat met zijn open-sourceproject OpenHack zien dat de echte doorbraak niet noodzakelijk afhankelijk is van extreem grote modellen met biljoenen parameters. De kern van de vooruitgang zit eerder in methodologie, taakverdeling, verificatie en gecontroleerde AI-workflows.
OpenHack, uitgebracht onder de MIT-licentie, is daarom interessant om een fundamentele reden: het suggereert dat moderne cybersecurity minder draait om één almachtig AI-brein, en meer om een zorgvuldig ontworpen systeem van gespecialiseerde AI-processen.
De kern van het probleem: waarom LLM’s vaak falen bij securityonderzoek
Veel mensen stellen zich AI-gestuurde kwetsbaarheidsanalyse nog steeds voor als een simpele vraag aan een chatbot:
“Bekijk deze codebase en vertel me waar de beveiligingsproblemen zitten.”
In de praktijk werkt dat slecht.
Een groot taalmodel kan namelijk wel patronen herkennen, maar securityonderzoek vereist veel meer dan patroonherkenning alleen. Het vraagt om:
- contextbegrip;
- kennis van programmeerlogica;
- inzicht in aanvalsketens;
- onderscheid tussen theoretische en daadwerkelijk exploiteerbare bugs;
- validatie van bevindingen;
- en vooral het vermijden van hallucinaties.
Dat laatste is cruciaal. Een AI-systeem dat honderd kwetsbaarheden “vindt” waarvan er uiteindelijk 95 niet bestaan, veroorzaakt enorme operationele schade. Securityteams verliezen tijd, ontwikkelaars raken overspoeld met irrelevante meldingen en echte problemen verdwijnen tussen de ruis.
Dit is precies waarom veel door AI gegenereerde bugrapporten tegenwoordig met scepsis worden bekeken, zeker binnen grote open-sourceprojecten zoals de Linux-kernel. Ontwikkelaars hebben al meermaals aangegeven dat generatieve AI vaak duplicaten, onrealistische scenario’s of compleet fictieve kwetsbaarheden produceert.
Het probleem is dus niet alleen of een model bugs kan vinden, maar of het betrouwbare, verifieerbare en bruikbare resultaten kan leveren.
Waarom Hadrian’s aanpak belangrijk is
De aanpak van Hadrian verschilt fundamenteel van de naïeve “vraag het gewoon aan een chatbot”-benadering.
In plaats van één algemene AI-agent los te laten op een volledige codebase, splitst het systeem het probleem op in meerdere gespecialiseerde fasen:
- analyse van het aanvalsoppervlak;
- identificatie van risicovolle codepaden;
- toewijzing aan gespecialiseerde AI-“experts”;
- validatie van potentiële kwetsbaarheden;
- triage door afzonderlijke beoordelingsagents;
- verdere verificatie vóór rapportage.
Dit lijkt sterk op hoe menselijke securityteams werken. Een echte penetration test bestaat immers ook niet uit één persoon die willekeurig code leest. Verschillende specialisten analyseren verschillende lagen van een systeem, waarna bevindingen worden gevalideerd voordat ze als echte kwetsbaarheid worden aangemerkt.
De belangrijke innovatie van OpenHack zit daarom niet uitsluitend in AI, maar in orkestratie: het slim organiseren van AI-processen zodat fouten systematisch worden gefilterd.
Geen afhankelijkheid van één specifiek model
Een ander belangrijk punt is dat OpenHack modelonafhankelijk werkt.
Het framework kan draaien bovenop bestaande tools zoals:
- Claude Code
- Cursor
- Codex
Dat betekent dat de methode belangrijker wordt dan het specifieke model.
Grotere modellen kunnen mogelijk:
- complexere logische ketens begrijpen;
- subtielere kwetsbaarheden ontdekken;
- minder snel context verliezen;
- beter omgaan met enorme codebases.
Maar zelfs kleinere modellen blijken verrassend effectief wanneer ze binnen een goed gecontroleerde workflow functioneren.
Dat ondermijnt een steeds populairder idee binnen de AI-sector: dat schaalvergroting automatisch de oplossing is voor alle problemen.
De obsessie met modelgrootte
De AI-industrie heeft jarenlang één dominante aanname gevolgd:
grotere modellen = intelligentere systemen.
Die strategie werkte lange tijd uitstekend. Van GPT-2 naar GPT-3, vervolgens naar GPT-4 en latere generaties zagen we enorme sprongen in capaciteit dankzij meer parameters, meer data en grotere trainingsclusters.
Toch beginnen de economische en technische grenzen zichtbaar te worden.
Volgens diverse schattingen zouden hypothetische modellen zoals “Mythos” of “GPT-5.5-Cyber” kunnen bestaan uit meerdere biljoenen parameters. Exacte cijfers zijn onbekend, maar zelfs conservatieve schattingen wijzen op ongekende infrastructuurvereisten.
Dat heeft grote gevolgen:
- extreem hoge energiekosten;
- enorme GPU-clusters;
- beperkte schaalbaarheid;
- hoge inferencekosten;
- wachttijden en capaciteitsproblemen;
- afhankelijkheid van geavanceerde datacenters.
Zelfs als zulke modellen technisch indrukwekkend zijn, betekent dat nog niet dat brede publieke toegang economisch haalbaar is.
Een kleiner model dat 80–90% van dezelfde resultaten levert tegen een fractie van de kosten is in veel situaties waardevoller.
Waarom gespecialiseerde workflows mogelijk belangrijker zijn dan “superintelligente” modellen
Wat OpenHack impliciet laat zien, is dat moderne AI-systemen steeds meer lijken op samengestelde infrastructuren in plaats van losse neurale netwerken.
Dat sluit aan bij bredere trends binnen AI-ontwikkeling:
- Mixture-of-Experts-architecturen;
- retrievalsystemen;
- tool use;
- agentic AI;
- multi-agent orchestration;
- externe geheugenlagen;
- geautomatiseerde verificatie;
- planning- en beoordelingsmodules.
Met andere woorden: de “intelligentie” van moderne AI ontstaat steeds vaker uit samenwerking tussen subsystemen.
Een enorm model alleen is niet voldoende.
Sterker nog: het is goed mogelijk dat de vermeende kracht van modellen zoals Mythos juist voortkomt uit een intern systeem van gespecialiseerde agents en verificatielagen — precies het soort structuur dat OpenHack expliciet nabootst.
In dat scenario is het model zelf minder revolutionair dan de architectuur eromheen.
Het echte gevaar: hallucinaties in cybersecurity
Binnen cybersecurity zijn hallucinaties veel gevaarlijker dan in normale chatbottoepassingen.
Een hallucinatie in een algemene chatbot leidt misschien tot een verkeerd antwoord of een onnauwkeurige samenvatting.
Een hallucinatie in securityonderzoek kan leiden tot:
- foutieve patches;
- verspilde engineeringuren;
- gemiste echte aanvallen;
- verstoring van ontwikkelprocessen;
- overbelasting van bug bounty-programma’s;
- en verlies van vertrouwen in AI-systemen.
Daarom is verificatie belangrijker dan creativiteit.
OpenHack probeert dit probleem op te lossen door:
- meerdere onafhankelijke analyses;
- gespecialiseerde agents;
- triagefasen;
- en gecontroleerde validatieprocessen.
Dat is fundamenteel anders dan simpelweg “meer intelligentie toevoegen”.
De vergelijking met de vroege ChatGPT-hype
De huidige discussie rond modellen als Mythos doet sterk denken aan de periode na de release van OpenAI’s GPT-4 in 2023.
Destijds ontstond een golf van waarschuwingen:
- AI zou gevaarlijk worden;
- menselijke arbeid vervangen;
- cyberaanvallen automatiseren;
- of zelfs existentiële risico’s veroorzaken.
Prominente figuren zoals Elon Musk en Steve Wozniak riepen zelfs op tot een tijdelijke pauze in geavanceerd AI-onderzoek.
Achteraf blijkt dat veel van die voorspellingen overdreven of verkeerd gekaderd waren. AI bleek vooral krachtig wanneer mensen er effectieve systemen omheen bouwden.
Die les lijkt zich nu opnieuw te herhalen binnen cybersecurity.
Het einde van “meer parameters lost alles op”
Steeds meer onderzoekers erkennen dat pure schaalvergroting afnemende meeropbrengsten begint te vertonen.
Grotere modellen blijven nuttig, maar leveren niet automatisch lineaire verbeteringen op.
Dat betekent dat toekomstige vooruitgang waarschijnlijk komt uit:
- betere workflows;
- efficiëntere agentarchitecturen;
- verificatiesystemen;
- gespecialiseerde tooling;
- menselijke supervisie;
- en domeinspecifieke optimalisatie.
Met andere woorden: het tijdperk waarin AI uitsluitend draaide om grotere modellen lijkt langzaam plaats te maken voor een tijdperk van systeemontwerp.
Waarom dit uiteindelijk goed nieuws kan zijn
Dat is mogelijk positief voor de bredere technologie-industrie.
Als alleen gigantische, extreem dure modellen bruikbaar zouden zijn voor geavanceerde cybersecurity, zouden slechts enkele grote bedrijven toegang hebben tot moderne verdedigingstechnieken.
Maar als kleinere modellen via slimme workflows vergelijkbare resultaten kunnen behalen, democratiseert dat beveiligingsonderzoek.
Dan kunnen:
- kleinere bedrijven;
- open-sourcegemeenschappen;
- overheidsinstanties;
- onafhankelijke onderzoekers;
- en lokale securityteams
ook profiteren van AI-ondersteunde kwetsbaarheidsanalyse. Dat verlaagt de drempel voor defensieve cybersecurity aanzienlijk.
Door: Drifter
Aanbevolen Reacties
Er zijn geen reacties om weer te geven.
Log in om te reageren
Je kunt een reactie achterlaten na het inloggen
Login met de gegevens die u gebruikt bij softtrack