Cisco vindt open-gewicht AI-modellen gemakkelijk te gebruiken in lange chats

Wanneer bedrijven hun AI-modellen openstellen, volgt vaak innovatie. Maar volgens nieuw onderzoek van Cisco doen aanvallers dat ook. In een uitgebreide studie die deze week werd gepubliceerd, concludeerde Cisco AI Threat Research dat open-weight-modellen, modellen met vrij beschikbare parameters, zeer kwetsbaar zijn voor manipulatie door tegenstanders, vooral tijdens langere gebruikersinteracties.
Ter informatie: een open-gewichtmodel is een type AI-model waarbij de getrainde parameters (de "gewichten") openbaar worden gemaakt. Deze gewichten geven het model zijn geleerde vaardigheden; ze bepalen hoe het taal verwerkt, tekst genereert of andere taken uitvoert na training.
Het rapport, getiteld Death by a Thousand Prompts: Open Model Vulnerability Analysis , analyseerde acht toonaangevende open-weight taalmodellen en ontdekte dat multi-turn-aanvallen, waarbij een aanvaller het model gedurende meerdere conversatiestappen aanvalt, tot tien keer effectiever waren dan one-shot-aanvallen. Het hoogste succespercentage bereikte een verbluffende 92,78% op Mistrals Large-2-model, terwijl Alibaba's Qwen3-32B met 86,18% niet ver achterbleef.

Onderzoekers van Cisco legden uit dat aanvallers vertrouwen in het model kunnen opbouwen door een reeks onschadelijke uitwisselingen, en het vervolgens langzaam kunnen sturen naar het produceren van ongewenste of schadelijke output. Deze geleidelijke escalatie ontgaat vaak typische moderatiesystemen, die ontworpen zijn voor interacties met één beurt.
Het rapport schrijft dit probleem toe aan een simpele maar gevaarlijke fout, waaronder modellen die moeite hebben om de veiligheidscontext in de loop van de tijd te behouden. Zodra een tegenstander leert hoe hij zijn vragen kan herformuleren of omleiden, verliezen veel van deze systemen eerdere veiligheidsbeperkingen uit het oog.
De onderzoekers stelden vast dat modellen door dit gedrag beperkte inhoud konden genereren, gevoelige gegevens konden onthullen of schadelijke code konden creëren zonder dat interne beveiligingen werden omzeild.
Niet alle modellen presteerden echter even goed. Cisco's data toonde aan dat afstemmingsstrategieën, waarmee ontwikkelaars een model trainen om regels te volgen, een grote rol speelden in de beveiligingsprestaties. Modellen zoals Google's Gemma-3-1B-IT, die sterk gericht zijn op veiligheid tijdens afstemming, lieten een lager succespercentage van multi-turn-aanvallen zien van ongeveer 25%.
Aan de andere kant bleken op capaciteiten gebaseerde modellen zoals Llama 3.3 en Qwen3-32B, die prioriteit geven aan brede functionaliteit, veel gemakkelijker te manipuleren zodra een gesprek verder ging dan een paar uitwisselingen.
In totaal evalueerde Cisco 102 verschillende subbedreigingen en ontdekte dat de top vijftien de meest voorkomende en ernstige inbreuken vertegenwoordigde. Deze omvatten manipulatie, desinformatie en het genereren van schadelijke code, die allemaal kunnen leiden tot datalekken of misbruik wanneer ze worden geïntegreerd in klantgerichte tools zoals chatbots of virtuele assistenten.

De onderzoekers van het bedrijf gebruikten hun eigen AI-validatieplatform om geautomatiseerde, algoritmische tests uit te voeren op alle modellen, waarbij zowel single-turn als multi-turn aanvallen werden gesimuleerd. Elk model werd behandeld als een black box, wat betekent dat er geen insiderinformatie over veiligheidssystemen of architectuur werd gebruikt tijdens de tests. Desondanks behaalde het team hoge succespercentages voor aanvallen op vrijwel elk getest model.
In alle modellen bleken multi-turn jailbreak-aanvallen zeer effectief, met een succespercentage van 92,78 procent. De sterke stijging van kwetsbaarheid bij één enkele turn naar kwetsbaarheid bij meerdere turn laat zien hoe modellen moeite hebben om de veiligheidsvoorzieningen te handhaven tijdens langere gesprekken.
– Amy Chang (hoofdauteur), Nicholas Conley (co-auteur), Harish Santhanalakshmi Ganesan en Adam Swanda, Cisco AI Threat Research & Security
De bevindingen van Cisco zijn misschien recent, maar de zorg zelf is dat niet. Beveiligingsexperts waarschuwen al lang dat open AI-modellen gemakkelijk kunnen worden omgebouwd tot onveilige versies. De mogelijkheid om deze systemen zo vrijelijk te finetunen, geeft aanvallers de mogelijkheid om ingebouwde beveiligingen te verwijderen en ze opnieuw te gebruiken voor schadelijk gebruik.
Omdat de gewichten openbaar toegankelijk zijn, kan iedereen het model opnieuw trainen met kwaadaardige doeleinden, bijvoorbeeld om de beveiliging ervan te verzwakken of om het model ertoe te verleiden content te produceren die gesloten modellen zouden afwijzen.
Enkele bekende open-gewicht AI-modellen zijn:
- Meta Llama 3 en Llama 3.3 – uitgebracht door Meta voor onderzoek en commercieel gebruik, veel gebruikt als basis voor aangepaste chatbots en codeerassistenten.
- Mistral 7B en Mistral Large-2 (ook wel Large-Instruct-2047 genoemd) – van Mistral AI, bekend om zijn hoge prestaties en permissieve licenties.
- Alibaba Qwen 2 en Qwen 3 – van Alibaba Cloud, geoptimaliseerd voor meertalige taken en codering.
- Google Gemma 2 en Gemma 3-1B-IT – kleinere, open-gewicht modellen, gebouwd voor veiligheidsgerichte toepassingen.
- Microsoft Phi-3 en Phi-4 – compacte modellen met de nadruk op redeneren en efficiëntie.
- Zhipu AI GLM-4 en GLM-4.5-Air – grote tweetalige modellen die populair zijn in het Chinese AI-ecosysteem.
- DeepSeek V3.1 – open-gewichtmodel van DeepSeek AI, ontworpen voor onderzoeks- en technische taken.
- Falcon 180B en Falcon 40B – ontwikkeld door het Technology Innovation Institute (TII) in de VAE.
- Mixtral 8x7B – een open model voor de mix van experts, eveneens van Mistral AI.
- OpenAI GPT-OSS-20B – OpenAI's beperkte open-source onderzoeksmodel dat wordt gebruikt voor evaluatie en benchmarking.
Het rapport roept niet op tot een einde aan de ontwikkeling van open-weight-systemen, maar pleit voor verantwoordelijkheid. Cisco dringt er bij AI-labs op aan om het moeilijker te maken voor mensen om ingebouwde veiligheidscontroles te verwijderen tijdens de finetuning en adviseert organisaties om een security-first-aanpak te hanteren bij de implementatie van deze systemen. Dit betekent het toevoegen van contextbewuste guardrails, realtime monitoring en doorlopende red-teaming-tests om zwakke plekken te ontdekken voordat ze kunnen worden misbruikt.
Uit Cisco's onderzoek bleek ook dat aanvallers vaak dezelfde manipulatietactieken gebruiken als mensen. Methoden zoals rollenspellen, subtiele misleiding en geleidelijke escalatie bleken bijzonder effectief en laten zien hoe social engineering-technieken gemakkelijk kunnen worden toegepast op AI-interacties en directe manipulatie. Elk van deze modellen beschikt over een aantal getrainde gewichten die kunnen worden gedownload, zodat ontwikkelaars ze op hun eigen systemen kunnen gebruiken of kunnen aanpassen voor specifieke taken en projecten.
Niettemin geeft Cisco's rapport aan dat het beschermen van AI-modellen net zo behandeld moet worden als elke andere softwarebeveiligingstaak. Het vereist voortdurend testen, beschermen en communiceren over de betrokken risico's.
Het volledige rapport is hier op arXiv beschikbaar (PDF).
(Afbeelding van T Hansen via Pixabay)
HackRead



