LegalPwn-aanval misleidt GenAI-tools door malware verkeerd te classificeren als veilige code

Onderzoekers van Pangea Labs, een AI-beveiligingsbedrijf, hebben een nieuwe en unieke cyberaanval ontdekt, genaamd LegalPwn. Deze aanval maakt gebruik van een fout in de programmering van belangrijke generatieve AI- tools en slaagt erin deze te misleiden zodat ze gevaarlijke malware als veilige code classificeren.
Uit het onderzoek, dat gedeeld werd met Hackread.com, blijkt dat deze AI-modellen, die getraind zijn om juridisch klinkende teksten te respecteren, gemanipuleerd kunnen worden door middel van social engineering.
De LegalPwn-techniek werkt door schadelijke code te verbergen in valse juridische disclaimers. Volgens het onderzoek werden twaalf belangrijke AI-modellen getest en bleken de meeste vatbaar voor deze vorm van social engineering. De onderzoekers hebben met succes modellen geëxploiteerd in zes verschillende juridische contexten, waaronder de volgende:
- Juridische disclaimers
- Nalevingsmandaten
- Vertrouwelijkheidsverklaringen
- Schendingen van de servicevoorwaarden
- Kennisgevingen van schending van het auteursrecht
- Beperkingen in de licentieovereenkomst
De aanval wordt beschouwd als een vorm van promptinjectie, waarbij kwaadaardige instructies worden opgesteld om het gedrag van een AI te manipuleren. Hackread.com observeerde onlangs een vergelijkbare trend bij de Man in the Prompt-aanval, waarbij kwaadaardige browserextensies kunnen worden gebruikt om verborgen prompts te injecteren in tools zoals ChatGPT en Gemini, een bevinding uit onderzoek van LayerX.
De bevindingen (pdf) zijn niet zomaar theoretische labexperimenten; ze hebben invloed op de ontwikkeltools die dagelijks door miljoenen mensen worden gebruikt. Zo ontdekte Pangea Labs dat Google's Gemini CLI, een opdrachtregelinterface, werd misleid om een gebruiker aan te bevelen een reverse shell uit te voeren, een type schadelijke code dat een aanvaller externe toegang geeft tot een computer op hun systeem. Op dezelfde manier werd GitHub Copilot misleid om code met een reverse shell ten onrechte te identificeren als een eenvoudige rekenmachine, terwijl deze verborgen zat in een valse copyrightvermelding .
LegalPwn-aanvallen werden ook getest in live-omgevingen, inclusief tools zoals Gemini-Cli. In deze praktijkscenario's omzeilde de injectie met succes de AI-gestuurde beveiligingsanalyse, waardoor het systeem de schadelijke code ten onrechte als veilig classificeerde.
Pangea Labs
Uit het onderzoek bleek dat modellen van vooraanstaande bedrijven allemaal kwetsbaar zijn voor deze aanval. Hieronder vallen onder meer:
- xAI's Grok
- Google's Gemini
- Meta's Lama 3.3
- OpenAI's ChatGPT 4.1 en 4o.
Sommige modellen vertoonden echter sterke weerstand, zoals Anthropic's Claude 3.5 Sonnet en Microsoft's Phi 4. De onderzoekers merkten op dat de LegalPwn-techniek zelfs met expliciete beveiligingsmeldingen, ontworpen om de AI bewust te maken van bedreigingen, in sommige gevallen toch succesvol was.

Het Pangea-onderzoek benadrukt een kritieke beveiligingslacune in AI-systemen. In alle testscenario's bleek dat menselijke beveiligingsanalisten de kwaadaardige code consistent en correct identificeerden, terwijl de AI-modellen , zelfs met beveiligingsinstructies, dit niet deden wanneer de malware in juridisch ogende tekst was verpakt.
De onderzoekers concludeerden dat organisaties niet uitsluitend moeten vertrouwen op geautomatiseerde AI-beveiligingsanalyses . Ze benadrukten de noodzaak van menselijk toezicht om de integriteit en veiligheid te waarborgen van systemen die steeds meer afhankelijk zijn van AI.
Om zich tegen deze nieuwe bedreiging te beschermen, adviseert Pangea bedrijven om een beoordelingsproces met menselijke betrokkenheid te implementeren voor alle AI-ondersteunde beveiligingsbeslissingen , specifieke AI-beveiligingsmaatregelen te implementeren die zijn ontworpen om snelle injectiepogingen te detecteren en volledig geautomatiseerde AI-beveiligingsworkflows in live-omgevingen te vermijden.
HackRead