Cisco scopre che i modelli di intelligenza artificiale open-weight sono facili da sfruttare nelle lunghe chat

Quando le aziende aprono le porte ai loro modelli di intelligenza artificiale , spesso ne consegue innovazione. Ma secondo una nuova ricerca di Cisco, lo stesso vale per gli aggressori. In uno studio completo pubblicato questa settimana, Cisco AI Threat Research ha scoperto che i modelli open-weight, quelli con parametri liberamente disponibili, sono altamente vulnerabili alla manipolazione avversaria, soprattutto durante le interazioni più lunghe con l'utente.
Per vostra informazione, un modello open-weight è un tipo di modello di intelligenza artificiale in cui i parametri addestrati (i "pesi") sono resi pubblici. Questi pesi sono ciò che conferisce al modello le capacità apprese; definiscono il modo in cui elabora il linguaggio, genera testo o esegue altre attività dopo l'addestramento.
Il rapporto, intitolato "Death by a Thousand Prompts: Open Model Vulnerability Analysis" , ha analizzato otto importanti modelli linguistici open-weight e ha scoperto che gli attacchi multi-turn, in cui un aggressore interagisce con il modello in più fasi della conversazione, sono stati fino a dieci volte più efficaci dei tentativi one-shot. Il tasso di successo più elevato ha raggiunto un sorprendente 92,78% sul modello Large-2 di Mistral, mentre il Qwen3-32B di Alibaba non è stato molto indietro, con l'86,18%.

I ricercatori di Cisco hanno spiegato che gli aggressori possono creare un rapporto di fiducia con il modello attraverso una serie di scambi innocui, per poi indirizzarlo lentamente verso la produzione di output non consentiti o dannosi. Questa graduale escalation spesso sfugge ai tipici sistemi di moderazione, progettati per interazioni a turno singolo.
Il rapporto attribuisce questo problema a una falla semplice ma pericolosa, che include modelli che faticano a mantenere il contesto di sicurezza nel tempo. Una volta che un avversario impara a riformulare o reindirizzare le proprie query, molti di questi sistemi perdono di vista i precedenti vincoli di sicurezza.
I ricercatori hanno osservato che questo comportamento consentiva ai modelli di generare contenuti riservati, rivelare dati sensibili o creare codice dannoso senza far scattare alcuna misura di sicurezza interna.
Tuttavia, non tutti i modelli hanno avuto lo stesso rendimento. I dati di Cisco hanno mostrato che le strategie di allineamento, con cui gli sviluppatori addestrano un modello a seguire le regole, hanno giocato un ruolo importante nelle prestazioni di sicurezza. Modelli come Gemma-3-1B-IT di Google, che si concentrano fortemente sulla sicurezza durante l'allineamento, hanno mostrato tassi di successo degli attacchi multi-turn inferiori, intorno al 25%.
D'altro canto, modelli basati sulle capacità come Llama 3.3 e Qwen3-32B, che danno priorità a funzionalità più ampie, si sono dimostrati molto più facili da manipolare quando una conversazione si è estesa oltre pochi scambi.
In totale, Cisco ha valutato 102 diverse sotto-minacce e ha scoperto che le prime quindici rappresentavano le violazioni più frequenti e gravi. Tra queste, manipolazione, disinformazione e generazione di codice dannoso, tutte minacce che potrebbero portare a perdite di dati o abusi se integrate in strumenti rivolti al cliente come chatbot o assistenti virtuali.

I ricercatori dell'azienda hanno utilizzato la loro piattaforma proprietaria di convalida AI per eseguire test algoritmici automatizzati su tutti i modelli, simulando attacchi avversari sia a singolo turno che a più turni. Ogni modello è stato trattato come una scatola nera, il che significa che durante i test non sono state utilizzate informazioni riservate sui sistemi di sicurezza o sull'architettura. Ciononostante, il team ha ottenuto elevati tassi di successo degli attacchi su quasi tutti i modelli testati.
"In tutti i modelli, gli attacchi jailbreak multi-turn si sono dimostrati altamente efficaci, con percentuali di successo che hanno raggiunto il 92,78%. Il netto aumento della vulnerabilità da un singolo turno a quella multi-turn dimostra come i modelli facciano fatica a mantenere i limiti di sicurezza durante conversazioni più lunghe."
– Amy Chang (autore principale), Nicholas Conley (coautore), Harish Santhanalakshmi Ganesan e Adam Swanda, Cisco AI Threat Research & Security
Le scoperte di Cisco potrebbero essere recenti, ma la preoccupazione in sé non lo è. Gli esperti di sicurezza avvertono da tempo che i modelli di intelligenza artificiale open-weight possono essere facilmente modificati in versioni non sicure. La possibilità di ottimizzare questi sistemi in modo così libero offre agli aggressori un modo per eliminare le misure di sicurezza integrate e riutilizzarle per scopi dannosi.
Poiché i pesi sono accessibili al pubblico, chiunque può riaddestrare il modello con obiettivi dannosi, sia per indebolirne i limiti, sia per indurlo a produrre contenuti che i modelli chiusi rifiuterebbero.
Alcuni modelli di intelligenza artificiale open-weight ben noti includono:
- Meta Llama 3 e Llama 3.3 : rilasciati da Meta per la ricerca e l'uso commerciale, ampiamente utilizzati come base per chatbot personalizzati e assistenti di programmazione.
- Mistral 7B e Mistral Large-2 (chiamato anche Large-Instruct-2047) – di Mistral AI, noti per le elevate prestazioni e le licenze permissive.
- Alibaba Qwen 2 e Qwen 3 : da Alibaba Cloud, ottimizzati per attività e codifica multilingue.
- Google Gemma 2 e Gemma 3-1B-IT : modelli open-weight più piccoli, progettati per applicazioni incentrate sulla sicurezza.
- Microsoft Phi-3 e Phi-4 : modelli compatti che mettono in risalto ragionamento ed efficienza.
- Zhipu AI GLM-4 e GLM-4.5-Air : grandi modelli bilingue molto diffusi nell'ecosistema dell'intelligenza artificiale cinese.
- DeepSeek V3.1 : modello open-weight di DeepSeek AI progettato per attività di ricerca e ingegneria.
- Falcon 180B e Falcon 40B : sviluppati dal Technology Innovation Institute (TII) negli Emirati Arabi Uniti.
- Mixtral 8x7B : un modello aperto di mix di esperti, anch'esso di Mistral AI.
- OpenAI GPT-OSS-20B – Modello di ricerca open source limitato di OpenAI utilizzato per la valutazione e il benchmarking.
Il rapporto non chiede la fine dello sviluppo open-weight, ma sostiene la responsabilità. Cisco esorta i laboratori di intelligenza artificiale a rendere più difficile la rimozione dei controlli di sicurezza integrati durante la messa a punto e consiglia alle organizzazioni di adottare un approccio che dia priorità alla sicurezza durante l'implementazione di questi sistemi. Ciò significa aggiungere barriere di sicurezza contestuali, monitoraggio in tempo reale e test di red-teaming continui per individuare i punti deboli prima che possano essere sfruttati in modo improprio.
La ricerca di Cisco ha inoltre scoperto che gli aggressori tendono a utilizzare le stesse tattiche di manipolazione che funzionano sulle persone. Metodi come il gioco di ruolo, la sottile depistaggio e l'escalation graduale si sono dimostrati particolarmente efficaci, dimostrando come le tecniche di ingegneria sociale possano facilmente essere trasferite alle interazioni con l'intelligenza artificiale e alla manipolazione immediata. Ciascuno di questi modelli è dotato di pesi addestrati disponibili per il download, consentendo agli sviluppatori di eseguirli sui propri sistemi o di adattarli a compiti e progetti specifici.
Tuttavia, il rapporto di Cisco specifica che la protezione dei modelli di intelligenza artificiale dovrebbe essere trattata come qualsiasi altro lavoro di sicurezza software. Richiede test costanti, protezione e comunicazione sui rischi connessi.
Il rapporto completo è disponibile qui su arXiv (PDF).
(Immagine di T Hansen da Pixabay)
HackRead



