Cisco découvre que les modèles d'IA à poids ouvert sont faciles à exploiter dans les longues conversations.

Lorsque les entreprises rendent leurs modèles d'IA accessibles, l'innovation est souvent au rendez-vous. Mais selon une nouvelle étude de Cisco, les attaquants aussi. Dans une étude exhaustive publiée cette semaine, Cisco AI Threat Research a constaté que les modèles à pondération ouverte, c'est-à-dire ceux dont les paramètres sont librement accessibles, sont particulièrement vulnérables à la manipulation par des adversaires, notamment lors d'interactions utilisateur prolongées.
Pour information, un modèle à poids ouverts est un type de modèle d'IA dont les paramètres entraînés (les « poids ») sont rendus publics. Ce sont ces poids qui confèrent au modèle ses capacités acquises ; ils définissent comment il traite le langage, génère du texte ou effectue d'autres tâches après l'entraînement.
Le rapport, intitulé « Mort par mille sollicitations : Analyse des vulnérabilités des modèles ouverts » , a analysé huit modèles de langage ouverts de pointe et a constaté que les attaques multi-tours, où un attaquant interagit avec le modèle sur plusieurs étapes de la conversation, étaient jusqu'à dix fois plus efficaces que les tentatives ponctuelles. Le taux de réussite le plus élevé a atteint un impressionnant 92,78 % sur le modèle Large-2 de Mistral, tandis que le modèle Qwen3-32B d'Alibaba n'était pas loin derrière avec 86,18 %.

Les chercheurs de Cisco ont expliqué que les attaquants peuvent gagner la confiance du modèle par une série d'échanges anodins, puis l'orienter progressivement vers la production de résultats interdits ou malveillants. Cette escalade graduelle échappe souvent aux systèmes de modération classiques, conçus pour des interactions ponctuelles.
Le rapport attribue ce problème à une faille simple mais dangereuse, notamment à des modèles qui peinent à maintenir le contexte de sécurité au fil du temps. Dès qu'un adversaire apprend à reformuler ou à rediriger ses requêtes, nombre de ces systèmes perdent la trace des contraintes de sécurité antérieures.
Les chercheurs ont observé que ce comportement permettait aux modèles de générer du contenu restreint, de révéler des données sensibles ou de créer du code malveillant sans déclencher aucune protection interne.
Cependant, tous les modèles n'ont pas obtenu les mêmes résultats. Les données de Cisco ont montré que les stratégies d'alignement, c'est-à-dire la manière dont les développeurs entraînent un modèle à suivre des règles, jouent un rôle important dans la performance en matière de sécurité. Les modèles comme Gemma-3-1B-IT de Google, qui mettent l'accent sur la sécurité lors de l'alignement, ont affiché des taux de réussite des attaques à plusieurs tours plus faibles, de l'ordre de 25 %.
En revanche, les modèles axés sur les capacités tels que Llama 3.3 et Qwen3-32B, qui privilégient une large fonctionnalité, se sont avérés beaucoup plus faciles à manipuler une fois qu'une conversation s'étendait au-delà de quelques échanges.
Au total, Cisco a évalué 102 sous-menaces différentes et a constaté que les quinze principales étaient responsables des violations les plus fréquentes et les plus graves. Il s'agissait notamment de manipulation, de désinformation et de génération de code malveillant, autant d'éléments susceptibles d'entraîner des fuites de données ou une utilisation abusive lorsqu'ils sont intégrés à des outils destinés aux clients, tels que les chatbots ou les assistants virtuels.

Les chercheurs de l'entreprise ont utilisé leur plateforme propriétaire de validation par IA pour exécuter des tests algorithmiques automatisés sur tous les modèles, simulant des attaques adverses à un ou plusieurs tours. Chaque modèle a été traité comme une boîte noire, c'est-à-dire qu'aucune information interne concernant les systèmes de sécurité ou l'architecture n'a été utilisée lors des tests. Malgré cela, l'équipe a obtenu des taux de réussite d'attaque élevés sur la quasi-totalité des modèles testés.
« Sur tous les modèles, les attaques de jailbreak à plusieurs tours se sont révélées très efficaces, avec des taux de réussite atteignant 92,78 %. La forte augmentation de la vulnérabilité entre un seul tour et plusieurs tours montre à quel point les modèles peinent à maintenir des garde-fous de sécurité lors de conversations plus longues. »
– Amy Chang (auteure principale), Nicholas Conley (co-auteur), Harish Santhanalakshmi Ganesan et Adam Swanda, Cisco AI Threat Research & Security
Les conclusions de Cisco sont peut-être récentes, mais le problème de fond ne l'est pas. Les experts en sécurité alertent depuis longtemps sur la facilité avec laquelle les modèles d'IA à poids ouvert peuvent être transformés en versions non sécurisées. La possibilité de paramétrer ces systèmes avec une telle liberté offre aux attaquants un moyen de contourner les protections intégrées et de les détourner à des fins malveillantes.
Comme les poids sont accessibles au public, n'importe qui peut réentraîner le modèle avec des intentions malveillantes, soit pour affaiblir ses garde-fous , soit pour le tromper afin qu'il produise un contenu que les modèles fermés rejetteraient.
Voici quelques modèles d'IA à poids ouvert bien connus :
- Meta Llama 3 et Llama 3.3 – publiés par Meta pour la recherche et l'utilisation commerciale, largement utilisés comme base pour les chatbots personnalisés et les assistants de codage.
- Mistral 7B et Mistral Large-2 (également appelé Large-Instruct-2047) – de Mistral AI, connu pour ses hautes performances et sa licence permissive.
- Alibaba Qwen 2 et Qwen 3 – d'Alibaba Cloud, optimisés pour les tâches multilingues et le codage.
- Google Gemma 2 et Gemma 3-1B-IT – des modèles plus petits et à poids ouvert conçus pour des applications axées sur la sécurité.
- Microsoft Phi-3 et Phi-4 – des modèles compacts mettant l'accent sur le raisonnement et l'efficacité.
- Zhipu AI GLM-4 et GLM-4.5-Air – grands modèles bilingues populaires dans l'écosystème de l'IA en Chine.
- DeepSeek V3.1 – modèle à poids ouvert de DeepSeek AI conçu pour les tâches de recherche et d'ingénierie.
- Falcon 180B et Falcon 40B – développés par le Technology Innovation Institute (TII) aux Émirats arabes unis.
- Mixtral 8x7B – un modèle ouvert de mélange d'experts également de Mistral AI.
- OpenAI GPT-OSS-20B – Modèle de recherche open-source limité d'OpenAI utilisé pour l'évaluation et l'analyse comparative.
Le rapport ne préconise pas l'arrêt du développement open-weight, mais insiste sur la nécessité d'une plus grande responsabilité. Cisco exhorte les laboratoires d'IA à rendre plus difficile la suppression des contrôles de sécurité intégrés lors du paramétrage et conseille aux organisations d'adopter une approche axée sur la sécurité lors du déploiement de ces systèmes. Cela implique la mise en place de garde-fous contextuels, d'une surveillance en temps réel et de tests d'intrusion continus afin de détecter les failles avant qu'elles ne soient exploitées.
Les recherches de Cisco ont également révélé que les attaquants ont tendance à utiliser les mêmes tactiques de manipulation que celles qui fonctionnent sur les humains. Des méthodes telles que le jeu de rôle, la désinformation subtile et l'escalade progressive se sont avérées particulièrement efficaces, démontrant ainsi comment les techniques d'ingénierie sociale peuvent facilement s'appliquer aux interactions avec l'IA et inciter à la manipulation. Chaque modèle est fourni avec ses pondérations d'entraînement disponibles au téléchargement, permettant aux développeurs de les exécuter sur leurs propres systèmes ou de les adapter à des tâches et projets spécifiques.
Le rapport de Cisco précise néanmoins que la protection des modèles d'IA doit être traitée comme toute autre tâche de sécurité logicielle. Elle exige des tests constants, une protection renforcée et une communication permanente sur les risques encourus.
Le rapport complet est disponible ici sur arXiv (PDF).
(Image de T Hansen provenant de Pixabay)
HackRead



