Cisco descubre que los modelos de IA de peso abierto son fáciles de explotar en chats largos.

Cuando las empresas abren las puertas de sus modelos de IA , a menudo surge la innovación. Pero según una nueva investigación de Cisco, también lo hacen los atacantes. En un estudio exhaustivo publicado esta semana, Cisco AI Threat Research descubrió que los modelos de pesos abiertos, aquellos con parámetros disponibles libremente, son altamente vulnerables a la manipulación maliciosa, especialmente durante interacciones prolongadas con el usuario.
Para su información, un modelo de pesos abiertos es un tipo de modelo de IA cuyos parámetros de entrenamiento (los «pesos») se publican. Estos pesos son los que confieren al modelo sus capacidades aprendidas; definen cómo procesa el lenguaje, genera texto o realiza otras tareas tras el entrenamiento.
El informe, titulado «Muerte por mil preguntas: Análisis de vulnerabilidades de modelos abiertos» , analizó ocho de los principales modelos de lenguaje de peso abierto y descubrió que los ataques de múltiples turnos, en los que un atacante interactúa con el modelo a lo largo de varias etapas conversacionales, eran hasta diez veces más efectivos que los intentos de un solo turno. La tasa de éxito más alta alcanzó un asombroso 92,78 % en el modelo Large-2 de Mistral, mientras que el Qwen3-32B de Alibaba no se quedó atrás con un 86,18 %.

Los investigadores de Cisco explicaron que los atacantes pueden ganarse la confianza del modelo mediante una serie de intercambios inofensivos, para luego dirigirlo gradualmente hacia la generación de resultados no permitidos o dañinos. Esta escalada gradual suele eludir los sistemas de moderación típicos, diseñados para interacciones puntuales.
El informe atribuye este problema a una falla simple pero peligrosa: modelos que tienen dificultades para mantener el contexto de seguridad a lo largo del tiempo. Una vez que un atacante aprende a reformular o redirigir sus consultas, muchos de estos sistemas pierden el rastro de las restricciones de seguridad previas.
Los investigadores observaron que este comportamiento permitía a los modelos generar contenido restringido, revelar datos confidenciales o crear código malicioso sin activar ninguna medida de seguridad interna.
Sin embargo, no todos los modelos obtuvieron los mismos resultados. Los datos de Cisco mostraron que las estrategias de alineación —el método que utilizan los desarrolladores para entrenar un modelo a seguir reglas— influyeron considerablemente en el rendimiento de seguridad. Modelos como Gemma-3-1B-IT de Google, que priorizan la seguridad durante la alineación, mostraron tasas de éxito en ataques de múltiples turnos más bajas, en torno al 25 %.
Por otra parte, los modelos basados en capacidades como Llama 3.3 y Qwen3-32B, que priorizan una funcionalidad amplia, demostraron ser mucho más fáciles de manipular una vez que una conversación se extendía más allá de unos pocos intercambios.
En total, Cisco evaluó 102 subamenazas diferentes y descubrió que las quince principales eran responsables de las brechas de seguridad más frecuentes y graves. Estas incluían manipulación, desinformación y generación de código malicioso, todo lo cual podría provocar fugas de datos o su uso indebido al integrarse en herramientas de atención al cliente como chatbots o asistentes virtuales.

Los investigadores de la empresa utilizaron su plataforma patentada de validación de IA para ejecutar pruebas algorítmicas automatizadas en todos los modelos, simulando ataques adversarios tanto de un solo turno como de varios. Cada modelo se trató como una caja negra, lo que significa que no se utilizó información interna sobre los sistemas de seguridad ni la arquitectura durante las pruebas. A pesar de ello, el equipo logró altas tasas de éxito en los ataques en prácticamente todos los modelos probados.
“En todos los modelos, los ataques de jailbreak de múltiples turnos demostraron ser altamente efectivos, con tasas de éxito que alcanzaron el 92,78 por ciento. El fuerte aumento de la vulnerabilidad de un solo turno a la de múltiples turnos muestra cómo los modelos tienen dificultades para mantener las medidas de seguridad en conversaciones más largas.”
– Amy Chang (Autora principal), Nicholas Conley (Coautor), Harish Santhanalakshmi Ganesan y Adam Swanda, Investigación y Seguridad de Amenazas de IA de Cisco
Los hallazgos de Cisco son recientes, pero la preocupación en sí no lo es. Los expertos en seguridad llevan tiempo advirtiendo que los modelos de IA de peso abierto pueden alterarse fácilmente y convertirse en versiones inseguras. La capacidad de ajustar estos sistemas con tanta libertad permite a los atacantes eliminar las medidas de seguridad integradas y reutilizarlas con fines maliciosos.
Dado que los pesos son de acceso público, cualquiera puede reentrenar el modelo con objetivos maliciosos, ya sea para debilitar sus medidas de seguridad o para engañarlo y que produzca contenido que los modelos cerrados rechazarían.
Algunos modelos de IA de peso abierto bien conocidos incluyen:
- Meta Llama 3 y Llama 3.3 – lanzadas por Meta para investigación y uso comercial, ampliamente utilizadas como base para chatbots personalizados y asistentes de codificación.
- Mistral 7B y Mistral Large-2 (también llamado Large-Instruct-2047) – de Mistral AI, conocida por su alto rendimiento y licencia permisiva.
- Alibaba Qwen 2 y Qwen 3 – de Alibaba Cloud, optimizadas para tareas multilingües y codificación.
- Google Gemma 2 y Gemma 3-1B-IT : modelos más pequeños de peso abierto diseñados para aplicaciones centradas en la seguridad.
- Microsoft Phi-3 y Phi-4 : modelos compactos que enfatizan el razonamiento y la eficiencia.
- Zhipu AI GLM-4 y GLM-4.5-Air : modelos bilingües grandes populares en todo el ecosistema de IA de China.
- DeepSeek V3.1 – modelo de peso abierto de DeepSeek AI diseñado para tareas de investigación e ingeniería.
- Falcon 180B y Falcon 40B – desarrollados por el Instituto de Innovación Tecnológica (TII) en los Emiratos Árabes Unidos.
- Mixtral 8x7B – un modelo abierto de mezcla de expertos también de Mistral AI.
- OpenAI GPT-OSS-20B – Modelo de investigación de código abierto limitado de OpenAI utilizado para evaluación y comparación.
El informe no aboga por el fin del desarrollo de software de código abierto, sino por la responsabilidad. Cisco insta a los laboratorios de IA a dificultar la eliminación de los controles de seguridad integrados durante el ajuste fino y aconseja a las organizaciones que prioricen la seguridad al implementar estos sistemas. Esto implica añadir medidas de seguridad contextuales, monitorización en tiempo real y pruebas de penetración continuas para detectar vulnerabilidades antes de que puedan ser explotadas.
La investigación de Cisco también reveló que los atacantes suelen emplear las mismas tácticas de manipulación que funcionan con las personas. Métodos como la simulación de roles, la desinformación sutil y la escalada gradual demostraron ser especialmente eficaces, lo que evidencia cómo las técnicas de ingeniería social pueden trasladarse fácilmente a las interacciones con la IA y propiciar la manipulación. Cada uno de estos modelos incluye sus pesos de entrenamiento disponibles para su descarga, lo que permite a los desarrolladores ejecutarlos en sus propios sistemas o adaptarlos a tareas y proyectos específicos.
No obstante, el informe de Cisco detalla que la protección de los modelos de IA debe tratarse como cualquier otra tarea de seguridad de software. Requiere pruebas constantes, protección continua y comunicación sobre los riesgos implicados.
El informe completo está disponible aquí en arXiv (PDF).
(Imagen de T Hansen de Pixabay)
HackRead



