A Cisco descobriu que os modelos de IA de peso aberto são fáceis de explorar em conversas longas.

Quando as empresas abrem as portas de seus modelos de IA , a inovação geralmente surge como consequência. Mas, de acordo com uma nova pesquisa da Cisco, os ataques também. Em um estudo abrangente divulgado esta semana, a Cisco AI Threat Research descobriu que os modelos de peso aberto, aqueles com parâmetros livremente disponíveis, são altamente vulneráveis à manipulação por adversários, especialmente durante interações mais longas com o usuário.
Para sua informação, um modelo de peso aberto é um tipo de modelo de IA em que os parâmetros treinados (os "pesos") são disponibilizados publicamente. Esses pesos são o que conferem ao modelo suas habilidades aprendidas; eles definem como ele processa a linguagem, gera texto ou executa outras tarefas após o treinamento.
O relatório, intitulado "Morte por Mil Prompts: Análise de Vulnerabilidades em Modelos Abertos" , analisou oito dos principais modelos de linguagem de código aberto e descobriu que ataques de múltiplas etapas, nos quais um atacante interage com o modelo em várias etapas de conversação, eram até dez vezes mais eficazes do que tentativas isoladas. A maior taxa de sucesso atingiu impressionantes 92,78% no modelo Large-2 da Mistral, enquanto o Qwen3-32B da Alibaba não ficou muito atrás, com 86,18%.

Os pesquisadores da Cisco explicaram que os atacantes podem construir confiança com o modelo por meio de uma série de trocas inofensivas e, em seguida, direcioná-lo gradualmente para a produção de resultados não permitidos ou prejudiciais. Essa escalada gradual muitas vezes passa despercebida pelos sistemas de moderação típicos, que são projetados para interações de turno único.
O relatório atribui esse problema a uma falha simples, porém perigosa, incluindo modelos que têm dificuldade em manter o contexto de segurança ao longo do tempo. Uma vez que um adversário aprende a reformular ou redirecionar suas consultas, muitos desses sistemas perdem o controle das restrições de segurança anteriores.
Os pesquisadores observaram que esse comportamento permitia que os modelos gerassem conteúdo restrito, revelassem dados sensíveis ou criassem código malicioso sem acionar quaisquer mecanismos de segurança internos.
No entanto, nem todos os modelos tiveram o mesmo desempenho. Os dados da Cisco mostraram que as estratégias de alinhamento — ou seja, como os desenvolvedores treinam um modelo para seguir regras — desempenharam um papel importante no desempenho de segurança. Modelos como o Gemma-3-1B-IT do Google, que priorizam a segurança durante o alinhamento, apresentaram taxas de sucesso em ataques de múltiplas etapas mais baixas, em torno de 25%.
Por outro lado, modelos orientados a capacidades, como o Llama 3.3 e o Qwen3-32B, que priorizam funcionalidades amplas, mostraram-se muito mais fáceis de manipular quando uma conversa se estendia além de algumas trocas de mensagens.
No total, a Cisco avaliou 102 subameaças diferentes e descobriu que as quinze principais foram responsáveis pelas violações mais frequentes e graves. Estas incluíam manipulação, desinformação e geração de código malicioso, que poderiam levar a vazamentos ou uso indevido de dados quando integradas a ferramentas voltadas para o cliente, como chatbots ou assistentes virtuais.

Os pesquisadores da empresa utilizaram sua plataforma proprietária de Validação de IA para executar testes algorítmicos automatizados em todos os modelos, simulando ataques adversários de turno único e de múltiplos turnos. Cada modelo foi tratado como uma caixa preta, ou seja, nenhuma informação interna sobre sistemas de segurança ou arquitetura foi utilizada durante os testes. Apesar disso, a equipe alcançou altas taxas de sucesso nos ataques em praticamente todos os modelos testados.
“Em todos os modelos, os ataques de jailbreak com múltiplas etapas provaram ser altamente eficazes, com taxas de sucesso atingindo 92,78%. O aumento acentuado da vulnerabilidade de etapa única para múltiplas etapas mostra como os modelos têm dificuldade em manter mecanismos de segurança em conversas mais longas.”
– Amy Chang (Autora Principal), Nicholas Conley (Coautor), Harish Santhanalakshmi Ganesan e Adam Swanda, Cisco AI Threat Research & Security
As descobertas da Cisco podem ser recentes, mas a preocupação em si não é. Especialistas em segurança alertam há tempos que modelos de IA de código aberto podem ser facilmente alterados para versões inseguras. A capacidade de ajustar esses sistemas com tanta liberdade oferece aos invasores uma maneira de remover as proteções integradas e reutilizá-las para fins maliciosos.
Como os pesos são de acesso público, qualquer pessoa pode reconfigurar o modelo com objetivos maliciosos, seja para enfraquecer suas salvaguardas ou enganá-lo para produzir conteúdo que modelos fechados rejeitariam.
Alguns modelos de IA de código aberto bastante conhecidos incluem:
- Meta Llama 3 e Llama 3.3 – lançadas pela Meta para uso comercial e de pesquisa, amplamente utilizadas como base para chatbots personalizados e assistentes de programação.
- Mistral 7B e Mistral Large-2 (também chamado de Large-Instruct-2047) – da Mistral AI, conhecida por seu alto desempenho e licenciamento permissivo.
- Alibaba Qwen 2 e Qwen 3 – da Alibaba Cloud, otimizados para tarefas multilíngues e programação.
- Google Gemma 2 e Gemma 3-1B-IT – modelos menores e de peso aberto, projetados para aplicações focadas em segurança.
- Microsoft Phi-3 e Phi-4 – modelos compactos que enfatizam o raciocínio e a eficiência.
- Zhipu AI GLM-4 e GLM-4.5-Air – grandes modelos bilíngues populares em todo o ecossistema de IA da China.
- DeepSeek V3.1 – modelo de peso aberto da DeepSeek AI, projetado para tarefas de pesquisa e engenharia.
- Falcon 180B e Falcon 40B – desenvolvidos pelo Instituto de Inovação Tecnológica (TII) nos Emirados Árabes Unidos.
- Mixtral 8x7B – um modelo aberto de mistura de especialistas também da Mistral AI.
- OpenAI GPT-OSS-20B – Modelo de pesquisa de código aberto limitado da OpenAI usado para avaliação e comparação.
O relatório não pede o fim do desenvolvimento de código aberto, mas defende a responsabilidade. A Cisco insta os laboratórios de IA a dificultarem a remoção dos controles de segurança integrados durante o ajuste fino e aconselha as organizações a adotarem uma abordagem de segurança em primeiro lugar na implementação desses sistemas. Isso significa adicionar proteções contextuais, monitoramento em tempo real e testes contínuos de intrusão para detectar vulnerabilidades antes que possam ser exploradas.
A pesquisa da Cisco também descobriu que os atacantes tendem a usar as mesmas táticas de manipulação que funcionam com pessoas. Métodos como encenação, desinformação sutil e escalada gradual se mostraram especialmente eficazes, demonstrando como as técnicas de engenharia social podem ser facilmente adaptadas para interações com IA e manipulação de estímulos. Cada um desses modelos vem com seus pesos treinados disponíveis para download, permitindo que os desenvolvedores os executem em seus próprios sistemas ou os ajustem para tarefas e projetos específicos.
No entanto, o relatório da Cisco detalha que a proteção de modelos de IA deve ser tratada como qualquer outra tarefa de segurança de software. Requer testes constantes, proteção e comunicação sobre os riscos envolvidos.
O relatório completo está disponível aqui no arXiv (PDF).
(Imagem de T Hansen do Pixabay)
HackRead



