Cisco обнаружила, что модели ИИ с открытым весом легко использовать в длительных чатах

Когда компании открывают доступ к своим моделям ИИ , инновации часто следуют за ними. Но, согласно новому исследованию Cisco, то же самое делают и злоумышленники. В комплексном исследовании, опубликованном на этой неделе, Cisco AI Threat Research обнаружила, что модели с открытыми весами, то есть модели с общедоступными параметрами, крайне уязвимы для манипуляций злоумышленников, особенно при длительном взаимодействии с пользователем.
К вашему сведению, модель с открытыми весами — это тип модели ИИ, в которой параметры обучения («веса») публикуются публично. Именно эти веса определяют возможности модели, которые она приобретает; они определяют, как она обрабатывает язык, генерирует текст и выполняет другие задачи после обучения.
В отчёте под названием «Смерть от тысячи подсказок: анализ уязвимостей открытой модели» были проанализированы восемь ведущих языковых моделей с открытым весом и установлено, что многоходовые атаки, когда злоумышленник взаимодействует с моделью на нескольких этапах разговора, были до десяти раз эффективнее одноразовых. Самый высокий показатель успешности достиг впечатляющих 92,78% для модели Big-2 от Mistral, в то время как Qwen3-32B от Alibaba ненамного отставала — 86,18%.

Исследователи Cisco объяснили, что злоумышленники могут создать доверие к модели посредством серии безобидных обменов, а затем постепенно подтолкнуть её к созданию запрещённых или вредоносных результатов. Эта постепенная эскалация часто не поддаётся модерации, поскольку типичные системы модерации разработаны для одноэтапного взаимодействия.
В отчёте эта проблема объясняется простым, но опасным недостатком, в частности, моделями, которым сложно поддерживать контекст безопасности с течением времени. Как только злоумышленник научится перефразировать или перенаправлять запросы, многие из этих систем перестанут учитывать прежние ограничения безопасности.
Исследователи заметили, что такое поведение позволяет моделям генерировать ограниченный контент, раскрывать конфиденциальные данные или создавать вредоносный код, не активируя при этом какие-либо внутренние средства защиты.
Однако не все модели показали одинаковые результаты. Данные Cisco показали, что стратегии согласования, посредством которых разработчики обучают модель следовать правилам, играют важную роль в обеспечении безопасности. Такие модели, как Gemma-3-1B-IT от Google, которые уделяют большое внимание безопасности во время согласования, показали более низкие показатели успешности многоходовых атак — около 25%.
С другой стороны, модели, ориентированные на возможности, такие как Llama 3.3 и Qwen3-32B, которые отдают приоритет широкой функциональности, оказались гораздо более податливыми в управлении, как только общение вышло за рамки нескольких обменов репликами.
В общей сложности Cisco оценила 102 различных подугрозы и обнаружила, что на пятнадцать из них приходятся наиболее частые и серьёзные нарушения. К ним относятся манипуляции, дезинформация и генерация вредоносного кода. Всё это может привести к утечкам данных или их ненадлежащему использованию при интеграции в инструменты взаимодействия с клиентами, такие как чат-боты или виртуальные помощники.

Исследователи компании использовали собственную платформу AI Validation для проведения автоматизированных алгоритмических тестов на всех моделях, имитируя как одношаговые, так и многошаговые атаки. Каждая модель рассматривалась как «чёрный ящик», то есть никакая внутренняя информация о системах безопасности или архитектуре не использовалась во время тестирования. Несмотря на это, команда добилась высоких показателей успешности атак практически на всех протестированных моделях.
«Многоэтапные атаки на джейлбрейк во всех моделях оказались очень эффективными: показатель успешности достиг 92,78%. Резкий переход от одноэтапной к многоэтапной уязвимости показывает, насколько сложно моделям поддерживать безопасность при длительных разговорах».
– Эми Чанг (ведущий автор), Николас Конли (соавтор), Хариш Сантханалакшми Ганесан и Адам Сванда, Cisco AI Threat Research & Security
Выводы Cisco, возможно, и недавние, но сама проблема — нет. Эксперты по безопасности давно предупреждали, что модели ИИ с открытыми весами могут быть легко преобразованы в небезопасные версии. Возможность столь свободной настройки этих систем позволяет злоумышленникам обходить встроенные средства защиты и использовать их во вредоносных целях.
Поскольку веса находятся в открытом доступе, любой может переобучить модель в вредоносных целях — либо чтобы ослабить ее защитные барьеры , либо обманным путем заставить ее производить контент, который закрытые модели будут отклонять.
Некоторые известные модели ИИ с открытым весом включают в себя:
- Meta Llama 3 и Llama 3.3 — выпущены компанией Meta для исследовательских и коммерческих целей, широко используются в качестве основы для создания пользовательских чат-ботов и помощников по программированию.
- Mistral 7B и Mistral Large-2 (также называемый Large-Instruct-2047) — от Mistral AI, известные высокой производительностью и разрешительным лицензированием.
- Alibaba Qwen 2 и Qwen 3 — от Alibaba Cloud, оптимизированные для многоязычных задач и кодирования.
- Google Gemma 2 и Gemma 3-1B-IT — небольшие модели открытого типа, созданные для приложений, ориентированных на безопасность.
- Microsoft Phi-3 и Phi-4 – компактные модели, делающие акцент на обоснованности и эффективности.
- Zhipu AI GLM-4 и GLM-4.5-Air — крупные двуязычные модели, популярные в экосистеме искусственного интеллекта Китая.
- DeepSeek V3.1 – модель открытого веса от DeepSeek AI, предназначенная для исследовательских и инженерных задач.
- Falcon 180B и Falcon 40B — разработаны Институтом инновационных технологий (TII) в ОАЭ.
- Mixtral 8x7B – открытая модель-смесь экспертов также от Mistral AI.
- OpenAI GPT-OSS-20B – ограниченная исследовательская модель OpenAI с открытым исходным кодом, используемая для оценки и сравнительного анализа.
В отчёте не содержится призыва к прекращению разработки с открытыми весами, но звучат призывы к ответственности. Cisco призывает лаборатории ИИ усложнить удаление встроенных средств безопасности во время тонкой настройки и рекомендует организациям применять подход, ориентированный на безопасность, при развёртывании таких систем. Это подразумевает внедрение контекстно-зависимых защитных барьеров, мониторинг в режиме реального времени и постоянное тестирование Red Team для выявления уязвимостей до того, как ими можно будет воспользоваться.
Исследование Cisco также показало, что злоумышленники склонны использовать те же тактики манипуляции, что и в случае с людьми. Такие методы, как ролевая игра, тонкое введение в заблуждение и постепенная эскалация, оказались особенно эффективными, продемонстрировав, как техники социальной инженерии легко переносятся во взаимодействие с ИИ и позволяют манипулировать им. Каждая из этих моделей поставляется с обученными весами, доступными для скачивания, что позволяет разработчикам использовать их на своих системах или адаптировать под конкретные задачи и проекты.
Тем не менее, в отчёте Cisco указано, что к защите моделей ИИ следует относиться так же, как и к любой другой задаче по обеспечению безопасности программного обеспечения. Она требует постоянного тестирования, обеспечения защиты и информирования о связанных с этим рисках.
Полный отчет доступен здесь на arXiv (PDF).
(Изображение Т. Хансена с Pixabay)
HackRead



