Cisco uważa, że modele sztucznej inteligencji o otwartej wadze są łatwe do wykorzystania w długich rozmowach

Kiedy firmy otwierają drzwi do swoich modeli AI , często podążają za tym innowacje. Jednak według nowych badań Cisco, atakujący również to robią. W kompleksowym badaniu opublikowanym w tym tygodniu, Cisco AI Threat Research wykazało, że modele o otwartej wadze, czyli te z parametrami dostępnymi swobodnie, są wysoce podatne na manipulację ze strony przeciwników, szczególnie podczas dłuższych interakcji z użytkownikami.
Dla Państwa informacji, model o otwartych wagach to rodzaj modelu AI, w którym wytrenowane parametry („wagi”) są publicznie udostępniane. To właśnie wagi nadają modelowi wyuczone zdolności; definiują sposób, w jaki przetwarza on język, generuje tekst lub wykonuje inne zadania po wytrenowaniu.
Raport zatytułowany „Death by a Thousand Prompts: Open Model Vulnerability Analysis ” przeanalizował osiem wiodących modeli językowych o otwartej wadze i wykazał, że ataki wieloetapowe, w których atakujący angażuje model w wielu krokach konwersacji, były nawet dziesięciokrotnie skuteczniejsze niż próby jednorazowe. Najwyższy wskaźnik sukcesu osiągnął oszałamiające 92,78% w modelu Large-2 firmy Mistral, a Qwen3-32B firmy Alibaba niewiele od niego odstawał, osiągając wynik 86,18%.

Badacze Cisco wyjaśnili, że atakujący mogą budować zaufanie do modelu poprzez serię nieszkodliwych wymian, a następnie powoli kierować nim w stronę generowania niedozwolonych lub szkodliwych wyników. Ta stopniowa eskalacja często wymyka się spod kontroli typowych systemów moderacji, zaprojektowanych do interakcji jednoetapowych.
Raport przypisuje ten problem prostej, ale niebezpiecznej wadzie, która polega m.in. na tym, że modele mają problemy z utrzymaniem kontekstu bezpieczeństwa w dłuższej perspektywie. Gdy atakujący nauczy się, jak przeformułować lub przekierować swoje zapytania, wiele z tych systemów traci kontrolę nad wcześniejszymi ograniczeniami bezpieczeństwa.
Naukowcy zaobserwowali, że takie zachowanie pozwala modelom na generowanie ograniczonych treści, ujawnianie poufnych danych lub tworzenie złośliwego kodu bez uruchamiania jakichkolwiek wewnętrznych zabezpieczeń.
Jednak nie wszystkie modele radziły sobie równie dobrze. Dane Cisco pokazały, że strategie dopasowania, czyli sposób, w jaki programiści trenują model, aby przestrzegał reguł, odegrały dużą rolę w wydajności zabezpieczeń. Modele takie jak Gemma-3-1B-IT firmy Google, które koncentrują się na bezpieczeństwie podczas dopasowania, wykazały niższy wskaźnik skuteczności ataków wieloetapowych, wynoszący około 25%.
Z drugiej strony modele zorientowane na możliwości, takie jak Llama 3.3 i Qwen3-32B, które kładą nacisk na szeroką funkcjonalność, okazały się znacznie łatwiejsze w obsłudze, gdy rozmowa wykroczyła poza kilka wymian zdań.
W sumie Cisco przeanalizowało 102 różne podzagrożenia i stwierdziło, że piętnaście najczęstszych i najpoważniejszych naruszeń bezpieczeństwa dotyczyło manipulacji, dezinformacji i generowania złośliwego kodu. Wszystkie te zagrożenia, zintegrowane z narzędziami obsługi klienta, takimi jak chatboty czy wirtualni asystenci, mogą prowadzić do wycieków danych lub ich niewłaściwego wykorzystania.

Badacze firmy wykorzystali autorską platformę AI Validation do przeprowadzenia zautomatyzowanych, algorytmicznych testów wszystkich modeli, symulując ataki adwersarzy zarówno jedno-, jak i wieloobrotowe. Każdy model traktowano jak czarną skrzynkę, co oznacza, że podczas testów nie wykorzystywano żadnych poufnych informacji o systemach bezpieczeństwa ani architekturze. Mimo to zespół osiągnął wysoki wskaźnik skuteczności ataków w przypadku niemal każdego testowanego modelu.
„We wszystkich modelach ataki typu jailbreak obejmujące wiele tur okazały się wysoce skuteczne, a wskaźnik powodzenia sięgnął 92,78%. Gwałtowny wzrost podatności od jednoturowej do wieloturowej pokazuje, jak trudno jest modelom utrzymać bariery bezpieczeństwa podczas dłuższych rozmów”.
– Amy Chang (główna autorka), Nicholas Conley (współautor), Harish Santhanalakshmi Ganesan i Adam Swanda, Cisco AI Threat Research & Security
Odkrycia Cisco mogą być niedawne, ale same obawy nie są. Eksperci ds. bezpieczeństwa od dawna ostrzegają, że otwarte modele sztucznej inteligencji można łatwo zmodyfikować w niebezpieczne wersje. Możliwość tak swobodnego dostrajania tych systemów daje atakującym możliwość pominięcia wbudowanych zabezpieczeń i ponownego wykorzystania ich do szkodliwych celów.
Ponieważ wagi są publicznie dostępne, każdy może przeszkolić model w złośliwych celach, zarówno w celu osłabienia jego zabezpieczeń , jak i w celu oszukania go i wytworzenia treści, którą zamknięte modele odrzucą.
Niektóre dobrze znane modele sztucznej inteligencji o otwartej strukturze obejmują:
- Meta Llama 3 i Llama 3.3 – wydane przez Meta do celów badawczych i komercyjnych, szeroko stosowane jako baza do tworzenia niestandardowych chatbotów i asystentów kodowania.
- Mistral 7B i Mistral Large-2 (znany również jako Large-Instruct-2047) – od Mistral AI, znanego z wysokiej wydajności i liberalnego licencjonowania.
- Alibaba Qwen 2 i Qwen 3 – od Alibaba Cloud, zoptymalizowane pod kątem zadań wielojęzycznych i kodowania.
- Google Gemma 2 i Gemma 3-1B-IT – mniejsze, lekkie modele przeznaczone do zastosowań wymagających bezpieczeństwa.
- Microsoft Phi-3 i Phi-4 – kompaktowe modele kładące nacisk na rozumowanie i wydajność.
- Zhipu AI GLM-4 i GLM-4.5-Air – duże dwujęzyczne modele popularne w chińskim ekosystemie sztucznej inteligencji.
- DeepSeek V3.1 – model o otwartej konstrukcji od DeepSeek AI przeznaczony do zadań badawczych i inżynieryjnych.
- Falcon 180B i Falcon 40B – opracowane przez Technology Innovation Institute (TII) w Zjednoczonych Emiratach Arabskich.
- Mixtral 8x7B – otwarty model mieszany dla ekspertów, również od Mistral AI.
- OpenAI GPT-OSS-20B – ograniczony model badawczy typu open source firmy OpenAI, wykorzystywany do oceny i testów porównawczych.
Raport nie wzywa do zakończenia rozwoju oprogramowania w trybie „open-weight”, ale apeluje o odpowiedzialność. Cisco apeluje do laboratoriów sztucznej inteligencji o utrudnienie pracownikom usuwania wbudowanych zabezpieczeń podczas dostrajania i zaleca organizacjom stosowanie podejścia stawiającego bezpieczeństwo na pierwszym miejscu podczas wdrażania tych systemów. Oznacza to dodanie zabezpieczeń uwzględniających kontekst, monitorowanie w czasie rzeczywistym i ciągłe testy redteamingowe w celu wykrycia luk, zanim zostaną one wykorzystane.
Badania Cisco wykazały również, że atakujący często stosują te same taktyki manipulacji, które działają na ludzi. Metody takie jak odgrywanie ról, subtelne wprowadzanie w błąd i stopniowa eskalacja okazały się szczególnie skuteczne, pokazując, jak techniki socjotechniczne mogą łatwo przenieść się na interakcje sztucznej inteligencji i prowadzić do manipulacji. Każdy z tych modeli zawiera wytrenowane wagi dostępne do pobrania, co pozwala programistom uruchamiać je we własnych systemach lub dostosowywać do konkretnych zadań i projektów.
Niemniej jednak, raport Cisco wyraźnie wskazuje, że ochrona modeli AI powinna być traktowana jak każde inne zadanie związane z bezpieczeństwem oprogramowania. Wymaga ciągłego testowania, ochrony i komunikacji na temat związanego z tym ryzyka.
Pełny raport jest dostępny tutaj na arXiv (PDF).
(Zdjęcie T. Hansena z Pixabay)
HackRead



