Cisco, Uzun Sohbetlerde Açık Ağırlıklı Yapay Zeka Modellerinin Kullanılmasının Kolay Olduğunu Buldu

Şirketler yapay zeka modellerine kapılarını açtığında, genellikle yenilikler de beraberinde gelir. Ancak Cisco'nun yeni araştırmasına göre, saldırganlar da aynısını yapıyor. Cisco AI Threat Research, bu hafta yayınlanan kapsamlı bir çalışmada, parametreleri serbestçe erişilebilen açık ağırlıklı modellerin, özellikle uzun kullanıcı etkileşimleri sırasında, düşmanca manipülasyona karşı oldukça savunmasız olduğunu ortaya koydu.
Bilginize, açık ağırlık modeli, eğitilmiş parametrelerin ("ağırlıklar") herkese açık olarak yayınlandığı bir yapay zeka modeli türüdür . Bu ağırlıklar, modele öğrenilmiş yeteneklerini kazandırır; eğitimden sonra dili nasıl işleyeceğini, metin oluşturacağını veya diğer görevleri nasıl gerçekleştireceğini tanımlar.
"Bin İstemle Ölüm: Açık Model Güvenlik Açığı Analizi" başlıklı rapor, sekiz önde gelen açık ağırlıklı dil modelini analiz etti ve bir saldırganın modeli birden fazla konuşma adımında kullandığı çoklu tur saldırılarının, tek seferlik saldırılardan on kata kadar daha etkili olduğunu buldu. En yüksek başarı oranı, Mistral'ın Large-2 modelinde %92,78 gibi şaşırtıcı bir orana ulaşırken, Alibaba'nın Qwen3-32B modeli %86,18 ile çok geride kalmadı.

Cisco araştırmacıları, saldırganların bir dizi zararsız alışveriş yoluyla modele güven oluşturabileceklerini ve ardından modeli yavaş yavaş izin verilmeyen veya zararlı çıktılar üretmeye yönlendirebileceklerini açıkladı. Bu kademeli artış, genellikle tek turlu etkileşimler için tasarlanmış tipik moderasyon sistemlerinin ötesine geçebiliyor.
Raporda, bu sorun, zaman içinde güvenlik bağlamını korumakta zorlanan modeller de dahil olmak üzere basit ama tehlikeli bir kusurdan kaynaklanıyor. Bir saldırgan sorgularını nasıl yeniden çerçeveleyeceğini veya yönlendireceğini öğrendiğinde, bu sistemlerin çoğu önceki güvenlik kısıtlamalarını unutuyor.
Araştırmacılar, bu davranışın modellerin herhangi bir dahili güvenlik önlemini devreye sokmadan kısıtlı içerik üretmesine, hassas verileri ifşa etmesine veya kötü amaçlı kod oluşturmasına olanak sağladığını gözlemledi.
Ancak tüm modeller aynı performansı göstermedi. Cisco'nun verileri, geliştiricilerin bir modeli kurallara uyması için nasıl eğittikleri konusunda uygulanan hizalama stratejilerinin güvenlik performansında büyük rol oynadığını gösterdi. Hizalama sırasında güvenliğe büyük önem veren Google'ın Gemma-3-1B-IT modeli gibi modeller, %25 civarında daha düşük çoklu tur saldırı başarı oranları gösterdi.
Öte yandan, geniş işlevselliğe öncelik veren Llama 3.3 ve Qwen3-32B gibi yetenek odaklı modellerin, bir konuşma birkaç görüşmenin ötesine geçtiğinde manipüle edilmesinin çok daha kolay olduğu kanıtlandı.
Cisco, toplamda 102 farklı alt tehdidi değerlendirdi ve en sık ve ciddi ihlallerin ilk on beşinde yer aldığını tespit etti. Bunlar arasında manipülasyon, yanlış bilgi ve kötü amaçlı kod üretimi yer alıyor ve bunların tümü, sohbet robotları veya sanal asistanlar gibi müşteri odaklı araçlara entegre edildiğinde veri sızıntılarına veya kötüye kullanıma yol açabiliyor.

Şirketin araştırmacıları, tüm modellerde otomatik, algoritmik testler yürütmek ve hem tek turlu hem de çok turlu düşmanca saldırıları simüle etmek için tescilli Yapay Zeka Doğrulama platformunu kullandılar. Her model bir kara kutu olarak ele alındı, yani test sırasında güvenlik sistemleri veya mimarisi hakkında hiçbir içeriden bilgi kullanılmadı. Buna rağmen, ekip test edilen neredeyse her modelde yüksek saldırı başarı oranları elde etti.
"Tüm modellerde, çoklu-tur jailbreak saldırıları oldukça etkili oldu ve başarı oranları %92,78'e ulaştı. Tek turdan çoklu tur güvenlik açığına doğru keskin bir yükseliş, modellerin uzun görüşmeler boyunca güvenlik bariyerlerini korumakta ne kadar zorlandığını gösteriyor."
– Amy Chang (Baş Yazar), Nicholas Conley (Ortak Yazar), Harish Santhanalakshmi Ganesan ve Adam Swanda, Cisco AI Threat Research & Security
Cisco'nun bulguları yeni olabilir, ancak endişenin kendisi yeni değil. Güvenlik uzmanları, açık kaynaklı yapay zeka modellerinin kolayca güvenli olmayan sürümlere dönüştürülebileceği konusunda uzun zamandır uyarıda bulunuyor. Bu sistemleri bu kadar özgürce ince ayar yapabilme yeteneği, saldırganlara yerleşik güvenlik önlemlerini ortadan kaldırıp zararlı amaçlar için yeniden kullanma olanağı sağlıyor.
Ağırlıklar herkesin erişimine açık olduğundan, herkes modeli kötü niyetli amaçlarla yeniden eğitebilir; bu, ya koruma bariyerlerini zayıflatmak ya da kapalı modellerin reddedeceği içerik üretmesi için onu kandırmak anlamına gelir.
Bilinen bazı açık ağırlık AI modelleri şunlardır:
- Meta Llama 3 ve Llama 3.3 – Meta tarafından araştırma ve ticari kullanım için yayınlanmış olup, özel sohbet robotları ve kodlama asistanları için bir temel olarak yaygın olarak kullanılmaktadır.
- Mistral 7B ve Mistral Large-2 (Large-Instruct-2047 olarak da bilinir) – Yüksek performansı ve izin verici lisanslamasıyla bilinen Mistral AI'dan.
- Alibaba Qwen 2 ve Qwen 3 – Alibaba Cloud'dan, çok dilli görevler ve kodlama için optimize edilmiştir.
- Google Gemma 2 ve Gemma 3-1B-IT – güvenliğe odaklı uygulamalar için tasarlanmış daha küçük, açık ağırlıklı modeller.
- Microsoft Phi-3 ve Phi-4 – akıl yürütme ve verimliliği vurgulayan kompakt modeller.
- Zhipu AI GLM-4 ve GLM-4.5-Air – Çin'in yapay zeka ekosisteminde popüler olan büyük iki dilli modeller.
- DeepSeek V3.1 – DeepSeek AI'nın araştırma ve mühendislik görevleri için tasarlanmış açık ağırlık modeli.
- Falcon 180B ve Falcon 40B – BAE'deki Teknoloji İnovasyon Enstitüsü (TII) tarafından geliştirildi.
- Mixtral 8x7B – Mistral AI'dan açık bir uzmanlar karışımı modeli.
- OpenAI GPT-OSS-20B – Değerlendirme ve kıyaslama için kullanılan OpenAI'nin sınırlı açık kaynaklı araştırma modeli.
Rapor, açık kaynaklı geliştirmenin sonlandırılması çağrısında bulunmuyor, ancak sorumluluktan bahsediyor. Cisco, yapay zeka laboratuvarlarını, ince ayar sırasında yerleşik güvenlik kontrollerinin kaldırılmasını zorlaştırmaya çağırıyor ve kuruluşlara bu sistemleri devreye alırken güvenliğe öncelik veren bir yaklaşım uygulamalarını tavsiye ediyor. Bu, zayıflıkları kötüye kullanılmadan önce yakalamak için bağlam farkındalığı sağlayan güvenlik bariyerleri, gerçek zamanlı izleme ve sürekli kırmızı takım testleri eklemek anlamına geliyor.
Cisco'nun araştırması, saldırganların insanlar üzerinde işe yarayan aynı manipülasyon taktiklerini kullanma eğiliminde olduğunu da ortaya koydu. Rol yapma, gizli yanlış yönlendirme ve kademeli yükseltme gibi yöntemler özellikle etkili oldu ve sosyal mühendislik tekniklerinin yapay zeka etkileşimlerine nasıl kolayca aktarılabileceğini ve manipülasyona nasıl yol açabileceğini gösterdi. Bu modellerin her biri, indirilebilen eğitilmiş ağırlıklarıyla birlikte gelir ve geliştiricilerin bunları kendi sistemlerinde çalıştırmalarına veya belirli görev ve projeler için ayarlamalarına olanak tanır.
Bununla birlikte, Cisco'nun raporu, yapay zeka modellerini korumanın diğer tüm yazılım güvenliği işleri gibi ele alınması gerektiğini belirtiyor. Sürekli test, koruma ve ilgili riskler hakkında iletişim gerektiriyor.
Raporun tamamına arXiv'den (PDF) ulaşabilirsiniz.
(Pixabay'dan T Hansen'in görseli)
HackRead



