Yapay zekâ modelleri şiirsel komutlarla kandırılabiliyor!
Yeni araştırma, yapay zekâ modellerinin şiir şeklinde verilen talimatlarla kandırılabildiğini ve güvenlik filtrelerinin aşılabildiğini ortaya koyarak yapay zekâ güvenliğinde ciddi açıklar bulunduğunu gösterdi.
Icaro Labs tarafından yayımlanan ve “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlığını taşıyan çalışma, büyük dil modellerinin klasik konuşma dili yerine şiir biçiminde verilen talimatlarla kolaylıkla manipüle edilebileceğini ortaya koydu. Araştırma, yapay zekâ sohbet botlarının güvenlik filtrelerinin bu yöntemle devre dışı bırakılarak tehlikeli ve yasaklı içeriklerin elde edilebildiğini gösteriyor.
TEHLİKELİ İÇERİKLERE ERİŞİM SAĞLANDI
Wired’ın aktardığına göre araştırmacılar, kullandıkları şiirsel komutların detaylarını güvenlik riskleri nedeniyle kamuoyuyla paylaşmadı. Ancak yöntem kullanılarak nükleer bomba yapımına dair bilgiler, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasaklanan içeriklere erişimin mümkün olduğu belirtildi.
POPÜLER YAPAY ZEKÂ SİSTEMLERİ TEST EDİLDİ
Ekip, geliştirdikleri yöntemi OpenAI’nin ChatGPT modeli, Google’ın Gemini’si, Anthropic’in Claude’u ve çeşitli diğer büyük yapay zekâ modelleri üzerinde denedi. Sonuçlara göre:
Google Gemini, DeepSeek ve MistralAI modelleri şiirsel komutlar karşısında en kolay yanıltılabilen sistemler arasında yer aldı.
OpenAI’nin ChatGPT’si (GPT-5) ve Anthropic Claude Haiku 4.5, güvenlik bariyerlerini en sağlam koruyan modeller olarak öne çıktı.
YAPAY ZEKÂ GÜVENLİĞİ YENİDEN GÜNDEMDE
Uzmanlar, bulguların yapay zekâ güvenlik sistemlerinin geliştirilmesi ve modellerin daha etkin şekilde denetlenmesi gerektiğini bir kez daha gözler önüne serdiğini belirtiyor. Şirketler ise tehlikeli içeriklerin üretilmesini engellemek amacıyla daha gelişmiş güvenlik filtrelerine yatırım yapmayı sürdürüyor.