Araştırmacılar, Google’ın yapay zekâ modeli Gemini’yi kandırmanın oldukça ilginç bir yöntemini keşfettiler. Bu süreçte, Gemini’nin kendi “ince ayar” özelliği kullanılarak, yapay zekâya adeta kendi silahıyla tuzak kuruldu. Normalde işe yaramayan komut hileleri, bu yeni yöntemle bir anda etkili hale geldi. Bu yaratıcı yaklaşımın adı ise oldukça eğlenceli: “Fun-Tuning”.
Bu yenilikçi yöntem, ABD’deki UC San Diego ve Wisconsin Üniversitesi’nden bir araştırma ekibi tarafından geliştirilmiştir. Yapay zekâ, kendi sağladığı geri bildirimlerle kandırıldı. Yöntemde, etkisiz kalan komut enjeksiyonlarının başına ve sonuna rastgele ifadeler eklenerek saldırılar güçlendirildi. Araştırmacılar, “wandel ! ! ! !” ya da “formatted ! ASAP !” gibi ifadelerle çevrelenen saldırı metinlerinin Gemini’nin yanıtlarını manipüle edebildiğini ortaya koydu. Bu keşif, yapay zekâların nasıl daha karmaşık ve etkili hale getirilebileceği konusunda önemli bir adım olarak değerlendiriliyor.
- Geliştirilen yöntemin Gemini 1.5 Flash modelinde %65 oranında,
- Gemini 1.0 Pro modelinde ise %82 oranında başarı sağladığı bildirildi.
Aynı saldırıların farklı Gemini modellerinde de benzer şekilde etkili olduğuna dikkat çeken araştırmacılar, bu başarıda modelin eğitim sürecinde verdiği geri bildirimlerin doğrudan kullanılmasının önemli bir rolü olduğunu vurguladılar. Google ise bu yöntemle ilgili olarak doğrudan bir açıklama yapmadı. Şirket, genel bir açıklama ile bu tür saldırılara karşı savunma mekanizmaları geliştirmenin öncelikli konular arasında yer aldığını ifade etti.
Ancak araştırmacılar, bu sorunun kolay çözülemeyeceğini belirtiyor. Zira saldırının temelinde, Gemini’ın ince ayar özelliğiyle çalışan ve özelleştirilebilirliğini sağlayan yapının mevcut olduğu vurgulanıyor. Bu durum, yapay zekâların gelecekteki gelişiminde dikkat edilmesi gereken önemli bir sorun olarak öne çıkıyor.
Kaynak: Webtekno