Google DeepMind tarafından geliştirilen FACTSBenchmarkTakımı, yapay zekâ sohbet botlarının gerçek hayattaki doğruluk seviyesini ölçmek için tasarlandı. Test kapsamı, bilgi tabanlı sorgular, uzun metin analizleri, web verileriyle çalışma ve görsel yorumlama gibi alanları kapsıyor. Sonuçlar şaşırtıcı: En iyi performansı gösteren modeller bile en çok %69 doğruluk elde edebiliyor. Bu, yapay zekâ yanıtlarının üçte biri kadarının yanlış, eksik ya da yanıltıcı olabileceği anlamına geliyor.

Bu tablo, yapay zekânın hızla yaygınlaştığı bir dönemde dahi özellikle sağlık, hukuk ve finans gibi kritik alanlarda önemli riskler taşıdığını ortaya koyuyor. Akıcı ve ikna edici yanıtlar her zaman doğru bilgiye işaret etmeyebilir. Geçmişte de “halüsinasyon” sorunu gündeme gelmişken bu çalışma, AI sistemlerinin güvenilirliğinin kolayca garanti edilemeyeceğini hatırlatıyor.
Uzmanlar ise yapay zekânın güçlü bir yardımcı olarak kalacağını, ancak yakın gelecekte de insan denetimi olmadan tamamen güvenilir bir kaynak hâline gelmesinin zor olduğunu vurguluyor.


