Google DeepMind tarafından geliştirilen FACTSBenchmarkTakımı, yapay zekâ sohbet botlarının gerçek hayattaki doğruluk seviyesini ölçmek için tasarlandı. Test kapsamı, bilgi tabanlı sorgular, uzun metin analizleri, web verileriyle çalışma ve görsel yorumlama gibi alanları kapsıyor. Sonuçlar şaşırtıcı: En iyi performansı gösteren modeller bile en çok %69 doğruluk elde edebiliyor. Bu, yapay zekâ yanıtlarının üçte biri kadarının yanlış, eksik ya da yanıltıcı olabileceği anlamına geliyor.
Bu tablo, yapay zekânın hızla yaygınlaştığı bir dönemde dahi özellikle sağlık, hukuk ve finans gibi kritik alanlarda önemli riskler taşıdığını ortaya koyuyor. Akıcı ve ikna edici yanıtlar her zaman doğru bilgiye işaret etmeyebilir. Geçmişte de “halüsinasyon” sorunu gündeme gelmişken bu çalışma, AI sistemlerinin güvenilirliğinin kolayca garanti edilemeyeceğini hatırlatıyor.
Uzmanlar ise yapay zekânın güçlü bir yardımcı olarak kalacağını, ancak yakın gelecekte de insan denetimi olmadan tamamen güvenilir bir kaynak hâline gelmesinin zor olduğunu vurguluyor.
Chery Tiggo 7 ile hız, konfor ve gizli güç dengesi: Türkiye pazarına yeni bir bakış,…
Nemotron 3: NVIDIA’nin Hibrit MoE tabanlı yapay zekâ ailesiyle oyun değiştiren güçlü bir adım.İleri teknolojiyle…
2026 için küresel akıllı telefon satışları düşüşte; maliyet baskıları, rekabet ve tedarik zinciri etkileriyle stratejik…
Galaxy A07 5G MediaTek Dimensity 6300 ile geliyor. Lansman tarihi yakın, teknik özellikler ve fiyat…
2026 Toyota Corolla tasarım ve içerden özelliklerde gelen değişimleri keşfedin. Stil, konfor ve yeniliklerle dolu…
Steam Kış İndirimleri 2025: Büyük indirimler ve aktif etkinlikler için geri sayım başladı. Fırsatları kaçırmayın,…