Geçtiğimiz hafta OpenAI’nin en yeni modelini kullanıma sunmasıyla,
GPT-5 hakkında heyecanlar yükseldi. CEO Sam Altman, bu sürümün şimdiye kadarki en güçlü, en hızlı ve en güvenilir versiyon olduğunu belirtirken, yapay zekâların uydurduğu bilgileri ifade eden “halüsinasyon” kavramının bu modelde çok daha az görüleceğini vurguladı.

Bir karşılaştırma için GazeteBenzeri bir platform olan Vectara bu iddiaları test etti. Sonuçlarda GPT-5’in halüsinasyon oranının GPT-4’e göre düşüş gösterdiği fakat farkın çok büyük olmadığı ortaya çıktı. Testlere göre GPT-4 için %1,8 olan halüsinasyon oranı GPT-5te %1,4’e geriledi. GPT-4o ise %0,09 farkla GPT-5‘in önünde kaldı. En iyi sonuç ise %0,795 ile OpenAI’nin o3-mini High Reasoning modelinde görüldü. En çok halüsinasyon gören model ise Grok-4 olarak kaydedildi.
Ancak GPT-5 hâlâ rakiplerinin üzerinde güvenilirlik sunuyor. Örneğin Google’ın Gemini-2.5-pro sürümü %2,6 halüsinasyon üretirken, Grok-4 ise %4,8 oranında hata çıkarıyor. Grok’un arkasındaki xAI şirketi ise ünlülerin uygunsuz deepfake videolarını kolayca üretebilen “Spicy” modu nedeniyle eleştiri oklarının hedefinde kalıyor. Ayrıca verilerin X üzerinde toplanması nedeniyle halüsinasyon oranını düşürmekte karşılaşılan zorluklar da gündemde.
Peki sizce en düşük halüsinasyon oranını hangi model yakalıyor? Düşüncelerinizi aşağıdaki yorumlar kısmından bizimle paylaşabilirsiniz.
Kaynak: Webtekno


