Categories: Yapay Zeka

OpenAI Yeni Modellerinde Beklenmedik Halüsinasyon Sorunu Gün yüzüne çıktı

OpenAI’ın Yeni Nesil Modellerinde Artan Güvenilirlik Endişeleri

İçerik göster

1 OpenAI’ın Yeni Nesil Modellerinde Artan Güvenilirlik Endişeleri

2 Teknik Veriler ve Güvenilirlik Ölçütleri

OpenAI kısa süre önce tanıttığı yeni yapay zekâ modelleri olan o3 ve o4-mini ile oldukça dikkat çekti. Ancak, bu yeni modellerin sunduğu gelişmiş özelliklere rağmen, ortaya çıkan detaylar endişe verici bir durumu gözler önüne seriyor. Özellikle, bu modellerin yanlış veya gerçek dışı bilgiler üretme eğiliminin eski modellere kıyasla önemli ölçüde arttığı fark edildi.

OpenAI tarafından gerçekleştirilen kapsamlı testler, bu modellerin, önceki o1, o1-mini ve o3-mini gibi eski nesil yapay zekâlara kıyasla daha fazla halüsinasyon üretme eğiliminde olduğunu gösteriyor. Bu durum, hem teknolojik gelişmelerle birlikte gelen beklentileri sarsmakta hem de güvenilirlik açısından soru işaretleri doğuruyor. Şirket, bu sorunların kaynağını tam olarak tespit etmekte zorlanırken, çözüm yolunda da henüz net bir adım atmış değil.

Teknik Veriler ve Güvenilirlik Ölçütleri

OpenAI’ın kendi iç testlerinde, o3 modelinin PersonQA testinde, %33 oranında yanlış veya uydurma bilgi üretme sorunu yaşadığı ortaya çıktı. Bu oran, eski modeller olan o1 ve o3-mini için sırasıyla %16 ve %14,8 seviyelerinde kalırken, yeni modele kıyasla oldukça düşük kalıyor. Ayrıca, o4-mini ise bu alanda %48 gibi korkutucu bir oranla daha da kötü bir performans sergiliyor.

Bağımsız araştırma laboratuvarı Transluce’un yaptığı testler de benzer sonuçlar ortaya koyuyor. Laboratuvarın kurucusu ve eski OpenAI çalışanı Neil Chowdhury, o3 modelinin cevap verirken tamamen gerçek dışı adımlar ve süreçler uydurduğunu belirtti. Bu durumun temel sebebinin, modellerin eğitiminde kullanılan teknikler olabileceği düşünülüyor, ancak konunun kesin nedeni henüz net değil.

Güvenilirlik ve Kullanım Gücü

Güçlü ve gelişmiş yapay zekâ özelliklerine rağmen, o3 modeli özellikle kodlama ve matematik gibi hassas alanlarda başarılı sonuçlar verebilse de, sık sık yanlış bilgi üretme veya gerçek olmayan kaynaklar sunma gibi ciddi sorunlar barındırıyor. Bu nedenle, kullanıcıların çıktılarına dikkatli yaklaşması ve doğruluğunu kontrol etmesi gerekiyor.

Bununla birlikte, mevcut durumda GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı ile oldukça güçlü ve güvenilir bir alternatif olarak öne çıkıyor. Yine de, yeni modeller o3 ve o4-mini kullanmaya devam eden kullanıcıların, ürettikleri içeriklere körü körüne inanmamaları ve dikkatli olmaları önem arz ediyor.

Sonuç ve Öneriler

Şu an için OpenAI’dan konuya dair resmi açıklamalar ve yapılacak iyileştirmeler bekleniyor. Bu süreçte, kullanıcıların ve araştırmacıların dikkatli olmaları ve çıktıların doğruluğunu titizlikle kontrol etmeleri öneriliyor. Eğer siz de yeni modelleri kullanıyorsanız, ürettikleri bilgileri başka kaynaklarla karşılaştırmayı ihmal etmeyin.

Kaynak: Webtekno

Ulaş Utku Bozdoğan

Teknoloji alanındaki güncel gelişmeleri titizlikle takip edip bu konuda derinlemesine analizler sunan bir yazar. bilgi teknolojileri, yapay zeka, mobil teknolojiler ve dijital trendler gibi konularda geniş bir bilgi birikimine sahip. Teknolojinin hızla değişen dünyasındaki yenilikleri sade ve anlaşılır bir dille aktarma çalışır. Teknolojinin getirdiği dönüşümleri yakından izleyen ve bu konudaki görüşlerini etkileyici bir şekilde paylaşan Ulaş Utku Bozdoğan, teknoloji haberleri alanında önemli bir ses haline gelir :)