OpenAI kısa süre önce tanıttığı yeni yapay zekâ modelleri olan o3 ve o4-mini ile oldukça dikkat çekti. Ancak, bu yeni modellerin sunduğu gelişmiş özelliklere rağmen, ortaya çıkan detaylar endişe verici bir durumu gözler önüne seriyor. Özellikle, bu modellerin yanlış veya gerçek dışı bilgiler üretme eğiliminin eski modellere kıyasla önemli ölçüde arttığı fark edildi.
OpenAI tarafından gerçekleştirilen kapsamlı testler, bu modellerin, önceki o1, o1-mini ve o3-mini gibi eski nesil yapay zekâlara kıyasla daha fazla halüsinasyon üretme eğiliminde olduğunu gösteriyor. Bu durum, hem teknolojik gelişmelerle birlikte gelen beklentileri sarsmakta hem de güvenilirlik açısından soru işaretleri doğuruyor. Şirket, bu sorunların kaynağını tam olarak tespit etmekte zorlanırken, çözüm yolunda da henüz net bir adım atmış değil.
OpenAI’ın kendi iç testlerinde, o3 modelinin PersonQA testinde, %33 oranında yanlış veya uydurma bilgi üretme sorunu yaşadığı ortaya çıktı. Bu oran, eski modeller olan o1 ve o3-mini için sırasıyla %16 ve %14,8 seviyelerinde kalırken, yeni modele kıyasla oldukça düşük kalıyor. Ayrıca, o4-mini ise bu alanda %48 gibi korkutucu bir oranla daha da kötü bir performans sergiliyor.
Bağımsız araştırma laboratuvarı Transluce’un yaptığı testler de benzer sonuçlar ortaya koyuyor. Laboratuvarın kurucusu ve eski OpenAI çalışanı Neil Chowdhury, o3 modelinin cevap verirken tamamen gerçek dışı adımlar ve süreçler uydurduğunu belirtti. Bu durumun temel sebebinin, modellerin eğitiminde kullanılan teknikler olabileceği düşünülüyor, ancak konunun kesin nedeni henüz net değil.
Güçlü ve gelişmiş yapay zekâ özelliklerine rağmen, o3 modeli özellikle kodlama ve matematik gibi hassas alanlarda başarılı sonuçlar verebilse de, sık sık yanlış bilgi üretme veya gerçek olmayan kaynaklar sunma gibi ciddi sorunlar barındırıyor. Bu nedenle, kullanıcıların çıktılarına dikkatli yaklaşması ve doğruluğunu kontrol etmesi gerekiyor.
Bununla birlikte, mevcut durumda GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı ile oldukça güçlü ve güvenilir bir alternatif olarak öne çıkıyor. Yine de, yeni modeller o3 ve o4-mini kullanmaya devam eden kullanıcıların, ürettikleri içeriklere körü körüne inanmamaları ve dikkatli olmaları önem arz ediyor.
Şu an için OpenAI’dan konuya dair resmi açıklamalar ve yapılacak iyileştirmeler bekleniyor. Bu süreçte, kullanıcıların ve araştırmacıların dikkatli olmaları ve çıktıların doğruluğunu titizlikle kontrol etmeleri öneriliyor. Eğer siz de yeni modelleri kullanıyorsanız, ürettikleri bilgileri başka kaynaklarla karşılaştırmayı ihmal etmeyin.
Kaynak: Webtekno
Wind and Waves ve MMO planlarıyla Pokémon geleceğine dair sızıntılar: piyasada heyecan yaratan kapsamlı oyun…
İkincil numarayla profesyonel dijital düzeninizi kurun: Sanal numara rehberi, kullanışlı ipuçları ve güvenli iletişim çözümleri.
Avatar Legends: The Fighting Game ile yeni, akıcı ve heyecan verici bir dövüş deneyimi keşfedin;…
Apple'ın yeni nesil iPhone serisiyle ilgili piyasadaki beklentiler ve eleştiriler, yenilikler ve rekabet ışığında kapsamlı…
Qualcomm’un 2nm yolculuğu ve gelecek mobil çiplerin yeni zirvelerini keşfedin; performans, verimlilik ve inovasyonla bir…
Xiaomi 17 Pro Max: Dev Pil, Sınırlı Performansla Test Edildi—yakın inceleme, pil ömrü ve performans…