Categories: Yapay Zeka

ChatGPT’nin Yeni Sürümlerinin Eskiye Göre Daha Kötü Cevaplar Verdiği Ortaya Çıktı

OpenAI’ın Kasım 2022’de piyasaya sürdüğü sohbet botu ChatGPT, yapabildikleriyle tüm dünyada viral olmayı başarmıştı. ChatGPT, günümüzde birçok mobil uygulamada kullanılmaya, özellikle müşteri temsilciliğinde aktör olarak yer almaya başladı.

ChatGPT’nin her güncellemeyle birlikte geliştiğini varsayıyor olsak da 18 Temmuz’da yayınlanan bir araştırma, ortaya ilginç sonuçlar koydu. Stanford ve Kaliforniya Üniversitelerinden bilim insanları, ChatGPT’nin her yeni dil modeliyle daha kötü cevaplar vermeye başladığını açıkladı.

Son sürüm GPT modellerinde başarısızlık oranı daha yüksek:

Araştırma ekibinde yer alan Lingjiao Chen, Matei Zaharia ve James Zou, ChatGPT’yi oluşturan dil modeli GPT’nin iki farklı versiyonunu ve ikişer sürümünü teste soktu: GPT-3.5 Mart/Haziran ve GPT-4 Mart/Haziran.

Testte, dil modeline birkaç matematik problemi ile hassas sorular soruldu. Kod yazımı ve girdiye yönelik muhakeme yürütmesi istendi. Özellikle sürümler arasındaki fark, fazlasıyla şaşırtıcıydı.

GPT-4’ün Mart sürümü, kendisine sunulan bir sayının asal sayı olup olmadığını %97,6 doğruluk oranıyla bilmeyi başardı. Aynı versiyonun Haziran sürümünde ise bu oran sadece %2,4 ile sınırlı kaldı.

Asal sayılarda GPT-3.5’in başarısı ise GPT-4 Mart’tan da daha iyiydi. GPT-3.5 Mart sürümü, asal sayıları aynı süre içinde daha yüksek doğrulukta biliyordu. Geliştikçe yaşanan benzer düşüşler kod yazımında da kendisini gösterdi.

İş hassas sorulara geldiğinde ise garip bir tablo oluştu. Mart sürümlerinde bot, kullanıcıya bir soruyu neden cevaplayamayacağını detaylı bir şekilde anlatıyordu. Haziran sürümlerinde ise sadece kullanıcıdan özür diliyor ve soruyu cevaplayamayacağını söylüyor.

ChatGPT’nin kabiliyetlerindeki düşüşün ardındaki nedeni, araştırmayı yapan ekip de belirleyemedi.

Kaynak:  Webtekno

Meral Erden

Recent Posts

2025 Yılında En Güvenilir Otomobil Markaları: Consumer Reports’in Türkiye İçin Özeti

2025’de en güvenilir otomobil markalarını Türkiye için özetleyen, Consumer Reports verileriyle güven ve kalite odaklı…

9 saat ago

Few-off Koleksiyonları: Albert Spiess ve Lamborghini’nin Sınırları Zorlayan Sanat Eseri

Albert Spiess ve Lamborghini’nin sınırları zorlayan Few-off koleksiyonunun sanatında yenilikler, cesur renkler ve özgün tasarımın…

9 saat ago

MKBHD’nin 2025 Telefon Ödülleri: En İyiler ve Hayal Kırıklıkları

MKBHD’nin 2025 Telefon Ödülleri: En iyi cihazlar, beklenenler ve hayal kırıklıklarıyla dolu kapsamlı inceleme.

10 saat ago

Steam Spor Festivali: Ayrıntılı İndirim Listesi ve Öne Çıkan Fiyatlar

Steam Spor Festivali için kapsamlı indirim listesi ve öne çıkan fiyatlar. Kaçırılmayan fırsatlar ve hızlı…

12 saat ago

A101’de Bu Hafta Öne Çıkan ZTE nubia V70 Max Fiyatı ve Özellikleri

A101’te bu hafta öne çıkan ZTE nubia V70 Max özellikleri ve fiyatı; detaylar, avantajlar ve…

12 saat ago

Samsung Galaxy S25: One UI 8.5 Beta ile Depolama Alanı Paylaşımı ve Bilgi Akışı Yenilikleri

Samsung Galaxy S25: One UI 8.5 Beta ile Depolama Paylaşımı ve Bilgi Akışı yeniliklerini keşfedin.…

13 saat ago