Çinli Yapay Zekâ Devi DeepSeek’in Heyecan Verici Yeni Modeli: R2
Çin merkezli inovatif yapay zekâ şirketi DeepSeek, geliştirdiği ileri düzey modellerle küresel yapay zekâ pazarında büyük ses getirmeyi sürdürüyor. Şirket, OpenAI’ın popüler ChatGPT’sine karşılık olarak, daha gelişmiş ve maliyet etkin çözümler sunmayı hedefleyen yeni nesil modelleriyle dikkatleri üzerine çekmişti. Şimdi ise, merakla beklenen DeepSeek R2 modelinin tanıtımına hazırlanıyor. Bu yeni modelle ilgili ortaya çıkan bilgiler, ChatGPT’nin rekabet gücünü artırmayı vaat ediyor. Eğer iddialar doğru çıkarsa, ChatGPT yine güçlü bir rakip ile karşı karşıya kalmış olacak.
HUAWEI’nin güçlü GPU altyapısı üzerinde eğitilen R2, GPT-4’ten %97 daha uygun maliyetli olacak
İddialara göre, yeni nesil DeepSeek R2 modeli, öncekine kıyasla katlanmış kapasiteyle, yani 1,2 milyon parametreli devasa bir yapay zekâ modeli olarak karşımıza çıkacak. Bu modelin temelinde, yapay zekâ iş yükleri için optimize edilmiş, MoE (Mixture of Experts) adlı hibrit mimari yer alıyor. Ayrıca, modelin eğitimi sırasında Huawei’nin güçlü Ascend 910B yapay zekâ GPU’ları kullanıldı. Bu sayede, OpenAI’ın GPT-4 modelinde kullanılan tekniklerle karşılaştırıldığında, 1 milyon token için yalnızca 0,07 dolar maliyetle çalışabiliyor ve böylece %97 oranında büyük oranda tasarruf sağlıyor. Bu düşük maliyet, işletmelerin yüksek seviyede yapay zekâ teknolojilerini daha erişilebilir hale getirmesi için büyük bir avantaj sunuyor.
Özellikle enerji verimliliği açısından da dikkat çeken bu gelişmede, Ascend 910B GPU’nun %82 civarında aktif kullanımıyla daha sürdürülebilir çözümler ortaya konuyor. Bu sayede, maliyet ve enerji tüketimini optimize eden yeni nesil modeller, hem ekonomik hem de çevresel açıdan avantaj sağlıyor.
Görsel Yeteneklerde ve Doğrulukta Kayda Değer Artışlar
Yapay zekanın görsel işleme kabiliyetleri de önemli ölçüde gelişti. Açık kaynaklı olarak geliştirilen bu model, özellikle görsel tanıma ve analiz alanında büyük ilerlemeler kaydetti. Yapılan testlerde, COCO görsel veri setinde %92,4 seviyesine ulaşması, insana yakın görsel algılama kapasitesine işaret ediyor. Bu gelişme, modelin gerçek zamanlı görsel analizlerde yüksek doğruluk göstereceğini gösteriyor. Aynı zamanda, halüsinasyon (yanlış bilgi verme) sorununu azaltmaya yönelik çalışmalar, modelin güvenilirliğini artırmak adına önemli adımlar olarak görülüyor.
Şu an için yeni modelin kamuoyuna ne zaman tanıtılacağı konusunda kesin bir bilgi bulunmuyor. Ancak, bazı kaynaklar, bu hafta içinde duyurulabileceğine işaret ediyor. Gelişmelerin yakından takip edilmesi ve resmi açıklamaları beklemek en doğrusu olacak.
Kaynak: Webtekno