Günümüzde yapay zekâ dünyasında öne çıkan üç büyük model olan Gemini, ChatGPT ve DeepSeek, sadece metin işleme yetenekleriyle değil, aynı zamanda görsel verileri işleme konusunda da birbirleriyle rekabet içindedir. Görsel verilerin yapay zekâ tarafından işlenmesi, kullanıcı deneyimini zenginleştiren önemli bir unsur haline gelmiştir. Özellikle ChatGPT, GPT-4V entegrasyonu sayesinde fotoğraflardaki nesneleri tanımlama yeteneğine sahipken, Google Gemini, çoklu modal yaklaşımıyla görsel ve metni bir araya getirerek adeta “düşünen bir göz” işlevi görmektedir. Ancak DeepSeek, bu rekabette nerede durmaktadır? Bu üç modelin görsel işleme yeteneklerini ayrıntılı bir şekilde test ettik.
Gemini, ChatGPT ve DeepSeek için tamamen aynı promptları kullanarak görsel içerikler oluşturduk. Şimdi, hangi modelin görsel işleme yeteneğinin diğerlerinden daha üstün olduğunu inceleyelim.
İlk olarak, gün batımında, sakin bir gölün etrafında yeşilliklerle kaplı dağlar, gökyüzünde turuncu ve pembe tonlar, suyun üzerinde hafif bir sis ve göl kenarında rengarenk çiçeklerle gerçekçi ve huzur dolu bir atmosfer oluşturmalarını istedik.
Sonuçlar:
İkinci test senaryomuzda, “Güneşli bir parkta oturan dost canlısı ve oyuncu bir Golden Retriever yavrusunun ayrıntılı bir görüntüsünü” oluşturmalarını talep ettik. Köpeğin Güneş ışığında parıldayan yumuşak, meraklı gözleri ve şakacı bir şekilde dışarı çıkmış dili, etrafındaki yeşil çimenler, rengarenk çiçekler ve dağınık oyuncaklarla birlikte temsil edilmeliydi.
Sonuçlar:
Üçüncü testte, Türkiye’nin kültürel ve doğal güzelliklerini sergileyen bir manzara oluşturmalarını istedik. Özellikle eşsiz kaya oluşumları ve gün doğumunda Kapadokya üzerinde süzülen sıcak hava balonları ile sahneyi aydınlatan yumuşak altın ışık, ön planda karmaşık desenli bir halı ve dumanı tüten bir fincan Türk çayı gibi unsurlar yer almalıydı.
Sonuçlar:
Son olarak, hayal gücümüzü konuşturmak adına “Uzak bir gezegendeki uzaylı manzarası” talep ettik. Sahnede mavi ve morun canlı tonlarıyla parlayan, biyolüminesan bitkilerle çevrili yüksek kristal yapılar, ruhani bir ışık saçan iki Güneş ile dolu bir gökyüzü ve havada zarafetle hareket eden canlılar tasvir edilmeliydi.
Sonuçlar:
Metin odaklı bir çıkış yapan DeepSeek, görsel işleme konusunda Gemini ve ChatGPT’nin gerisinde kalıyor. Ancak, gelecekte geliştirilen versiyonları ile bu açığı kapatabilir mi, bunu zaman gösterecek. Sizler, bu üç modelin görsel işleme yeteneklerini nasıl değerlendiriyorsunuz? Yorumlarınızı bizimle paylaşmayı unutmayın!
İlginizi çekebilir:
Kaynak: Webtekno
Meta, Limitless’i satın alarak akıllı giyilebilirlikte yenilikçi bir kategori hedefliyor ve geleceğin teknolojisini keşfe davet…
Geçmişin absürt telefon tasarımlarını keşfedin: dairesel tuşlardan ruj telefonuna uzanan bir yolculukla teknoloji geçmişini eğlenceli…
FC 26 Profesyonel Taktikler: Sahada kontrolü elinde tutmanın inceliklerini keşfedin; pratiğe dönüştürülen strateji ve oyun…
Görsel ve işitsel yapay zekâ hakkında akışkan bir inceleme: algı, kaçınılmazlık ve evrimsel bakışla yön…
Kapaklı telefonların nostaljisini yaşatırken, unutulmaz tasarımlar ve efsane modellerle altın çağını keşfedin.
PS6 beklentileri ve özellikleri üzerine güncel izlenimler: yayınlanmaya hazırlanan nesle dair güçlü bir önizleme ve…