Categories: Yazılım

Yapay zeka görüntü oluşturmada devrimsel gelişme kaydedildi

Şinasi Kaya: Yapay zeka görüntü oluşturmada devrimsel gelişme kaydedildi 1Şinasi Kaya: Yapay zeka görüntü oluşturmada devrimsel gelişme kaydedildi 1 ChatGPT, DALL-E ve Midjourney artık yalnızca teknoloji medyasında değil öbür klâsik haber mecralarında da gündemde yer alıyor. Fakat bir sonraki yapay zeka ihtilali metin ve görsel çıktıları üzerinde değil, görüntü çıktıları üzerinde gerçekleşecek. Nvidia’nın bir mühlet evvel tanıtımını yaptığı yeni metinden görüntüye yapay zeka modeli VideoLDM, bahsettiğimiz ihtilalin kapısını aralamışa benziyor.

Nvidia’dan çığır açan gelişme

Yalnızca birkaç ay evvel metinden görüntüye üretken yapay zekalar “Will Smith’in spagetti yemesi” örneğiyle yalnızca bir latife materyali olarak görülüyordu. Lakin Nvidia’nın VideoLDM modeli evvelki örnekleri unutturacak bir araç olarak karşımıza çıkıyor. Nvidia’nın bu teknolojiyi Cornell Üniversitesi araştırmacılarıyla el ele vererek yarattığını da belirtelim. Kolay bir tabirle, bu yapay zeka modeli 2048 x 1280 piksele kadar çözünürlüğe, saniyede 24 kare suratına ve metne dayalı olarak 4,7 saniyeye kadar videolar oluşturabiliyor.

Nvidia, geliştirdiği modelinde 4,1 milyar parametre kullanıyor lakin bunların sadece 2,7 milyarı video eğitiminde kullanıldı. Bunun çok büyük bir sayı olduğunu düşünseniz de günümüzün yapay zeka standartlarına nazaran küçük bir sayı. Nvidia, görüntü oluşturmak için eğitilmiş Latent Diffusion (LDM) modelini kullanıyor. Bu model vakti izlenen bir boyut olarak algılıyor ve muhakkak bir mühlet boyunca bir imajın her alanında neyin değişebileceğini varsayım etmeye çalışıyor. Araç, sekans boyunca bir dizi ana kare oluşturuyor, akabinde ana kareler ortasındaki kareleri enterpole etmek için öteki bir LDM kullanıyor.

Elbette VideoLDM şimdiki haliyle rastgele birini kandıracak kalitede görüntüler üretemiyor. Lakin daha bir yahut iki ay evvel gördüğümüz örneklere göre gelişimin boyutu çok büyük. Şu anda, Nvidia’nın tanıttığı üzere metinden görüntüye yapay zekalar GIF’ler oluşturmak için kullanılıyor. Bu nedenle Nvidia’nın daha uzun metinden görüntü klipler oluşturmak için daha gelişmiş teknolojiler getirmesinin uzun sürmeyeceğini kestirim ediyoruz. Firmanın hazırladığı teknoloji 18-22 Haziran tarihleri ortasında Vancouver’da düzenlenecek olan Machine Vision and Pattern Recognition Konferansında sunulacak.

Şinasi Kaya

Share
Published by
Şinasi Kaya

Recent Posts

Google Fotoğraflar Uygulamasına Ultra HDR Güncellemesi

Google Fotoğraflar uygulamasına gelen Ultra HDR güncellemesiyle daha canlı ve detaylı fotoğraflar çekin. Yenilikleri kaçırmayın!

1 saat ago

Avrupa Birliği’nden Akıllı Telefon ve Tabletler İçin Yeni Enerji Etiketi Düzeni

Avrupa Birliği'nden akıllı telefon ve tabletler için yeni enerji etiketi düzeni hakkında detaylar, enerji verimliliği…

2 saat ago

Windows CMD Komutları Hakkında Kapsamlı Rehber

Windows CMD komutlarını öğrenmek isteyenler için kapsamlı rehber. Temel ve gelişmiş komutları keşfedin, sistem yönetimini…

2 saat ago

VALORANT Mobile Resmen Duyuruldu: Çin İçin Özel Bir Lansman

VALORANT Mobile resmi olarak duyuruldu! Çin için özel lansman detayları ve oyun hakkında bilmeniz gerekenler…

3 saat ago

vivo Y29 Türkiye’ye Tanıtıldı: Özellikleri ve Fiyatıyla Göz Kamaştırıyor

Vivo Y29 Türkiye'de tanıtıldı! İşte özellikleri, fiyatı ve göz kamaştırıcı tasarımıyla dikkat çeken yeni akıllı…

4 saat ago

Apple’a Karşı iPhone Hırsızlığı Davası: Kişisel Verilerin Güvenliği ve Hukuki Mücadele

Apple'a karşı iPhone hırsızlığı davasını, kişisel verilerin güvenliği ve hukuki mücadele detaylarıyla inceleyin. Güvenlik ve…

5 saat ago