Categories: Yapay Zeka

Google Gemini 2.5 Pro: Yapay Zekâ Performans Testlerinde Zirvede

Yapay Zekâ Modellerinin Performans Testleri

Yapay zekâ sektörü her geçen gün daha da rekabetçi hale gelirken, yapılan testler, dünyanın en üstün yapay zekâ modelinin hangisi olduğunu gözler önüne serdi. Elde edilen bulgular, aslında çok da şaşırtıcı değildi. Google’ın yeni nesil yapay zekâ modeli Gemini 2.5 Pro, girdiği testlerde diğer modellerden daha iyi sonuçlar elde etti. Google Gemini 2.5 Pro ile diğer yapay zekâlar arasındaki performans farkı oldukça belirgin ve etkileyiciydi.

Model, bazı testlerde rakiplerinin gerisinde kalsa da, buradaki puan farkı çok anlamlı değildi. Gemini 2.5 Pro, farklı testlerde de gözle görülür bir başarı sergiliyor! Örneğin, matematik alanında gerçekleştirilen MathArena testinde, bu model rakiplerinden çok daha etkileyici bir performans sergileyerek, puanını yüzde 24,4 olarak kaydettirdi. Aynı testte, OpenAI, Anthropic ve DeepSeek gibi önde gelen firmaların yapay zekâ modelleri ise yüzde 5’in altında kaldı.

Bunun yanı sıra, yapay zekânın insanları ne zaman geçebileceğini ölçen Humanity’s Last Exam testinde de Gemini 2.5 Pro, rakiplerini geride bıraktı. Ancak bu, Gemini 2.5 Pro’nun her alanda en iyi yapay zekâ modeli olduğu anlamına gelmiyor. Örneğin, kodlama konusunda gerçekleştirilen LiveCodeBench testinde modelin aldığı puan yüzde 70,4 olarak kaydedildi. OpenAI’ın o3-mini modeli ise aynı testte yüzde 74,1 puan elde etti.

Ayrıca, yazılım geliştirme ile ilgili bir diğer test olan SWE-bench‘te Gemini 2.5 Pro, yüzde 63,8 puan alarak, yüzde 70,3 puanla öne çıkan Claude 3.7 Sonnet’in gerisinde kaldı.

Kaynak: Webtekno

İnanç Can Çekmez

Recent Posts

Meta, Limitless’i Satın Alarak Akıllı Giyilebilirlikte Yeni Bir Kategori Hedefliyor

Meta, Limitless’i satın alarak akıllı giyilebilirlikte yenilikçi bir kategori hedefliyor ve geleceğin teknolojisini keşfe davet…

7 saat ago

Geçmişin Absürt Telefon Tasarımları: Dairesel Tuşlardan Ruj Telefonuna Kadar

Geçmişin absürt telefon tasarımlarını keşfedin: dairesel tuşlardan ruj telefonuna uzanan bir yolculukla teknoloji geçmişini eğlenceli…

7 saat ago

FC 26 Profesyonel Taktikler: Sahada Kontrolü Elinde Tutmanın İncelikleri

FC 26 Profesyonel Taktikler: Sahada kontrolü elinde tutmanın inceliklerini keşfedin; pratiğe dönüştürülen strateji ve oyun…

8 saat ago

Görsel ve İşitsel Yapay Zekâ Üzerine Akışkan Bir İnceleme: Algı, Kaçınılmazlık ve Evrimsel Bir Bakış

Görsel ve işitsel yapay zekâ hakkında akışkan bir inceleme: algı, kaçınılmazlık ve evrimsel bakışla yön…

10 saat ago

Kapaklı Telefonların Altın Çağı: Unutulmaz Tasarımlar ve Efsane Modeller

Kapaklı telefonların nostaljisini yaşatırken, unutulmaz tasarımlar ve efsane modellerle altın çağını keşfedin.

13 saat ago

PS6 Beklentileri ve Özelliklerine Yeni Bir Bakış: Yayınlanmaya Hazırlanan Nesil Hakkında Güncel İzlenimler

PS6 beklentileri ve özellikleri üzerine güncel izlenimler: yayınlanmaya hazırlanan nesle dair güçlü bir önizleme ve…

13 saat ago