Categories: Yapay Zeka

Yapay Zekâ Modellerine Yönelik Humanity’s Last Exam Performans Testi

Yapay Zekâ Modellerine Yönelik Yeni Performans Testi: Humanity’s Last Exam

Yapay zekâ alanında çığır açan bir gelişme olarak, Center for AI Safety (CAIS) ve Scale AI isimli kuruluşlar tarafından oluşturulan yeni bir performans testi tanıtıldı. “Humanity’s Last Exam” adı verilen bu test, yapay zekâ modellerini son derece zorlayacak sorular içermekte ve sektörde önemli bir referans kaynağı olma potansiyeline sahip.

Test, matematik, beşeri bilimler, doğa bilimleri gibi çeşitli alanlarda 3.000’e yakın zorlu soru sunarak, yapay zekânın sınırlarını zorlamayı hedefliyor. Geliştiriciler, testin etkinliğini artırmak için grafikler, diyagramlar ve görsellerle desteklenen sorular hazırlamışlar.

Yapılan araştırmalar, mevcut en iyi yapay zekâ modellerinin bile bu performans testinde yüzde 100 başarı gösteremediğini ortaya koydu. Örneğin, 2021 yılında yayımlanan matematik odaklı testlerde, erken aşamadaki yapay zekâ sistemleri 100 üzerinden yalnızca 10 puan alabilmişlerdi. Bu durum, yapay zekânın düşünme ve problem çözme yeteneklerinin henüz istenilen düzeye ulaşamadığını gösteriyor.

Humanity’s Last Exam’in geliştirilmesi sürecinde, 50’den fazla ülkeden 1.000’den fazla uzman katkıda bulundu. Bu destek, araştırmacılar ve akademisyenlerden oluşan bir ekip tarafından sağlandı. Böylelikle, bu performans testi, yapay zekâ alanında gelecekteki gelişmeler için önemli bir kıstas olma yolunda ilerliyor.

Testte yer alan bazı örnek sorulara göz atmak isterseniz, buradaki bağlantıyı ziyaret edebilirsiniz.

Kaynak: Webtekno

Şinasi Kaya

Next Nepenthes: Yapay Zekâ Modellerini Sonsuz Döngüye Sokma Projesi »

Previous « Samsung Galaxy S25 ve iPhone 16 Fiyat Karşılaştırması

Öğrencilere Vergisiz Teknoloji Desteği: Yeni Vaatlerin İçeriği ve Beklentiler

Öğrencilere vergisiz teknoloji desteğinin yeni vaatleri, içerik ve beklentileri hızlı, kapsayıcı ve güvenilir bir bakışla…

11 saat ago

Mobil

Kılıflar ve Isı: Telefonunuzun Sıcaklık Dengesini Anlamak

Kılıfların ısı etkisini keşfedin: telefonunuzun sıcaklık dengesini anlamanıza yardımcı olacak pratik ipuçları ve güvenli kullanım…

11 saat ago

İnternet

Google Çin’den Çekilişinin Ardındaki Siber Savaş ve Gizlilik Müpheceleri

Google'ın Çin'den çekilişi: siber savaşın perde arkası, gizlilik şüpheleri ve küresel etkileriyle tartışmalı bir adım.

11 saat ago

Oyun

Rockstar Games Yayıncı İndirimi: Steam’de Yüzde 80’e Varan Kampanya Takvimi ve Kaçırılmayan Fiyatlar

Rockstar Games Yayıncı İndirimi: Steam’de %80’e varan kampanya takvimi ve kaçırılmayan fiyatlar, en yeni fırsatlar…

11 saat ago

Yapay Zeka

AI Slop Nedir? 2025 Yılının Kelimesi ve Dijital İçerik Kalitesi Üzerine Derinlemesine Bir Bakış

AI Slop nedir? 2025 kelimesi ve dijital içerik kalitesi üzerine derinlemesine bakışla etkili içerik üretimi…

12 saat ago

Oyun

Steam Kış İndirimi 2025: Zamanı, Süresi ve Hangi Oyunlar İçin Büyük Fırsatlar

Steam Kış İndirimi 2025: Zamanı, süresi ve hangi oyunlarda büyük fırsatlar bekliyor? Kaçırma, fırsatları yakala…

14 saat ago

Yapay Zekâ Modellerine Yönelik Humanity’s Last Exam Performans Testi

Yapay Zekâ Modellerine Yönelik Yeni Performans Testi: Humanity’s Last Exam

Related Post

Recent Posts

Öğrencilere Vergisiz Teknoloji Desteği: Yeni Vaatlerin İçeriği ve Beklentiler

Kılıflar ve Isı: Telefonunuzun Sıcaklık Dengesini Anlamak

Google Çin’den Çekilişinin Ardındaki Siber Savaş ve Gizlilik Müpheceleri

Rockstar Games Yayıncı İndirimi: Steam’de Yüzde 80’e Varan Kampanya Takvimi ve Kaçırılmayan Fiyatlar

AI Slop Nedir? 2025 Yılının Kelimesi ve Dijital İçerik Kalitesi Üzerine Derinlemesine Bir Bakış

Steam Kış İndirimi 2025: Zamanı, Süresi ve Hangi Oyunlar İçin Büyük Fırsatlar