OpenAI, Çarşamba günü meydana gelen ve şirket tarihindeki en uzun kesintilerden biri olarak kaydedilen büyük aksaklığın, yeni devreye alınan bir telemetri hizmetinden kaynaklandığını duyurdu. Bu kesinti, ChatGPT, Sora ve geliştiriciye yönelik API hizmetleri gibi birçok platformda önemli aksaklıklara sebep oldu. Şirket, yayınladığı son durum raporunda, kesintinin bir güvenlik olayı ya da yeni bir ürün lansmanından değil, Çarşamba günü devreye alınan Kubernetes metriklerini toplayan bir telemetri hizmetinden kaynaklandığını vurguladı.
OpenAI, bu durum için herkesten özür diledi. Kubernetes, uygulama paketlerini ve ilgili dosyaları izole ortamlarda yönetmeye yardımcı olan açık kaynaklı bir yazılımdır. Ancak, yeni telemetri hizmeti istemeden kaynak yoğun Kubernetes API işlemlerine yol açarak, Kubernetes kontrol düzleminin devre dışı kalmasına neden oldu. OpenAI’nin birçok hizmetinin DNS çözümlemesine dayandığı Kubernetes sürecinin bu durumdan etkilendiği belirtildi.
OpenAI’nin DNS önbelleklemesi, yaşanan sorunun tam kapsamının anlaşılmadan önce devam etmesine ve dolayısıyla görünürlüğün gecikmesine yol açtı. Şirket, durumu müşteriler etkilenmeden birkaç dakika önce tespit ettiklerini, ancak aşırı yüklenmiş Kubernetes sunucuları nedeniyle hızlı bir çözüm geliştiremediklerini açıkladı. OpenAI, bu olayın birçok sistem ve sürecin aynı anda başarısız olmasının ve beklenmedik şekillerde etkileşimde bulunmasının bir sonucu olduğunu ifade etti.
Gelecekte benzer olayların yaşanmaması adına OpenAI, çeşitli önlemler almayı planlıyor. Bu önlemler arasında altyapı değişikliklerinde daha iyi izleme, aşamalı yayılımlarda iyileştirmeler ve mühendislerin Kubernetes API sunucularına her koşulda erişimini sağlamak için yeni mekanizmalar yer alıyor. OpenAI, bu kesinti için ChatGPT kullanıcılarından özür diledi ve beklentilerinin altında kaldıklarını da kabul etti.
Kaynak: Webtekno