Oturduğumuz bir kafede, katıldığımız etkinliklerde ya da en basitinden havalı video edit’lerinde duyduğumuz şarkılar hoşumuza gittiğinde telefonumuzu açıp Shazam’a giriyoruz ve Shazam da saniyeler içinde o şarkıyı bize verebiliyor.
Bunu özellikle de kafe ve etkinlik gibi arka plan seslerinin yoğun olduğu ortamlarda yapabilmesi ise durup; “nasıl saniyeler içinde şarkıyı buluyor” diye düşündürüyor. Elbette şarkıyı bulduktan sonra, sıradaki şarkıyı Shazam’lama ihtiyacı duyana kadar uygulamanın yüzüne bakmadığımız için arka planda dönenlere pek de dikkat etmiyoruz. Fakat işin o kısmı daha etkileyici.
Öncelikle kısaca Shazam’dan bahsedelim.
2022’de ayda 225 milyonu aşkın kullanıcıya ulaşmış olan uygulamamız oldukça basit bir mantığa sahip. Uygulamayı açtığınızda yapmanız gereken tek şey büyük logoya bir kere dokunmak. Bunun ardından Shazam, mikrofonunuzu kullanarak müziği dinliyor ve ne olduğunu adeta bir kara büyü gibi saniyeler içinde buluyor.
Tabii biz yine de Orta Çağ geleneklerinden uzaklaşıp Shazam’a kara büyü dememeyi tercih edelim. İşte arkasındaki mantık:
Shazam’a müziği dinlettiğinizde uygulamada o müziğin ses dalgaları, bilgisayarın işleyebileceği verilere dönüşmüş oluyor. Bu sayede her şarkı için eşsiz bir dalga oluştuğundan, bir parmak izi oluşturulmuş oluyor. Bu işlem bir basitleştirme temelinde ilerliyor. Sesin yükseldiği, inceldiği veya kalınlaştığı yerleri tümüyle dahil etmek yerine bu olayların ses dalgalarındaki tepe noktaları dikkate alınıyor. Zaten işlemin saniyeler sürmesini sağlayan da bu basitlik.
Temel mantığı anladıktan sonra pratik örneğe geçelim. Diyelim ki kafede otururken çalan şarkı hoşunuza gitti ve şarkıyı Shazam’ladınız. Logo’ya bastığınız an Shazam, sesi kaydederek bir spektrogram oluşturuyor. Mikrofona gelen tüm seslerin belirli bir zaman (Shazam için maks. 20 saniye) aralığında kaydedildiği bu spektogram’da daha sonradan, az önce bahsettiğimiz tepe noktaları oluşturuluyor ve üstte gördüğünüz karmaşa basitleşmiş oluyor.
Son aşamada ise artık veriye dönüşmüş olan bu tepe noktaları, birbiriyle eşleştirilerek Shazam’ın devasa kütüphanesinde diğer veri çiftleriyle karşılaştırılıyor. Eğer yeterince çift eşleşirse de Shazam, şarkıyı bulduğunu söyleyerek şarkı ismini ve sanatçıyı verebiliyor. Elbette bu uzun uzun anlattığımız süreç, bilgisayar tarafından geliştirildiğinden saniyeler içinde bitebiliyor.
Bu açıdan baktığımızda Shazam algoritması, bizim nefes alıp vermemiz kadar basit ve aynı şekilde detaylı.
Kaynak: Webtekno