OpenAI Yeni Ses Modellerini Duyurdu
OpenAI, sesli konuşma ve metinden sese çeviri alanında devrim niteliğinde yeni modellerini tanıttı. Bu yeni modeller artık API üzerinden erişilebilir durumda ve hem doğal konuşma üretimi hem de metinlerin sesli hale getirilmesi konularında önemli gelişmeler sunuyor. Kısacası, yapay zeka artık sadece konuşmakla kalmıyor, konuşma biçimini de çok daha etkili bir şekilde öğreniyor!
Yeni Modellerin Özellikleri
- gpt-4o-mini-tts: Bu model, metinleri sese çevirerek daha akıcı ve gerçekçi konuşmalar oluşturabiliyor. Geliştiriciler, bu modelin konuşma tarzını özelleştirerek farklı seslendirme seçenekleri oluşturabiliyor. Örneğin, modelin bir bilim insanı gibi konuşması ya da sakin bir rehber sesiyle seslendirme yapması mümkün.
- gpt-4o-transcribe ve gpt-4o-mini-transcribe: Bu modeller, OpenAI’nin önceki Whisper modelinin yerini alıyor. Yeni modeller, daha geniş kapsamlı ve yüksek kaliteli ses verileriyle eğitildiği için farklı aksanları ve konuşma tarzlarını daha iyi anlayabiliyor. Ayrıca, yoğun arka plan gürültüsünün bulunduğu ortamlarda bile konuşmaları daha doğru bir şekilde analiz edebiliyor.
Ancak, OpenAI, yeni transkripsiyon modellerini açık kaynak olarak sunmayacağını duyurdu. Daha önce Whisper modelini açık kaynak olarak paylaşan şirket, yeni modellerin çok daha büyük olduğunu ve yerel cihazlarda çalıştırılmasının güç olduğunu belirtti. Yine de, OpenAI ilerleyen dönemlerde cihazlara özel daha hafif versiyonların açık kaynak olarak yayımlanma ihtimalini değerlendiriyor.
Kaynak: Webtekno