Meta’nın yeni üreten yapay zeka modeli Voicebox sesle ilgili her şeyi yapabiliyor

Feysbuk ve Instagram’ın çatı şirketi Meta, yeni üretken suni zeka modelini duyurusunu gerçekleştirdi. Voicebox, hususi olarak eğitilmediği halde ses düzenleme, örnekleme ve yoldam oluşturma şeklinde konuşma oluşturma görevlerini yerine getirme becerisiyle içerik oluşturuculara yardım etmek için tasarlandı.
Meta, bu yeni suni zeka modelinin dünya genelinde birden çok kişiye yarar sağlayacağını söylüyor. örnek olarak, görme engelli kitlelerin arkadaşlarından yazılı mesajları kendi seslerinde duymalarına yardım etmek şeklinde birden çok örnekleme yapıyor. bundan farklı olarak, kitlelerin kendi sesleriyle yabancı diller konuşabilmesini de sağlayabiliyor.
Suni zeka modeli, yüksek kaliteli ses klipleri üretebiliyor ve evvelinde kaydedilmiş sesleri düzenleyerek otomobil kornaları şeklinde istenmeyen gürültüleri ortadan kaldırabilecek vasıfta. Bunun yanında ayrıca, içinde ne olduğu ve stili korurken altı dilde ses üretebiliyor. Modelin gelecekte görsel asistanlara ya da metaverse’deki oyunlarda, gerçek artist olmayan karakterlere naturel sesler vermesi de umut ediliyor.
Meta, Voicebox’ı piyasadaki öteki ses suni zeka modelleriyle karşılaştırdı ve bilhassa Vall-E ve YourTTS’yi rakip olarak gösterdi. Sözcük hata oranları ve yoldam benzerliği karşılaştırıldığında Voicebox’ın daha gelişmiş olduğu ve her iki modelden de daha iyi performans sergilediği görülüyor.
Voicebox, Meta’nın en yeni otoregresif olmayan üretken modeli olan ve metin ile konuşma içinde oldukça deterministik olmayan bir eşleme yapabilen bir Flow Matching modeli üstüne inşa edildi. Voicebox şimdiye kadar 50.000 saatten çok kaydedilmiş konuşma ve İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce dillerinde kamuya açık sesli kitaplardan alınan konuşma metinleri kullanılarak eğitildi.
Meta, suni zeka programını her insanın kullanımına sunmayacağı şeklinde, kaynak kodunu da paylaşmayacak.