Meta, görsel alanda büyük ses getiren Segment Anything Model (SAM) yaklaşımını bu kez ses teknolojilerine uyarlayarak SAM Audio adını verdiği yeni nesil yapay zeka modelini tanıttı. Profesyonel ses düzenleme süreçlerini kökten değiştirmeyi hedefleyen bu model, karmaşık ve birbiriyle iç içe geçmiş ses kayıtları içerisinden istenen ses kaynaklarını yüksek doğrulukla ayırabiliyor ve bu alanda yeni bir standart oluşturmayı amaçlıyor.
Meta ses işlemede devrim yapıyor
Geleneksel ses ayrıştırma yöntemlerinden farklı olarak SAM Audio, kullanıcıyla daha doğal ve sezgisel etkileşim kurabiliyor. Metin komutları, görsel işaretlemeler veya belirli zaman aralıklarının seçilmesi gibi çok modlu girdiler sayesinde kullanıcılar hedefledikleri sesi kolayca izole edebiliyor. Örneğin bir videoda doğrudan ses çıkaran nesneye tıklayarak o kaynağın sesini ayırmak ya da yalnızca “köpek havlaması” gibi kısa bir metin girerek istenmeyen sesleri temizlemek mümkün hale geliyor.
Modelin temelinde, ses ve görüntü verilerini zaman ekseninde hassas biçimde eşleştiren Perception Encoder Audiovisual (PE-AV) adlı gelişmiş bir altyapı bulunuyor. SAM Audio, 500 milyon ile 3 milyar parametre arasında ölçeklenebilen farklı sürümlere sahip ve gerçek zamanlı işleme performansını aşarak yaklaşık 0.7 RTF seviyesinde çalışabiliyor. Bu da hem hızlı hem de yüksek kaliteli sonuçlar elde edilmesini sağlıyor.
Akış eşleştirme temelli bir difüzyon dönüştürücü mimarisi üzerine kurulan sistem, hem gerçek dünyadan toplanan hem de sentetik olarak üretilmiş büyük bir veri setiyle eğitildi. Model, kendisine verilen karışık bir ses kaydından yalnızca hedeflenen sesi değil, aynı zamanda geride kalan artık ses bileşenlerini de eş zamanlı olarak üretebiliyor ve bu sayede daha esnek bir düzenleme süreci sunuyor.
SAM Audio’nun sunduğu üç farklı ses ayrıştırma yaklaşımı, kullanıcıya önemli bir özgürlük alanı tanıyor. Metin tabanlı yöntemde doğrudan “vokal” ya da “piyano sesi” gibi ifadeler yazılarak hedef belirlenebilirken, görsel yöntemde videodaki konuşmacı ya da enstrüman üzerine tıklamak yeterli oluyor. Sektörde ilk kez sunulan zaman dilimi tabanlı yöntem ise, belirli bir zaman aralığında tanımlanan ses karakteristiğinin tüm kayıt boyunca ayıklanmasına imkan tanıyarak ses düzenlemede yeni bir kapı aralıyor.


















