Google’dan dikkat çeken yeni özellik: Yazılanlar müziğe dönüşüyor!

0
183 Okunma

Google, üretken bir metinden müziğe dönüştürme modeli olan MusicLM’yi sunar. Metin istemlerinden çok dakikalık parçalar üretebilir.

Görüntüler için üretken AI modelleri, insan sanatçıların görsel kalitesine çoktan ulaşmış olsa da, ses ve müzik modelleri hala çok geride. Müzik için bir DALL-E’yi gerçekleştirmek zordur. Meta’nın AudioGen , Riffusion veya Google’ın AudioLM gibi yaklaşımları var ama henüz ikna edici bir üretken müzik modeli yok.

Müzik için karmaşık telif hakkı durumuna ek olarak, zamansal boyut da büyük bir zorluktur: görüntüler durağandır, müzik değişir. Kültüre bağlı olarak, bu değişiklikler belirli kurallara tabidir – ancak aynı zamanda bozulabilir.

Google’ın MusicLM’si kulağa hoş gelen birkaç dakikalık müzik üretiyor

AudioLM, dil, ses ve müzik için üretken bir yapay zeka modelidir. AudioLM, büyük ölçekli dil modellerinden teknikler kullanır: Ses için uzmanlaşmış bir BERT modeli (w2v-BERT), örneğin dilin veya yerel melodilerin, armonilerin veya ritimlerin fonetiğini yakalayabilen ses dalga biçimlerinden anlamsal belirteçler oluşturur. SoundStream adlı bir kodlayıcı, akustik belirteçlerdeki ses dalga biçimlerinin daha ince ayrıntılarını yakalar ve yüksek kaliteli ses sentezinden sorumludur.

google-dan-dikkat-ceken-yeni-ozellik-yazilanlar-muzige-donusuyor-1

Şimdi Google, AudioLM’yi başka bir modelle birleştiren üretken bir yapay zeka sistemi olan MusicLM’yi tanıtıyor. Bu üçüncü bileşen MuLan olarak adlandırılır ve Google tarafından on profesyonel müzisyen tarafından oluşturulan 10 saniyelik ses parçacıkları ve eşleşen metin açıklamaları kullanılarak eğitildi. 5.500 müzik klibi ve metin açıklamalarından oluşan MusicCaps eğitim veri seti Google tarafından yayınlandı.

Eğitimden sonra MusicLM, hem MuLan ses belirteçleri hem de w2v-BERT’in semantik belirteçleri verildiğinde akustik belirteçleri tahmin eder. Bunlar daha sonra SoundStream tarafından sese dönüştürülür. Google, bu yöntemi kullanarak birkaç dakikalık müzik üretebilir.

MusicLM melodilerle kontrol edilebilir

Sonuçlar, yavaş bir reggae şarkısından bir atari oyunu müziğine, rahatlatıcı cazdan Gregoryen ilahilerine kadar uzanıyor. MusicLM, kısa bir cümle veya ayrıntılı açıklamalarla kontrol edilebilir.

Komut istemi

Bir atari oyununun ana müziği. Akılda kalıcı bir elektro gitar riffi ile hızlı tempolu ve iyimser. Müzik tekrarlayıcıdır ve hatırlaması kolaydır, ancak zil sesleri veya davul sesleri gibi beklenmedik sesler içerir.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz