Antymikser, czyli dźwięk na rozdrożu

Nowy algorytm od Facebook AI potrafi rozłożyć nagranie audio na osobne ścieżki

Algorytmy coraz lepiej radzą sobie z rozpoznawaniem obiektów na obrazach – na przykład w smartfonach coraz powszechniejsza jest technologia rozróżniająca pierwszy plan od tła czy rozpoznająca zarys twarzy. Inteligentne programy do edycji grafiki pozwalają usunąć wybrane obiekty tak, że nie widać, że kiedykolwiek tam były. Już wkrótce podobne rzeczy będzie można robić z dźwiękiem.

Alexandre Defossez, badacz w paryskim laboratorium Facebook AI, opracował system o nazwie Demucs, umożliwiający rozdzielenie brzmień instrumentów w nagraniu utworu muzycznego i zapisanie ich jako osobnych śladów audio.

Sejsmograf do muzyki

Jak czytamy w omówieniu projektu na stronie tech.fb.com, najpowszechniejsze systemy separacji dźwięku działają poprzez analizę spektrogramu, który jest zapisem zmian natężenia dźwięku na różnych częstotliwościach. Tego rodzaju systemy są dobre w wychwytywaniu dźwięków, które w danym momencie zajmują wąskie spektrum częstotliwości (np. skrzypce grające legato, czyli łączące kolejne dźwięki). Gorzej, jeśli instrument ma bardziej złożoną barwę (np. uderzenie w talerz). Wtedy dźwięk po separacji ma bardzo zubożone brzmienie. Problemem jest także sytuacja, kiedy kilka instrumentów zajmuje te same pasma, na przykład perkusja i bas – system po prostu nie daje rady ich odróżnić.

Modele, na których pracuje Defossez, nie bazują na spektrogramie, tylko na przebiegu fali. Badacz tłumaczy, że działają podobnie jak widzenie komputerowe. W przypadku systemów rozpoznawania obrazu sieci neuronowe rozpoznają podstawowe elementy, jak rogi i brzegi, a na wyższych poziomach coraz bardziej złożone struktury, by wreszcie rozpoznać np. szafę, psa czy ludzką twarz.

– Model przebiegu fali działa podobnie – komentuje Defossez. – Wykrywa w fali dźwiękowej proste wzorce, z których układa wysokopoziomową strukturę.

Technologia może pomóc asystentom głosowym w wychwyceniu komend głosowych w gwarnym pomieszczeniu lub znaleźć zastosowanie w nowoczesnych aparatach słuchowych czy słuchawkach z aktywną redukcją szumów

Defossez porównuje swój system do sejsmografu, który odnotowuje ruchy tektoniczne. Model sztucznej inteligencji może wychwycić kilka odbywających się równocześnie trzęsień ziemi i określić parametry osobno dla każdego z nich. System Defosseza podobnie traktuje utwór muzyczny – analizuje go jako całość i wychwytuje poszczególne brzmienia, zamiast „ciąć” go zgodnie z tym, co wskazuje spektrogram.

System Defosseza bazuje na modelu o nazwie Wave-U-Net, który został udoskonalony i zmodyfikowany. Wcześniejsze modele bazujące na analizie przebiegu fali separowały dźwięk poprzez wycinanie całej reszty utworu. Nie radziły sobie jednak z miejscami, w których sygnał, który próbowały odseparować, był zagłuszany przez inny sygnał. Demucs ma możliwość samodzielnego uzupełnienia brakujących elementów.

Gibson czy Fender

Na obecnym etapie system nie radzi sobie z oddzielaniem podobnie brzmiących instrumentów – na przykład dwóch gitar elektrycznych. Defossez chce kontynuować prace i ma nadzieję, że będzie w stanie rozpoznać nawet bardzo podobnie brzmiące gitary różnych producentów.

Kod projektu jest w całości dostępny na GitHubie. Twórca liczy, że udostępnienie go pozwoli innym specjalistom i pasjonatom udoskonalić go.

Technologia ma potencjalne praktyczne zastosowania. Muzycy mogą wyseparować ścieżkę instrumentu, by nauczyć się jego partii. Może to też pomóc asystentom głosowym w wychwyceniu komend głosowych w gwarnym pomieszczeniu. System może też znaleźć zastosowanie w nowoczesnych aparatach słuchowych czy słuchawkach z aktywną redukcją szumów.

Defossez wyobraża sobie, że gdyby technologia została udoskonalona, pozwoliłaby też na wierne odtwarzanie brzmień kultowych instrumentów muzycznych z archiwalnych nagrań sprzed lat.

Poniżej kilka próbek działania algorytmu.

Piosenka przed separacją:
https://www.facebook.com/TechAtFacebook/videos/530403914522413/

Wyizolowany wokal:
https://www.facebook.com/TechAtFacebook/videos/252600015752368/

Wyizolowana sekcja basu:
https://www.facebook.com/TechAtFacebook/videos/219477249455609/

Wyizolowana perkusja
https://www.facebook.com/TechAtFacebook/videos/228523668321164/