Poligloci z Bollywood, czyli dubbing z automatu

Naukowcy z Indii pracują nad technologią, która pozwoli aktorom filmowym „grać” w języku, którego nie znają

Deepfakes to filmy wideo przerabiane cyfrowo przez algorytmy sztucznej inteligencji. Oprogramowanie oparte o uczenie maszynowe może zmienić ruchy ust oryginalnej postaci (przy okazji wkładając w nie inne niż oryginalne słowa). Może też zamienić twarz na oryginalnym nagraniu na dowolną inną.

Badacze z International Institute of Information Technology w indyjskim Hajdarabadzie wykorzystali tę technologię, aby stworzyć narzędzie, które automatycznie tłumaczy film z jednego języka na drugi z dopasowaniem ruchu ust mówiącego.

Ich narzędzie składa się w istocie z kilku osobnych algorytmów. Pierwszy z nich rozpoznaje mowę oryginału i zamienia na tekst. Drugi – tłumaczy tekst na język docelowy. Trzeci zamienia przetłumaczony tekst na mowę w języku docelowym. Czwarty zaś dopiero kwestię aktora „wkłada w usta” postaci na filmie, czyli dopasowuje ruchy warg do dźwięków słów w obcym języku.

Badacze wytrenowali algorytmy uczenia maszynowego na niemal 30 godzinach nagrań anglojęzycznych, co pozwala teraz na stworzenie dziesięciosekundowego tłumaczenia wideo w minutę. Głos postaci mówiącej na oryginalnym filmie może przy tym zostać zachowany lub zastąpiony maszynowym.

Badacze sądzą, że ich narzędzie może się przydać do tłumaczenia filmów – zwłaszcza w Indiach. Prócz hindi, uznawanego za ojczysty przez mniej niż połowę z prawie 1,3 mld mieszkańców kraju, i często używanego angielskiego w poszczególnych stanach używanych jest ponad 20 innych języków urzędowych. Faktyczna liczba języków, jakimi mówi się na subkontynencie, jest trudna do ustalenia – różne źródła podają od stu kilkudziesięciu do ponad czterystu.

Algorytmy, jak twierdzą ich twórcy, nie są jeszcze tak zaawansowane, aby pozwolić na tłumaczenia na żywo, na przykład podczas wideokonferencji. Prajwal Renukanand, jeden z autorów pracy, wyjaśnia tygodnikowi „New Scientist”, że choć naśladowanie ruchów ust w obcym języku i naniesienie ich na wideo w czasie rzeczywistym jest możliwe, to tłumaczenie na żywo jest trudne.

Technologię deepfake’ów wykorzystała na przykład brytyjska firma Synthesia, która stworzyła reklamę społeczną z Davidem Beckhamem mówiącym w pięciu językach. Ale nie było w tym przypadku mowy o synchronizowaniu ruchu ust do maszynowego tłumaczenia – dotychczasowe technologie pozwalały tylko na przełożenie do nowego wideo ruchu ust (lub całej twarzy) wcześniej nagranej osoby.