Tytus, Romek i walka sieci neuronowych

Wiele współczesnych hollywoodzkich superprodukcji to przeniesiona na ekran klasyka komiksu. A gdyby tak można było pójść w przeciwną stronę i dosłownie przerobić film na komiks?

Najkrócej rzecz ujmując, działa to tak: algorytm wybiera z klipu wideo klatki o kluczowym (w jego ocenie) znaczeniu i po nadaniu im komiksowego stylu układa w formie kilku kadrów przypominających komiks, na razie pozbawiony warstwy tekstowej. W ten sposób można przerobić na komiks każdy film, nawet Zanussiego.

Program nazywa się Comixify i stworzyła go grupa specjalistów od uczenia maszynowego z Politechniki Warszawskiej: Maciej Pęśko, Adam Svystun, Paweł Andruszkiewicz, Przemysław Rokita i Tomasz Trzciński.

Algorytm bazuje na generatywnych sieciach przeciwstawnych (ang. generative adversarial networks, w skrócie GANs). To tak naprawdę dwie sieci neuronowe, z których pierwsza (generator) odpowiada za tworzenie nowej treści na bazie wzorcowych danych, druga (dyskryminator) ocenia zaś pracę pierwszej. Obie „rywalizują” ze sobą, a system kończy pracę w momencie, gdy generator dostarcza nowe treści, które najwierniej przypominają wzorcowe dane.

Przy projektowaniu Comixify skupiono się na dwóch kwestiach: doboru klatek, które mają być poddane transformacji, oraz ich stylu graficznego. Użytkownik ma możliwość przetestowania różnych wariantów samplingu, przechwytywania klatek, oceny ich kluczowości oraz stylu graficznego, w jakim mają zostać przetworzone do postaci komiksu. Aplikacja akceptuje pliki wideo o rozmiarze do 50 MB, a także klipy z serwisu YouTube.

W ciągu zaledwie kilku dni od publicznego zaprezentowania projektu Polaków żywo zainteresowała się nim branża badań nad uczeniem maszynowym. Pomysł docenili między innymi naukowcy z zespołu Google Brain.

Adres filmu na Youtube: https://youtu.be/Sw9r8CL98N0

Rob Miles z Uniwersytetu w Nottingham tłumaczy działanie generatywnych sieci przeciwstawnych (ang. generative adversarial networks, w skrócie GANs).
Źródło: Computerphile / YouTube

Nam o Comixify opowiedział Tomasz Trzciński, jeden z jego twórców.

Sebastian Górski: Czy algorytmy przetwarzające obraz czerpią wzorce ze stylu konkretnych rysowników?

Tomasz Trzciński: Wykorzystaliśmy kluczowe klatki z filmów pochodzących z serii komiksów o Star Wars. Natomiast warto zaznaczyć, że algorytm jest generalny i agnostyczny w stosunku do klatek trenujących, co w praktyce oznacza, że w przyszłości będziemy mogli zmieniać styl komiksu i dodać tę możliwość jako opcję serwisu.

Myślicie o stworzeniu na bazie projektu aplikacji mobilnej na wzór Storyboard Google’a?

Szczerze mówiąc, popularność samej aplikacji webowej trochę nas zaskoczyła. W następnych krokach zamierzaliśmy się zająć generowaniem różnorodnego layoutu, chcieliśmy wyciągnąć dane z dźwięku i skupić na generowaniu chmurek. Ale popularność serwisu i liczne pytania od korzystających z niego ludzi nasunęły nam kilka pomysłów na następne kroki, w tym na aplikację mobilną. Wydaje mi się jednak, że będziemy raczej szukali niszowego zastosowania niż konkurencji z Google.

W jakich innych dziedzinach życia mogą znaleźć zastosowanie generatywne sieci przeciwstawne, na których bazuje Comixify?

Możemy myśleć o GAN-ach w kilku kontekstach, zarówno jeśli chodzi o uzyskiwanie ciekawych efektów graficznych (à la Comixify), np. przy produkcji filmów czy zdjęć, jak i generowanie fotograficznie realistycznych twarzy, m.in. do gier komputerowych. Jeśli chodzi o zastosowania mniej oczywiste, to okazuje się, że GAN-y doskonale sprawdzają się jako narzędzia uczenia reprezentacji danych, np. deskryptorów obrazu. Wykorzystujemy również te architektury w pracy nad detekcją anomalii w ramach grantu SONATA Narodowego Centrum Nauki, dotyczącego zastosowania metod uczenia maszynowego w Wielkim Zderzaczu Hadronów w CERN.