Algorytm na blockbustera. Rozmowa z Kamilem Rutkowskim

Niektórzy mówią, że w przyszłości aktorzy nie będą już grali w filmach, bo zostaną zdigitalizowani i będzie się ich „pobierało” z biblioteki. Chcesz zagrać z Harrisonem Fordem? Proszę bardzo! – rozmowa z Kamilem Rutkowskim, dyrektorem do spraw technologii w DI Factory

Maciej Chojnowski: Kiedy mowa o sztucznej inteligencji w kontekście filmu, na myśl przychodzą znane fabuły Stanleya Kubricka czy Ridleya Scotta. Jednak ostatnio w branży filmowej głośno o SI w związku z algorytmami, które przewidują, czy film odniesie sukces, czy będzie klapą. Produkcja filmów zaczyna się automatyzować?

Kamil Rutkowski*: W naszej branży nie ma jeszcze zaawansowanej SI. Sztuczna inteligencja jest hasłem marketingowym i fajnie jest je przywoływać, bo kojarzy się z przyszłością. Natomiast to, czego dzisiaj używamy, to po prostu uczenie maszynowe. To właśnie ono zaczyna się coraz bardziej przydawać.

W pierwszej kolejności jest ono wprowadzane do zadań pozornie trywialnych, na przykład tworzenia napisów na żywo. Przetwarzanie mowy na tekst jest coraz częstsze – chodzi nie tylko o napisy, ale też o listy dialogowe do filmów. Wyobraź sobie, że uruchamiasz aplikację, ładujesz do niej film i po chwili otrzymujesz gotową listę dialogową, co jest podstawą do tłumaczeń i dalszej pracy nad filmem.

A z dziedziny telewizji: powstała koncepcja, by na meczach niższych lig nie było realizatorów, tylko kamery sterowane przez maszynę umiejącą śledzić akcję. Widziałem takie eksperymenty i wyglądały nieźle. Z perspektywy profesjonalisty, owszem, widać błędy, ale zwykły widz ich nie zobaczy. Można by ustawić taką kamerę na meczach, które zazwyczaj nie są rejestrowane, i spopularyzować niższe ligi.

Maszyny pomagają też w analizowaniu treści.

Ludzie od dawna nad tym pracują i takie systemy już są. Na YouTube codziennie przyrasta 432 tys. godzin treści – to 49 lat oglądania non stop. Kto miałby kontrolować, czy tam nie ma przemocy albo pornografii? To nierealne. Dlatego do analizowania takich treści stosuje się algorytmy.

Te narzędzia są też używane w archiwach i komercyjnych bazach wideo oraz audio, by ułatwić wyszukiwanie danych elementów, głównie obrazu, np. zachodu słońca. System działa, jeśli zawczasu algorytm tak otagował daną treść, że wiemy, czy na przykład zachód słońca znalazł się w kadrze. Dlatego istotne jest wdrażanie takich narzędzi na wczesnym etapie tworzenia archiwum.

Rozmawiałem z Netflixem: tysiące twórców chcą dla nich pisać scenariusze i kręcić filmy. Jak wybrać najlepsze pomysły? To coś dla algorytmów

Są też algorytmy, na przykład Microsoftu, które analizują treść obrazu pod kątem rozpoznawalności twarzy, obiektów, logotypów, a inny algorytm generuje z nich raport. Kiedy tworzy się film, takie narzędzie jest nie do przecenienia. Może uratować produkcję od niepotrzebnych potyczek prawnych.

Jeżeli producent ma tego typu dane na temat swoich materiałów, a ktoś zgłasza: „Szukam ujęcia z miastem”, to nagle się okazuje, że starszy materiał, który zawiera takie treści, można z zyskiem wykorzystać po raz kolejny. Więc sam taki opis w metadanych, wygenerowany za pomocą uczenia maszynowego, powoduje, że otwierają się nowe pola eksploatacji i nowe tematy, które zwiększają potencjał sprzedaży danego materiału.

Powróćmy jeszcze do „algorytmu na blockbustera”, czyli wykorzystywania uczenia maszynowego do oceny potencjału filmu bądź scenariusza: to jakaś zmiana jakościowa w modelu produkcji Hollywood? A może i tak od dawna filmy produkuje się według szablonów?

Myślę, że tak duzi gracze, jak Netflix czy Amazon, tworząc treści za spore pieniądze, muszą mieć jakąś wskazówkę, która podpowie, w którą stronę pójść. I zgadzam się: te schematy są obecne od dawna. Sam w szkole filmowej uczyłem się, w którym miejscu najlepiej wprowadzać punkty zwrotne, jakie są strategiczne elementy akcji, co film powinien zawierać, by miał szansę się sprzedać i zdobył szerszą widownię.

Nowe platformy, jak Netflix, analizują tysiące danych o tym, co oglądamy, jak długo i kiedy. Dzięki temu wiedzą, co jeszcze mogłoby nas zainteresować – i nam to podsuwają. Pewnie analizują też, jakie elementy są strategiczne dla scenariusza, by film się sprzedał. Skoro kilka milionów ludzi ogląda „Rambo IV” i oglądało części III, II i I, to dlaczego nie zrobić „Rambo V”?

Rozmawiałem z Netflixem: tysiące twórców chcą dla nich pisać scenariusze i kręcić filmy. Jak z tej puli wybrać pomysł, który może się sprzedać? To pole dla algorytmów, które w produkcji filmowej będą odgrywały coraz większą rolę.

Będą wspomagały ekspertów?

Tak, bo tu chodzi o decyzje biznesowe. Uczenie maszynowe pomaga dziś wybrać najlepsze sceny do zwiastuna, więc może w przyszłości zmontuje swoją wersję filmu i może ktoś uzna, że ten film jest ciekawy.

Z muzyką to już się dzieje. Pewien start-up stworzył narzędzie, które komponuje muzykę na żądanie. Definiujesz: mam spokojny film, chciałbym mieć nastrojową, symfoniczną muzykę, która po trzech minutach się rozpędzi. I dostajesz taką muzykę.

Albo generowanie obrazu twarzy. Na podstawie zdjęć twarzy wielu osób stworzono twarze, które nie istnieją, ale mogłyby być bardzo przydatne, gdyby je wstawiać do filmów, do tłumu. Crowd simulation: tworzymy gigantyczną scenę walki i w jednym z ujęć widzimy tych ludzi z bliska. Takie „niczyje twarze” są bardzo użyteczne.

Gdzie w cyklu produkcyjnym filmu kluczową rolę odgrywają usprawnienia oferowane przez algorytmy?

Zacznę od końca, od dystrybucji: nacisk na algorytmy, na technologię jest tam, gdzie są największe koszty. Duże studia tworzą filmy, do których konieczne jest wykonanie np. dubbingu. Tylko jak go zrobić w sposób bezpieczny, by przy okazji ten film nie wypłynął na pirackim rynku? W takim przypadku materiał się maskuje: twarze aktorów są widoczne, ale nie widać, co się dzieje wokół nich. A przy nagrywaniu dubbingu wystarczy widzieć twarz aktora: jego usta i emocje.

Ręczne zamaskowanie wszystkiego poza twarzami w całym filmie – często dla wielu postaci równolegle – byłoby katorżniczą pracą. Ale są algorytmy, które robią to automatycznie. Tak zamaskowany materiał można bezpiecznie wysłać do podwykonawców, by każdy kraj, w którym film będzie wyświetlany, zrobił swój dubbing. Takie rzeczy już dzieją się na rynku filmowym.

A inne zastosowania?

Kontrola jakości. Proces najbardziej czasochłonny, bo personel musi być dobrze wyszkolony. I bardzo męczący, bo nie można oglądać filmów przez osiem godzin dziennie i być wyczulonym na każdy piksel. Poza tym nie jesteśmy nieomylni.

Nie znam jeszcze narzędzia, które by to robiło dobrze. Ale to kwestia czasu, bo ta technologia jest bardzo potrzebna.

Jeszcze inny przykład: niedawno japońska telewizja NHK pokazała na targach w Amsterdamie algorytm, który koloruje filmy. Dzięki koloryzacji można uruchomić dystrybucję filmów, które leżały zapomniane w archiwach, bo były czarno-białe. Podobno badania wskazują, że młody widz nie chce czarno-białych treści. Ale już ich kolorowe odpowiedniki mogłyby ponownie zostać sprzedane.

Film „Niepodległa”, przy którym pracowaliśmy, trwa niecałe półtorej godziny, a pokolorowanie go zajęło kilka miesięcy. Oczywiście, było to skomplikowane, bo materiał archiwalny był fatalnej jakości – pochodził z początków XX w. Podobnych filmów jest jednak na świecie bardzo wiele. NHK planuje pokolorować swoje archiwa i dać im drugie życie.

Czy uczenie maszynowe można wykorzystać do analizy filmów pod kątem błędów, luk, niedociągnięć?

Tak. Istnieją na przykład tak zwane braki kontynuacji, które trzeba eliminować. Pracowaliśmy nad serialem, w którym w jednej ze scen aktor miał ranę zaklejoną plastrem, a kilka ujęć później już tego plastra nie było – ktoś go zapomniał przykleić albo plaster się odkleił. Zapadła decyzja, by elektronicznie aktorowi ten plaster „nałożyć”. Gdyby tego typu błędy mogły być wykrywane przez algorytmy, łatwiej byłoby nad nimi zapanować.

Z platformami wideo jest jeden podstawowy problem, którego nie było z klasyczną telewizją: możesz zatrzymać film, kiedy tylko chcesz, cofnąć go o ułamek sekundy, obejrzeć ujęcie dowolną ilość razy, przeanalizować je nawet na dużym ekranie i powiedzieć: „O, tutaj jest błąd”, a potem opublikować na ten temat post na Facebooku. Dlatego wymagania dotyczące jakości są dziś wyższe niż dawniej.

Czy firmy producenckie używają algorytmów, by wyłapywać takie rzeczy?

Z tego, co wiem, kontrolę jakości nadal przeprowadzają ludzie. Gdyby takie narzędzie istniało, bardzo ułatwiłoby wszystkim życie.

A co z rekonstrukcją filmów?

Algorytmy (choć jeszcze nie sztuczna inteligencja) są tu wykorzystywane w każdym oprogramowaniu. To bardzo czasochłonna praca, na przykład usunięcie pojedynczej rysy trwa dość długo. Gdybyśmy mieli ją usuwać ręcznie, praca ta byłaby niewykonalna w rozsądnym czasie. Problemem jest nie tylko wyeliminowanie defektu w danej klatce filmu, ale zrobienie tego w całym ujęciu. Jeślibyśmy robili to ręcznie, nie bylibyśmy w stanie na każdej klatce zachować takiej samej dokładności.

Są próby wykorzystania do tego narzędzi sztucznej inteligencji, która rozpozna, co jest np. rysą, a co nie. Jestem bardzo ciekaw ich rezultatów.

Wśród archiwistów wizualnych to, jak film powinien wyglądać po digitalizacji, budzi spory.

Są dwie drogi. Pierwszą nazywam purystyczną, a drugą kreatywną. Purystyczna to taka, w której nie modyfikuje się źródła, ale dąży do wiernego odwzorowania oryginału, usuwając z niego tylko to, co nadwyrężył czas. Żaden twórca nigdy nie chciał, by np. bakterie zjadły negatyw jego filmu.

Ale po tym etapie zaczyna się część kreatywna. Tutaj dochodzą reżyserzy i operatorzy, którzy mówią: „Ja wtedy nie miałem takich możliwości, jak dzisiaj. Teraz mogę zrobić znacznie więcej. Zawsze chciałem mieć to tak zrobione, tylko nie było możliwości”. I zaczynają modyfikować obraz i dźwięk. Kiedyś używano taśmy ORWO, o ograniczonej palecie kolorów, niestabilnej pod względem barw. Dzisiaj możemy z tego ORWO zrobić Kodaka lub coś jeszcze lepszego. I robimy, bo tak chce twórca. Ale to już nie jest rekonstrukcja źródła. To remastering.

A efekty specjalne?

Są zakusy, żeby te narzędzia pomagały w efektach specjalnych, automatycznie zastępując na przykład twarzą aktora twarz dublera. Niedawno było głośno o tym, że twarzą znanej aktorki zastąpiono twarz aktorki porno. W małym okienku coś takiego może było przekonujące, ale w filmie już by nie przeszło. My pracujemy na rozdzielczości 4/8K i musimy mieć bardzo precyzyjne detale. Nauczenie maszyny pracy na tym poziomie szczegółowości trochę potrwa. Ale myślę, że to kwestia czasu i niedługo będziemy mogli precyzyjnie wymieniać obiekty w danym ujęciu.

Niektórzy mówią, że w przyszłości aktorzy nie będą już grali w filmach, bo zostaną zdigitalizowani i będzie się ich „pobierało” z biblioteki. Chcesz zagrać z Harrisonem Fordem? Proszę bardzo! A w jakim wieku miałby on być? Chciałbyś, żeby mówił po francusku czy po chińsku? Zrobione!

Niewiarygodne? Robert Downey Jr. już został zdigitalizowany. Ciekawe, jak zostanie wykorzystany i czy prawnie i etycznie to będzie w porządku. Prawo do wizerunku będzie w tych kwestiach bardzo skomplikowane.

Na podstawie zdjęć twarzy wielu osób stworzono twarze, które nie istnieją, ale mogłyby być bardzo przydatne, gdyby je wstawiać do filmów, do tłumu. Takie „niczyje twarze” są bardzo użyteczne

Nie obawiasz się, że któregoś dnia montaż zrobi się sam? Załadujemy tylko jakąś konwencję, którą chcemy mieć – film akcji, szybkie cięcia, do tego jeszcze jakaś odpowiednio dobrana tonacja…

Trzeba być czujnym i otwartym na zmiany – także technologiczne. Nie można obawiać się technologii, bo jest nieunikniona, lecz trzeba zastanowić się, jak ją właściwie wykorzystać. Jednak istnieje ryzyko, że ci, którzy nie zaadaptują się do nowych realiów, stracą pracę, ponieważ część zawodów przestanie istnieć. W branży filmowej przejście z technologii analogowej na cyfrową spowodowało zamknięcie większości laboratoriów, które obrabiały taśmę filmową.

Widziałem narzędzie, które na bazie tysięcy zdjęć poprawia kadry fotografii. Wybierasz swoje zdjęcie, a maszyna proponuje ci lepszy kadr. I tnie. Takie narzędzia pomogą montować filmy, choć nie wiem, czy zastąpią montażystów. Mam nadzieję, że nie. Myślę, że materiał, który wcześniej był montowany przez trzy miesiące, teraz powstanie np. w dwa tygodnie.

Częścią pracy montażysty jest przeglądanie wszystkich materiałów i oddzielanie ziarna od plew. To może zrobić za niego maszyna, podsuwając mu po selekcji rzeczy najwartościowsze. Oczywiście, jeśli nie będzie jej ufał, przejrzy odrzuty i przywróci część ujęć do puli wybranych. Ale przez lata narzędzia te będą się rozwijały i montażysta, który teraz robi dwa, trzy filmy w roku, zrobi ich więcej dzięki pomocy nowych algorytmów.

Czyli narzędzie wspomagające twórcę, ale nie tworzące za niego?

Tak. Algorytmy mogłyby być pomocne na przykład przy montowaniu zwiastunów. Zwiastun na Polskę będzie wyglądał inaczej niż wersja indyjska, bo my lubimy, rozumiemy, czujemy inaczej niż Hindusi. Jeden film będzie miał dziesiątki zwiastunów precyzyjnie dopasowanych do lokalnych realiów – i lepiej się sprzeda.

A jeśli jeszcze algorytm korzysta z danych z mediów społecznościowych i wie, co ci ludzie faktycznie linkują, lajkują, co oglądają, jakie robią zdjęcia, to mamy przykład Big Data z potencjałem dla branży filmowej.

Z drugiej strony, to może być irytujące, bo dana platforma podpowie mi bym, zobaczył rekomendowany dla mnie film, bo np. jeżdżę na motocyklu, lubię wspinaczkę czy latam na motolotni, a to będzie na przykład „Mission: Impossible”, gdzie są dwa ujęcia z motocyklem.

Tylko że nie wiedząc, jaki to film, skuszę się i obejrzę ten film. A wtedy cel zostanie osiągnięty.

*Kamil Rutkowski – w branży filmowej od 2003 roku. W 2005 roku rozpoczął pracę w The Chimney Pot, gdzie odpowiadał m.in. za tworzenie narzędzi informatycznych i skryptów programistycznych do celów postprodukcyjnych. W 2008 r. stanął na czele działu Digital Intermediate, a w 2012 r. został przewodniczącym międzynarodowego zespołu DI w ramach grupy The Chimney Pot.

W 2013 r. założył wraz ze wspólnikami DI Factory, firmę zajmującą się postprodukcją filmową i reklamową w zakresie cyfrowej obróbki obrazu. Jest w niej odpowiedzialny za technologiczny rozwój i tworzenie narzędzi do cyfrowej obróbki obrazu. Bierze czynny udział w pracach w takich organizacjach, jak SMPTE, IMF UserGroup, ISO TC36.

Pracował przy ponad 250 polskich i zagranicznych filmach fabularnych i serialach zarówno współczesnych, jak i rekonstruowanych, m.in. „Zimna Wojna”, „1983”, „Loving Vincent”, „Wataha”, „Katyń”, „Sala Samobójców”, „Sanatorium pod Klepsydrą”, „Wesele”, „Rękopis znaleziony w Saragossie”. Ponad 200 z nich nadzorował jako DI Supervisor.

W 2015 roku założył polski oddział międzynarodowej organizacji SMPTE, któremu przewodzi do dziś. W 2018 roku powołał komitet techniczny do spraw Kinematografii przy Polskim Komitecie Normalizacyjnym.