Trzeci wymiar Google’a

Na zdjęciach różnych obiektów, wykonanych przez turystów, badacze Google’a wyszkolili algorytmy, które teraz przerabiają dwuwymiarowe fotografie zabytków na trójwymiarowe filmiki

Tysiące zdjęć tych samych obiektów, wykonane przez turystów pod różnymi kątami, z różnych stron i o różnych porach, posłużyły za ogromną bazę danych. Na niej Google wyszkolił algorytmy, które potrafią pokazać każdy z tych obiektów w trójwymiarowym, ruchomym obrazie. System nazywa się NeRF-W (NeRF in the Wild, Neural Radiance Fields for Unconstrained Photo Collections) i znajdzie zastosowanie w technologiach rozszerzonej i wirtualnej rzeczywistości (AR i VR). Być może zasili także nową wersję Google Earth.

Badacze udostępnili kilka filmików wypreparowanych ze zdjęć, pokazujących m.in. Fontannę di Trevi, Bramę Brandenburską i Bazylikę Sacre-Coeur. Można je obejrzeć na serwisie GiTHub.

Adres filmu na Youtube: https://www.youtube.com/watch?time_continue=14&v=yPKIxoN2Vf0&feature=emb_logo

Film opisujący trenowanie algorytmów do modelowania w 3D ze zdjęć.
Źródło: NeRF-W/ YouTube

Nad systemem pracowali Ricardo Martin-Brualla, Noha Radwan, Mehdi S. M. Sajjadi, Alexey Dosovitskiy i Daniel Duckworth – naukowcy z Google Research oraz berlińskiego oddziału Google Brain – a wyniki opublikowali w serwisie arXiv.

Wcześniej Jonathan T. Barron wspólnie z badaczami z Uniwersytetu Kalifornijskiego w Berkeley brał udział w opracowaniu systemu o nazwie NeRF (Neural Radiance Fields). Chodzi w nim o to, by z obrazów dwuwymiarowych wydobyć dane na temat głębi 3D – poprzez określenie miejsc, do których docierają promienie świetlne.

Adres filmu na Youtube: https://www.youtube.com/watch?time_continue=1&v=JuH79E8rdKc&feature=emb_logo

Pokaz działania systemu NeRF.
Źródło: Mathiew Tancik / YouTube

Dzięki NeRF-W użytkownicy urządzeń rzeczywistości wirtualnej i rozszerzonej będą mogli oglądać obiekty architektoniczne tak, jak prezentują się one w rzeczywistości. Nowe algorytmy skupiają się wyłącznie na charakterystycznych punktach obiektów, a pomijają uwiecznionych na zdjęciach ludzi, samochody i inne nieistotne w tym przypadku detale.

„NeRF-W jest w stanie rozdzielić wspólną, leżącą u podstaw geometrię 3D od przemijających obiektów i wariacji fotometrycznych, tworząc spójną, fotorealistyczną reprezentację sceny, która może być renderowana z nowych punktów widzenia” – wyjaśniają badacze z Google’a w opisie przedsięwzięcia.