Oko w oko z lwem, czyli zrób zdjęcie bez przeszkód

Pomysł zrodził się w zoo, gdy pewnego naukowca sfrustrowało robienie zdjęć zza krat i ogrodzeń. Opracował on szybszy sposób usuwania przeszkód z pierwszego planu niż dotychczasowe rozwiązania. Być może uda się go zastosować w smartfonach

Jeśli widok na zdjęciu przesłania ogrodzenie, przeszkodę można usunąć za pomocą narzędzi do obróbki obrazów wspomaganych sztuczną inteligencją. Ale zwykle wymaga to wyuczenia sieci neuronowej rozpoznającej obiekty za pomocą żmudnego etykietowania – trzeba jej wskazać na wielu przykładach, co jest fragmentem płotu. Stosowanie takich metod jest też kosztowne obliczeniowo, czyli wymaga czasu i mocy procesorów.

Nowy sposób opracowany przez Jia-Bing Huanga z Virginia Technological University i współpracowników z National Taiwan University opublikowany w serwisie ArXiv jest szybszy i mniej wymagający. Huang wpadł na pomysł podczas wizyty w zoo, gdy sfrustrowało go robienie zdjęć zza krat i ogrodzeń. Wraz z kolegami opracowali algorytm, który usuwa takie przeszkody na podstawie kilku klatek, różniących się nieznacznie kątem ujęcia.

Sieć neuronowa uczy się, co ma usunąć, bez etykietowania i automatycznie, na podstawie zaledwie kilku klatek

To sposób równie prosty, co pomysłowy, zasadzający się na zjawisku paralaksy – obiekty znajdujące się bliżej obiektywu (lub oka) przesuwają się przed oczami szybciej, odległe zaś wydają się nieruchome. Zastosowanie odpowiedniego algorytmu uczenia maszynowego pozwala na wyodrębnienie przeszkody na pierwszym planie i jej usunięcie. Nowość polega na tym, że sieć neuronowa uczy się, co ma usunąć, bez etykietowania i automatycznie, na podstawie zaledwie kilku klatek.

Badacze zademonstrowali, że ich algorytm usuwa krople deszczu i odbicia przy zdjęciach robionych przez szybę, odbicia światła w fotografowanych powierzchniach oraz niechciane elementy takie jak na ogrodzenie czy słup.

Komentujący dla tygodnika „New Scientist” Dima Damen z brytyjskiego University of Bristol twierdzi, że praca jest bardzo innowacyjna i może odbić się szerokim echem. Huang zaś ma nadzieję, że algorytm da się poprawić, by był szybszy (obecnie przetworzenie zdjęcia 1200 na 900 pikseli trwa trzy minuty), co pozwoli na zastosowanie go w smartfonach.