SI lepsza od człowieka w kolejnej grze. Grze cieni

Czy można, nie wychylając głowy, zajrzeć za róg budynku? Prawa fizyki wcale tego nie zabraniają. A ułatwia to sztuczna inteligencja

Camera obscura, zwana także aparatem otworkowym, zasadza się na tym, że niewielki otwór działa jak soczewka i pozwala rzutować (odwrócone) obrazy na powierzchnie. Gdy odkryto światłoczułe materiały, dała początek fotografii. Ale już starożytni Grecy obserwowali, jak światło spomiędzy liści rzuca na ziemię odwrócony obraz tarczy słońca podczas zaćmienia (co opisano w XV księdze przypisywanych Arystotelesowi „Problemów”).

Dostrzeżenie, że tak samo działa każdy otwór – na przykład okno – wymaga zmysłu obserwacji i wnikliwości umysłu. Niewątpliwie ma je Antonio Torralba. Osiem lat temu, w 2012 roku, dostrzegł grę światła i cieni na ścianie hotelowego pokoju. Zaintrygowany stwierdził, że mają one głębszy sens i odkrywają to, co jest za oknem. Razem z Billem Freemanem (również wykładowcą słynnego MIT) zaczęli badać zjawisko takich „przypadkowych aparatów”.

W większości podobnych przypadków, nawet jeśli ludzkie oko coś zauważa, odbity obraz jest zbyt słaby, a mózg bierze go za szum informacyjny. Torralba i Freeman są jednak inżynierami specjalizującymi się w optyce obliczeniowej. Nic więc dziwnego, że zaczęli się zastanawiać, jakie informacje z takiej gry cieni można uzyskać i w jaki sposób można to zrobić.

Armia chce zobaczyć więcej

W 2012 roku opublikowali pracę, w której dowodzili, że gra cieni na ścianie jest co prawda zbyt słaba i nieostra, aby uzyskać z niej czytelne obrazy tego, co znajduje się za oknem – ale udowodnili też, że obecność przeszkody pozwala na wyliczenie różnicy natężenia światła pomiędzy dwoma obrazami na ścianie (bez przeszkody i z nią). To już niesie istotne informacje – na przykład o układzie obiektów za oknem czy sylwetkach obecnych tam osób. Jak pisali, ich odkrycie może znaleźć zastosowanie w rekonstrukcji obrazów, na przykład w kryminalistyce.

Amerykańska agencja wojskowa DARPA w 2016 r. przeznaczyła na badania nad „rewolucyjnym wzmacnianiem widoczności” prawie 30 mln dol.

W tym samym roku ukazała się też praca innych naukowców z MIT pod kierunkiem Ramesha Raskara, która dowodziła, że podobne informacje można uzyskać o obrazach ukrytych za rogiem. Krawędzie przedmiotów także działają jak rodzaj otworu czy przesłony, bowiem światło ulega na nich załamaniu i rozproszeniu. Takie rozproszone wzory są zbyt słabe dla ludzkiego oka (i umysłu). Ale z gry światła w półcieniu przeszkody można odtworzyć zgrubne ustawienie obiektów czy ustalić liczbę osób za rogiem.
Dla przeciętnego człowieka ma to niewielkie znaczenie. Ale wojsko i wywiad stwierdziły, że dzięki tym odkryciom można będzie opracować urządzenia, które pozwolą zajrzeć za róg, nie wystawiając się na ostrzał.

Na fali tych odkryć amerykańska DARPA (Agencja Zaawansowanych Projektów Badawczych w Obszarze Obronności) w 2016 roku przeznaczyła prawie 30 milionów dolarów na dalsze badania w tym kierunku. Program nazwała „Revolutionary Enhancement of Visibility by Exploiting Active Light-fields (REVEAL)” (co jest grą słów, bowiem pierwsze litery angielskiej nazwy projektu „Rewolucyjne wzmacnianie widoczności poprzez wykorzystanie aktywnych pól świetlnych” układają się w słowo „odsłaniać”).

Laser zobaczy więcej

Promienie światła niosące informacje o obrazach na zewnątrz pomieszczeń nie tworzą wyraźnych obrazów na ścianach, bo docierają z wielu kierunków i wzajemnie się znoszą. To dlatego, że światło słoneczne i pochodzące z latarni czy żarówek jest niespójne i łatwo ulega rozproszeniu, więc obrazy są niezwykle słabe. Inaczej jest z promieniami laserów, których wiązki są spójne. Można je wykorzystać, by odbite od przedmiotu światło lasera dało na ścianie wzór, który będzie łatwiej odszyfrować. Pierwsze takie laserowe „urządzenie do zaglądania za rogi” było sporej wielkości i kosztowało pół miliona dolarów. Wymagało też kamer umożliwiających rejestrację miliardów klatek na sekundę, co wymagało zbudowania specjalnych urządzeń.

W 2018 roku badacze ze Stanfordu opublikowali jednak pracę, w której dowodzili, że skomplikowane i drogie aparaty nie są potrzebne – na podstawie odbicia laserowych promieni obraz można zrekonstruować za pomocą tańszych urządzeń – oraz odpowiednich algorytmów.

Na marginesie – przy okazji dowiedli też, że (za pomocą odpowiedniej długości fal radiowych oraz algorytmów pozwalających na rozróżnienie sygnałów odbitych od poszczególnych stron) można czytać zamknięte książki.

Sztuczna inteligencja na wzmocnienie

Niezależnie od tego, czy za róg zaglądamy, rejestrując „normalne” oświetlenie, czy wiązkę lasera, niezbędne są odpowiednie algorytmy, które sygnał wzmocnią. Bez sztucznej inteligencji takie zajrzenie za róg bez wychylania się niewiele by dało.

SI musi rozwikłać detektywistyczną zagadkę, którą badacze porównują do odgadnięcia dwóch liczb tylko na podstawie wyniku ich mnożenia. Jeśli wynosi on 80, możemy tylko zgadywać, czy chodzi o 4 i 20, czy może 12,5 oraz 6,4. A taką właśnie łamigłówkę trzeba rozwiązać w przypadku każdego piksela obrazu. Stąd pomysł, by wykorzystać sieci neuronowe. Jedna z sieci generuje wtedy pewien przypadkowy obraz, druga odejmuje go z uzyskanego obrazu wideo. Obie sieci są nagradzane, jeśli wynik ich działania przypomina oryginalne nagranie wideo.

Adres filmu na Youtube: https://youtu.be/hhEJMpouMS8

Jak obejrzeć ukryte wideo.
Źródło: MITCSAIL / YouTube

Niedawno naukowcy z MIT, którymi kierował Miika Aittala (zamienił później uczelnię na pracę w firmie NVIDIA), udowodnili, że za zasłonę czy róg budynku można zajrzeć także bez laserów. Algorytmy pozwalają na rekonstrukcję tego, co się dzieje poza polem widzenia kamery, na podstawie cieni w normalnym oświetleniu. Jest to jednak dość żmudne i zajmuje około dwóch godzin.

Z kolei w ubiegłym roku badacze z Boston University wykazali, że sztuczna inteligencja pozwala wykorzystać zwykły aparat, nawet w smartfonie, jak peryskop. Wystarczy zdjęcie półcienia rzucanego przez przeszkodę, by móc odtworzyć, co znajduje się za nią. Oczywiście tu też potrzeba algorytmu skutecznie eliminującego szum tła, co określają jako „peryskopię obliczeniową”.

Niezależnie od kolegów z MIT badacze z uniwersytetów Stanford i Princeton opracowali niedawno algorytm, który pozwala zajrzeć za przeszkodę za pomocą lasera – tym razem w czasie rzeczywistym. Nie potrzeba do tego drogich, specjalnie skonstruowanych urządzeń – tym razem wystarczy standardowa kamera i dostępne na rynku lasery. Tu również rekonstrukcja obrazu obiektu z interferencji laserowej wiązki jest wyzwaniem obliczeniowym. Ale algorytm, który za pomocą uczenia głębokiego nauczy się szumu tła, jest w stanie odtworzyć obraz za przeszkodą.

Oprócz oczywistych zastosowań wojskowych (nikt nie musi wystawiać się na linię strzału, żeby zajrzeć za róg budynku czy przeszkodę) technologia przyda się w autonomicznych pojazdach, które będą mogły kiedyś stwierdzić, co czeka za zakrętem.

Te ostatnie dwa projekty finansowane były przez DARPA z programu REVEAL. Ciekawe, co jeszcze przed nami odsłoni.