Chorowski: Chciałbym, by maszyny uczyły się same

Z Janem Chorowskim, który szkoli sztuczną inteligencję na dziennikach okrętowych kapitanów floty holenderskiej z XVII wieku, rozmawia Monika Redzisz

Monika Redzisz: Zamówiłam sobie coś na AliExpress. Przesyłka, która płynie do mnie z Chin jakimś kontenerowcem, spóźnia się już miesiąc. Być może to wina koronowirusa, a może na statek napadli piraci z Karaibów… Mam to gdzieś! Wciąż nie mam tego, na co czekam, i co gorsza nie wiem, kiedy to dostanę. Czy NavAIgo w przyszłości zaradzi takim frustracjom?

Jan Chorowski*: Pracujemy nad tym. To zrozumiałe, że klient chce wiedzieć, co się dzieje z jego przesyłką, kiedy ona do niego dotrze i czy będzie w dobrym stanie. Moje osobiste doświadczenia też takie są: kiedyś sprowadzałem zdalnie sterowane autka z Chin na festiwal nauki. Transport spóźnił się o miesiąc. I wcale nie dostawałem powiadomień SMS-em, gdzie się obecnie znajdują. Niestety, im bliżej jesteśmy wielkiego masowego transportu, tym mniej wiemy. Wiemy tylko z grubsza, kiedy przyjedzie dostawa. Dlatego chcieliśmy stworzyć algorytmy, które poprawią widoczność tego procesu i będą także w stanie określić, czy transport odbywa się zgodnie z planem, czy też dzieje się coś nietypowego. A w takiej sytuacji – jak dużo spóźni się przesyłka. Wkrótce będziemy to wiedzieć.

Kiedy?

Mieliśmy już dwa projekty badawcze, dotyczące przewidywania czasu dojazdów i analizy danych z rejestratorów IoT (Internet of Things). Jeden z CMA CGM – to czwarty armator na świecie; drugi z DB Schenker. W dużym transporcie teraz właśnie to się zmienia. Firmy mają na to budżet, montują w kontenerach urządzenia umożliwiające śledzenie przedmiotów, które przewożą. To jest pierwszy krok, żeby przewidywać, co się z nimi dzieje.

Jakie możemy mieć korzyści z takiej technologii, oprócz tego, że nie będziemy się denerwować, czekając na paczkę?

Docelowo będziemy bardziej optymalnie zużywać zasoby. Na przykład nawigacja prognozuje czasy dojazdu na tyle precyzyjnie, że w sumie przekłada się to na lepsze zarządzanie naszym czasem.

A co, gdybyśmy mieli mowę bez transkrypcji? Gdybyśmy zgrywali to, co leci w radiu? Czy wtedy komputer nauczyłby się rozpoznawać mowę tak, jak dziecko?

Tak samo, żeby utworzyć optymalny plan zamówień towaru, musimy mieć dobre prognozy dotyczące tego, jak długo potrwa transport. Nie trzeba będzie zamawiać z wyprzedzeniem, na zapas, na wszelki wypadek. W tej chwili taniej jest zamówić 10 procent nadmiaru, niż ryzykować, że 3 procent klientów źle nas opisze w internecie. Teraz zgadujemy. Pytanie, na ile to zgadywanie jest nieprecyzyjne i na ile można je wspomóc przy użyciu komputerów.

Skąd pomysł na firmę o tym profilu?

NavAIgo powstało z przecięcia zainteresowań moich i współzałożycieli: Zuzanny i Adriana Kosowskich oraz Bartka Dudka. Bartek i Adrian zajmują się algorytmami na grafach, Zuzanna obroniła doktorat z rozwoju sieci połączeń w handlu morskim. Ja w świecie akademickim jestem adiunktem na Wydziale Matematyki i Informatyki Uniwersytetu Wrocławskiego i zajmuję się przetwarzaniem i rozpoznawaniem mowy. Przecięcie naszych zainteresowań to logistyka. Tam jest struktura grafowa: węzły i połączenia między nimi. Na przykład miasta i sieć dróg. Można też modelować tu bardzo dużo programów: od wyszukiwania najkrótszych ścieżek, tak jak w nawigacji internetowej, po kategoryzowanie tych sieci, czyli rozpoznawanie, czy dwie sieci są do siebie podobne. O dziwo, w mojej pracy w NavAlgo wykorzystuję wiele intuicji, które przenoszę z analizy mowy.

Od kiedy zajmuje się pan rozpoznawaniem mowy?

Od 2013. Studiowałem na Wydziale Elektroniki, Mikrosystemów i Fotoniki na Politechnice Wrocławskiej. Doktorat zrobiłem w USA na uniwersytecie w Louisville, choć mój promotor, profesor Jacek Żurada, był z pochodzenia Polakiem. Wróciłem do Polski ze znajomością sieci neuronowych. Sieci neuronowe zaczynały wtedy poprawiać wyniki właściwie w każdej dziedzinie, w której były stosowane. To był początek boomu na uczenie głębokie.

Współpracowałem potem z Google’em – zaprosili mnie, ponieważ udało mi się ulepszyć neuronowe modele rozpoznawania mowy. Przez pół roku pracowałem w Mountain View, a kolejne półtora roku współpracowałem z nimi już z Polski. To było bardzo satysfakcjonujące, że moje rozpoznawanie mowy działało tak dobrze, że chciała je wykorzystywać taka firma, jak Google, ale zrozumiałem wtedy, że w tej dziedzinie jest ogromna konkurencja ze strony przemysłu i że po powrocie do Polski, samodzielnie, nie będę w stanie z nimi konkurować. Stwierdziłem, że muszę zrobić krok do tyłu i zająć się czymś innym: przetwarzaniem mowy bez nadzoru.

Dlaczego akurat tym?

Taką miałem intuicję. W tej chwili, żeby mieć dobry system, potrzebujemy ogromnych ilości danych. A te dane muszą przygotować ludzie, z ich ludzką inteligencją. Jak chcemy robić rozpoznawanie mowy, to musimy mieć setki, tysiące godzin nagrań, przepisanych przez ludzi. A co, gdybyśmy mieli mowę bez transkrypcji? Gdybyśmy zgrywali to, co leci w radio? Czy wtedy komputer nauczyłby się rozpoznawać mowę tak, jak dziecko? Dziecko nie czyta przecież żadnych transkrypcji, uczy się języka ze słuchu. Czy modele też tak będą potrafiły? Tu nie ma takiej presji ze strony przemysłu i konkurencja także jest mniejsza, chociaż nie zerowa, bo Facebook też nad tym pracuje.

Ale właściwie po co, skoro działa to tak dobrze?

Chociażby dlatego, że tym ludziom trzeba zapłacić, więc taki system sporo kosztuje.

W tej chwili to ogromny biznes – opisywanie milionów zdjęć i tego, co się na nich znajduje. Konieczność pozyskiwania danych jest dużym ograniczeniem. Małe piwo, jeśli przygotowywać dla niej dane mogą przeciętni ludzie. Gorzej, jeśli potrafią to zrobić tylko specjaliści, tak jak w przypadku rozpoznawania obrazów medycznych.

W Chinach funkcjonuje nowy zawód: ludzi, którzy opisują obiekty dla sztucznej inteligencji.

Nie tylko w Chinach. Także w Afryce. To dobra praca…

Dobrze jest pracować dla sztucznej inteligencji?

Tak. Niemal każdy może to robić. Wystarczy umieć wskazywać samochody, pieszych, dachy, baseny… i każdy może współtworzyć systemy sztucznej inteligencji.

Jest w tym jakiś paradoks.

Dlatego chciałbym od tego uciec. Stworzyć system, który potrafi się sam nauczyć interpretować to, co widzi. Poza tym to frapujący temat badawczy: jak poradzić sobie bez etykiet? Jak skonstruować model, który sam postrzega świat, a nie korzysta z gotowych opisów? Przecież my, ludzie, uczymy się inaczej. Więc cała ta sztuczna inteligencja wcale nie jest tak bardzo inteligentna, skoro wymaga naszej pomocy. A skoro tak – nie rozwiąże problemów, których my nie umiemy rozwiązać.

Jak skonstruować model, który sam postrzega świat, a nie korzysta z gotowych opisów? Przecież my, ludzie, uczymy się inaczej

Dla mnie to początek drogi. Chciałbym, żeby maszyny potrafiły same się uczyć. Żeby postrzegały świat i same potrafiły zbudować taką jego reprezentację, z której wnioskowałyby na temat świata. Na przykład o tym, co dzieje się na drodze, kiedy jedziemy autem. Ludzie postrzegają obiekty i przypuszczają, jak dana klasa obiektów się zachowa. Jeśli to są samochody, to przypuszczamy, że zostaną na jezdni. Jeśli to piesi, to że zostaną na chodniku albo będą przez tę jezdnię przechodzić. Przewidujemy ich ruchy. Chciałbym pokazywać komputerom takie sceny i oczekiwać, że one same odkryją, czym są te obiekty i co te obiekty będą robić.

Na jakich tekstach trenujecie?

Na piśmie odręcznym – dziennikach okrętowych kapitanów floty holenderskiej, odkrywających Australię i Tasmanię, z połowy XVII wieku.

Dlaczego na piśmie odręcznym?

Bo wiele zespołów zajmujących się SI stara się teraz wykorzystywać dane nieopisane. Najlepsze modele, które rozumieją język, gdzieś tak od półtora roku budowane są w ten sposób, że najpierw pokazujemy im dziesiątki gigabajtów tekstu. To bardzo dużo – więcej, niż my zobaczymy w ciągu życia. Te modele widzą prawie cały internet i z tego budują sobie jakąś reprezentację zdań i ich treści. Uczą się, że te dwa zdania są synonimiczne, tamte są swoim zaprzeczeniem, tu jedno wynika z drugiego. To już nastąpiło w rozumieniu języka. W przetwarzaniu mowy te systemy są blisko granicy stosowania. Natomiast chyba nikt nie zrobił tego jeszcze – o ile wiem – dla pisma odręcznego. W każdym razie my też jesteśmy jeszcze w trakcie pracy. Jeszcze nam to dobrze nie działa.

*dr hab. Jan Chorowski – jest kierownikiem SI w NavAlgo oraz adiunktem na Wydziale Matematyki i Informatyki Uniwersytetu Wrocławskiego. Magisterium obronił na Politechnice Wrocławskiej, doktorat na University of Louisville, zaś habilitację na Uniwersytecie Wrocławskim. Współpracował z wieloma zespołami badawczymi, w tym Google Brain, Microsoft Research i Laboratorium prof. Yoshuy Bengio na Uniwersytecie Montrealskim. Kierował też badaniami podczas organizowanych przez Johns Hopkins University warsztatach JSALT 2019. Jego zainteresowania badawcze to zastosowania sieci neuronowych do problemów intuicyjnych i łatwych dla ludzi, lecz trudnych dla maszyn, takich jak przetwarzanie mowy i języka naturalnego. W NavAlgo dr Chorowski rozwija rozwiązania sztucznej inteligencji dla obiektów w ruchu.