Jerry Tworek: Rękoczyny z Krzemowej Doliny

W OpenAI staramy się badać, w jaki sposób ktoś mógłby ludziom zaszkodzić daną technologią i jak moglibyśmy temu przeciwdziałać – mówi Jerry Tworek w rozmowie z Moniką Redzisz

Monika Redzisz: Na jesieni zeszłego roku robotyczna ręka wytrenowana przez was w OpenAI nauczyła się sama układać kostkę Rubika. Czemu miał służyć ten eksperyment?

Jerry Tworek*: Użyliśmy bardzo skomplikowanego robota, jakim jest robotyczna ręka, do rozwiązania bardzo skomplikowanego zadania, jakim jest ułożenie kostki. Sam robot wymyślił sposób, w jaki kontrolować rękę, żeby móc manipulować kostką. Skoro nam się to udało, to możemy również nauczyć go manipulowania wieloma innymi przedmiotami, co jest niezbędnym krokiem do stworzenia robota, który przygotuje nam kiedyś kawę i zrobi kanapkę. Właśnie precyzyjność, zręczność, delikatność jest dla robotów dużym wyzwaniem.

Chcieliśmy się przekonać, czy można w symulacji, w wirtualnym świecie, nauczyć sieć neuronową układania kostki. Sieci zwykle trenują na danych. Nasza sieć nigdy nie miała danych z realnego świata; wszystko, co widziała, było wygenerowane sztucznie w wirtualnym świecie. Wytrenowana w ten sposób, została podpięta pod prawdziwego robota. I co się okazało? Że potrafi zastosować tę wiedzę w realnym świecie z prawdziwą kostką. Jako pierwsi użyliśmy symulacji do tak zaawansowanego projektu i do tak zręcznej manipulacji.

Po co trenować robota w świecie wirtualnym?

Wykorzystujemy algorytmy uczenia wzmocnionego, czyli takie, gdzie sieć neuronowa sama, metodą prób i błędów, próbuje robić różne rzeczy i obserwuje, co jej się udaje, a co nie. Po pewnym czasie nabywa zdolności bez żadnej ingerencji człowieka, zupełnie od zera. Problem polega na tym, że sieć musi zrobić to bardzo wiele razy. To długotrwały proces; my pracowaliśmy nad tym od maja 2017 roku. Nie jesteśmy w stanie uczyć się tego na fizycznym robocie, ponieważ te są drogie i non stop się psują. Robot badawczy potrafi się zepsuć po paru godzinach działania.

Ile trwałby taki trening w realu, zakładając, że robot by się jakimś cudem nie popsuł?

Policzyliśmy, że uczenie naszego systemu zajęłoby jakieś 16 tysięcy lat.

Wow, prawdziwa ewolucja!

Prawie. Niektórzy twierdzą, że jeśli stworzymy kiedyś ogólną sztuczną inteligencję, to będziemy musieli powtórzyć ten sam proces, który przeszli ludzie, ewoluując od jednokomórkowych organizmów do człowieka takiego jak my.

Skoro wirtualny świat potrafi to przyspieszyć… A jeszcze zaraz będą komputery kwantowe…

Trudno powiedzieć kiedy. Na ten temat nie śmiałbym spekulować.

Adres filmu na Youtube: https://youtu.be/x4O8pojMF0w

Robotyczna ręka OpenAI w akcji.
Źródło: OpenAI / YouTube

Na filmach widać, że celowo utrudnialiście ręce zadanie; była trenowana w rękawiczce, ze związanymi dwoma palcami, zakrywana chustą. Dlaczego?

Ponieważ symulacja nigdy nie jest taka sama jak rzeczywistość. Model zawsze jest prostszy niż świat rzeczywisty. Jeśli sieć neuronowa uczy się rozwiązywać problem w świecie wirtualnym, to potem w bardziej skomplikowanej rzeczywistości po prostu głupieje, nie wie, co się dzieje, nic nie jest w stanie zrobić. Dlatego próbowaliśmy coraz bardziej utrudniać jej zadanie. Uczyliśmy ją tak długo, aż umiała się dostosowywać do różnych sytuacji. Zmienialiśmy wszystko: rozmiar kostki, siłę tarcia pomiędzy ręką a kostką, wygląd tej kostki, kolory i warunki oświetlenia, siłę, z jaką operuje robot. Wiadomo, że przy niektórych układach (robot za słaby, a kostka za ciężka) zadanie jest nierozwiązywalne, ale staraliśmy się zakres każdej z tych wartości zwiększać dopóty, dopóki sieć się nie poddała.

Hartowaliście ją.

Tak. Im zakres był szerszy, tym sieć lepiej sobie radziła w realnym świecie, mimo że nigdy go nie poznała. Ale widziała tyle różnych symulacji, że zaczęła w jakiś sposób dostosowywać się do warunków. Właśnie w tym momencie obserwujemy – małe jeszcze, bardzo limitowane, ale jednak – zdolności uczenia się na bieżąco. Ręka odkrywa, czy kostka jest tym razem cięższa, czy lżejsza; próbując różnych ruchów, sprawdza, co działa, a co nie, i dostosowuje się do sytuacji.

Projekt trwał nieco ponad dwa lata. Ja dołączyłem mniej więcej w połowie.

Wszędzie odkrywam polskich informatyków. Jak się dostaje taką pracę?

Ja ją dostałem w sposób najbardziej nudny z nudnych – na stronie OpenAI jest formularz „zaaplikuj do OpenAI”. Kliknąłem, napisałem i dostałem odpowiedź.

OpenAI to jedna z tych mitycznych cudownych firm… Jak to wygląda od środka? Rzeczywiście jest tak wspaniale?

Jest, choć oczywiście tworzą ją ludzie z krwi i kości i budynki z cegieł, a nie z obłoków i marzeń. Liderem mojego zespołu – zespołu robotyki – jest Wojtek Zaremba. Z Polski jest jeszcze parę osób; faktycznie zadziwiająco dużo jak na rozmiary firmy i to, że pracują tu ludzie z całego świata. Ludzie są bez wątpienia największą siłą OpenAI. Są niezwykli, kreatywni, a przy tym mili i pomocni.

Policzyliśmy, że uczenie naszego systemu w realu zamiast w świecie wirtualnym zajęłoby jakieś 16 tysięcy lat

W OpenAI ciężko jest mówić o typowym sposobie zarządzania, że przychodzi szef i mówi każdemu, co ma robić. Wojtek raczej motywuje nas do działania i daje interesujące problemy do rozwiązania. Nikt z nas przecież nie wie, jak rozwiązać problemy, przed którymi stoimy. Trzeba próbować. Szczerze mówiąc, ja nie potrafiłbym w ten sposób zarządzać; mieć pewność, że wszyscy robią to, co trzeba, mimo że nie muszą. Choć z pewnością łatwiej się zarządza zespołem, który jest zmotywowany, który działa w pewnym sensie sam z siebie.

A co, kiedy ktoś ma gorszy dzień i wolałby zostać w łóżku? Firma na to pozwala?

Firma raczej nie zmusza nikogo do niczego, więc jeśli ktoś chce zostać w domu albo wyjechać na wakacje, to może to zrobić.

To chyba raj…

Nie mamy też żadnych deadline’ów, nic nas nie goni, nie ma presji. Luz.

Może właśnie ta swoboda wyzwala kreatywność? Na ile trenowanie sieci neuronowej jest pracą żmudną i monotonną, a na ile wymaga pomysłowości?

Trenowanie sieci neuronowej odbywa się automatycznie, robią to programy. My musimy je napisać. Wiadomo, że nie każdy aspekt programu dla każdego jest tak samo interesujący, ludzie mają różne preferencje. W zespole szukamy homeostazy, żeby każdy trochę robił to, co lubi, trochę to, co jest potrzebne. Z drugiej strony ludzie lubią robić to, co jest potrzebne, bo wtedy inni ich chwalą. Mówią: „Dobra robota, dzięki, że to zrobiłeś”. W funduszu hedgingowym, w którym pracowałem, dużo częściej dostawałem negatywny feedback. Jak było dobrze, nie mówili nic; mówili, kiedy było coś nie tak. To buduje toksyczną atmosferę, której w OpenAI nie ma. Jest pozytywnie.

Czy to praca zespołowa, interdyscyplinarna?

Po części tak. Mamy w zespole ludzi, którzy wcześniej zajmowali się finansami, takich, którzy zajmowali się fizyką, albo neurobiologów, którzy analizowali ludzki mózg. Teraz próbują tę wiedzę zastosować w SI.

Co ty robiłeś wcześniej?

Jak każdy młody matematyk zastanawiałem się, co ze sobą zrobić. Pod koniec studiów na Uniwersytecie Warszawskim rozważałem, czy nie zostać na uczelni.

Sieci neuronowe już się zaczęły pojawiać na świecie, ale do nas jeszcze nie dotarły. Słyszałem o nich jako o technologii z poprzedniej epoki, która nie wypaliła i już nie wróci.

Zdecydowałem się, że pójdę do innej pracy. Co może innego robić matematyk? Wtedy, w 2012 roku, to były głównie finanse. Zacząłem pracę w funduszu hedgingowym. Pracowałem nad algorytmami, które handlują na giełdzie, i powolutku piąłem się po szczeblach tej kariery. Zostałem szefem działu badań i rozwoju. Ale czułem, że nie rozwijam się tak, jak bym chciał.

Zanim trafiłem do OpenAI, nie byłem do końca przekonany. Ale im dłużej tu pracuję, tym bardziej się przekonuję, że prawdopodobnie kiedyś coś takiego jak ogólna sztuczna inteligencja powstanie

Pewnego dnia w 2015 roku kolega pokazał mi odkrycie naukowców z Deep Mind, którzy przy użyciu algorytmów reinforcement learning stworzyli małe sieci neuronowe grające w różne gry Atari. To było dla mnie takie… o kurczę, wow. Byłem szczerze zaskoczony, że coś takiego można zrobić i że to będzie działało. Zrozumiałem, że jest w tym jakaś iskierka inteligencji. Zaintrygowało mnie to i zacząłem iść w tym kierunku.

Tak naprawdę nie ma wielu miejsc na świecie, gdzie można badać te rzeczy; OpenAI było jedynym miejscem, gdzie widziałem siebie. Podoba mi się, że firma stara się zachować niezależność. Oczywiście na tyle, na ile to możliwe. Żyjemy w realnym świecie i fundusze nie biorą się znikąd. Ale OpenAI stara się działać odpowiedzialnie i realizować swoją misję.

Jaką?

Zadbanie o to, żeby ogólna sztuczna inteligencja, która będzie w stanie się uczyć i rozumować w sposób podobny do człowieka, była bezpieczna i pożyteczna dla ludzkości.

Wierzysz w powstanie ogólnej sztucznej inteligencji?

Szczerze mówiąc, to proces, który fluktuuje. Zanim tu trafiłem, nie byłem do końca przekonany. Ale im dłużej tu pracuję, tym bardziej się przekonuję, że prawdopodobnie kiedyś coś takiego powstanie.

Ostatnio zrobiliśmy grę, w której kilku agentów gra ze sobą w chowanego. To eksperyment, który ma pokazać, co się stanie, jeśli dużo różnych sieci neuronowych zacznie ze sobą rywalizować. Okazuje się, że konkurując, są w stanie się nauczyć całkiem skomplikowanych zachowań. Na początku agenci ganiali się po planszy. Potem zaczęli budować forty, żeby się za nimi chować. Więc druga grupa nauczyła się z kolei wykorzystywać rampy, żeby te forty przeskakiwać. Widać, jak te dwie rywalizujące ze sobą grupy powoli, same z siebie, bo nikt ich do tego nie zaprogramował, wymyślają coś nowego.

Ale ogólna SI to wciąż czas przyszły. Dużo zależy od tego, kiedy będziemy mieli dostatecznie dużo mocy obliczeniowej, żeby móc coś tak dużego policzyć w jakimś rozsądnym czasie – a więc od sprzętu.

W jaki sposób można dziś ocenić, że jakiś algorytm w przyszłości może nam zaszkodzić lub przynieść korzyść? Narzędzie samo w sobie jest niewinne; będzie niebezpieczne dopiero wtedy, kiedy dostanie się w niepowołane ręce.

Technologia może być niebezpieczna, kiedy da siłę pewnej grupie ludzi – da im możliwość wywierania silniejszego wpływu na resztę. Dlatego tak ważne jest, żeby umożliwić jak najszerszy dostęp do technologii, żeby korzyści, jakie przynosi, nie kumulowały się w rękach wąskiej grupy. Poza tym jeśli powstaną metody ochrony, to ludzie nie będą jej nadużywać. Dlatego staramy się badać, w jaki sposób ktoś mógłby nam zaszkodzić daną technologią i jak moglibyśmy temu przeciwdziałać.

To zawsze jest miecz obosieczny: algorytm, który wykrywa fake newsy, z pewnością będzie je także dobrze tworzył. Zdarzają się takie sytuacje, że tworzycie narzędzie, które okazuje się tak potencjalnie niebezpieczne, że wyrzucacie je do kosza? Tak na wszelki wypadek?

Do kosza – nie. Skoro ma tak potężne działanie, to warto je przeanalizować w kontekście obrony przeciw takiemu zjawisku. Pytanie natomiast, czy udostępnić je szerokiej publiczności?

Zrobiliśmy niedawno model, który generuje tekst; to algorytm GPT-2. Bardzo dobry. Ma dużo różnych umiejętności, których tak naprawdę się nie spodziewaliśmy. Pojawiły się w trakcie trenowania. Może zostać wykorzystany przy tworzeniu propagandy, fake newsów; a wiadomo nie od wczoraj, że jeśli się kłamstwo powtórzy wiele razy, to ludzie uznają je za prawdę. Ogłosiliśmy, że na razie nie będziemy go udostępniać, bo nie jesteśmy w stanie przewidzieć jego wpływu. Wydaje nam się, że może być niebezpieczny, więc byłoby to nieodpowiedzialne. Pracujemy teraz nad tym, w jaki sposób można wykryć, czy dany tekst został wygenerowany przez sieć, czy przez człowieka, jak ocenić, czy dany materiał jest wiarygodny. Podobnie zresztą można działać hipotetycznie – wymyślając ataki, wymyślać obronę przed nimi.

Ważne jest, żeby umożliwić jak najszerszy dostęp do technologii, żeby korzyści, jakie przynosi, nie kumulowały się w rękach wąskiej grupy

Wielu nas krytykowało, że przesadzamy, że siejemy panikę, że model wcale nie jest taki dobry. Wiadomo, każdy model ma jakieś ograniczenia, to oczywiste. Ale chcieliśmy stworzyć pewien precedens, pokazać, w jaki sposób należy się odpowiedzialnie zachowywać w takiej sytuacji.

Po jakimś czasie opublikowaliśmy mniejszy model, żeby ludzie mogli się przekonać, jakich metod użyliśmy. Następnie zaprosiliśmy kilka instytutów badawczych, którym udostępniliśmy większy model, żeby przebadały, w jaki sposób mógłby on być wykorzystywany, zarówno do ataków, jak i do obrony. Dopiero po dłuższym czasie udostępniliśmy model w internecie. To był proces, który trwał rok. Tak powinno się postępować.

A propos odpowiedzialności – Wired pisał niedawno, że wasz algorytm, który nauczył robotyczną rękę układać kostkę Rubika, zużył tyle energii, ile produkują w ciągu godziny trzy elektrownie jądrowe… Sztuczna inteligencja wiele może nam dać, ale czy nie jest zbyt kosztowna z punktu widzenia ekologii, klimatu, Ziemi?

Na pewno to niezerowy koszt i trzeba go brać pod uwagę, ale warto również rozpatrywać to w szerszym kontekście. Centra danych zarówno Google’a, jak i Microsoftu, z których korzystamy, są stuprocentowo neutralne węglowo i korzystają z odnawialnych źródeł energii. Wierzymy także, że nasze badania długofalowo przyniosą znaczne korzyści zarówno dla klimatu, jak i dla naszej cywilizacji. Odpowiedzialność za naszą planetę spoczywa na barkach nas wszystkich, a przecież nikt nie proponuje, żeby zrezygnować ze wszelkiej aktywności ekonomicznej.

Nad czym teraz pracujecie?

W zespole robotyki dalej będziemy trenować robotyczną zręczność. Kiedyś będziemy mieć dzięki temu robota, który zaparzy nam kawę, wstawi pranie – będzie mógł zrobić wszystko, co chcielibyśmy zautomatyzować, a z czym dzisiaj roboty sobie nie radzą.

A przy opiece nad innymi ludźmi?

Tak, to jest przyszłość. Choć tu w grę wchodzi jeszcze coś oprócz zręczności – inteligencja emocjonalna. Rozpoznawanie emocji wciąż jest wielkim wyzwaniem. Ludzie są bardzo skomplikowani. Samo rozpoznawanie ekspresji twarzy nie jest trudne, ale jak nadać mimice precyzyjne znaczenie, zrozumieć w kontekście?

Niektórzy ludzie też są kiepscy w te klocki.

No właśnie, nawet ludzie sobie z tym różnie radzą, a przecież uczymy się tego od najmłodszych lat i jesteśmy genetycznie do tego przystosowani.
A co mają powiedzieć roboty?

Tak zręczne roboty zabiorą ludziom pracę. Czy o tym też myślicie? Czy tworząc coraz doskonalsze maszyny, konstruktorzy biorą pod uwagę także negatywne konsekwencje społeczne?

To skomplikowany temat. Na pewno praca jest ludziom potrzebna, żeby funkcjonować w społeczeństwie, jednakże jak będzie ona wyglądać w przyszłości – tego nie wiemy. Myślę, że inaczej niż dziś. Ale jestem pewien, że większość z nas byłaby całkiem zadowolona, gdybyśmy nie musieli już pracować w kopalniach, prowadzić tirów ani stać na linii produkcyjnej w fabryce. Wiele podobnych zmian już się dokonało w czasie rewolucji przemysłowej czy choćby niedawnej komputeryzacji biur, więc możemy czerpać lekcje z doświadczenia. Widać wyraźnie, że zamiast utraconych miejsc pracy powstają nowe, inne. Ciężko mi wyobrazić sobie świat, w którym będziemy mieli wszelkie niezbędne dobra i bezpieczeństwo zapewnione przez inteligentne systemy i nic do roboty. Ludzie potrafią być bardzo kreatywni w wymyślaniu sobie zajęć, jeśli tylko nie muszą martwić się tym, jak przeżyć do pierwszego.

Najbardziej problematyczną kwestią jest tutaj grupa ludzi, której nie jest łatwo dostosować się do nowych realiów. Cała trudność będzie więc polegać na tym, żeby ich wesprzeć.

*Jerry Tworek – ukończył indywidualne studia matematyczno-przyrodnicze na Uniwersytecie Warszawskim ze specjalnością w zastosowaniach matematyki w finansach. Już w trakcie studiów jeździł na praktyki do Google’a w Dolinie Krzemowej, żeby uczyć się rozwijać wczesne systemy uczenia maszynowego. Po studiach spędził łącznie pięć lat, pracując nad rozwijaniem algorytmów handlujących kontraktami terminowymi futures na największych globalnych rynkach. Od początku 2019 roku pracuje w OpenAI, badając algorytmy uczenia wzmocnionego, w szczególności wpływu pamięci i planu nauczania na szybkość i skuteczność trenowania się agentów. Wspólnie z zespołem opublikował pracę „Układanie kostki Rubika przy użyciu robotycznej ręki”.

Read the English version of this text HERE