Co poprawi inteligencję (językową) maszyn? Wokenizacja. To nowy termin, który oznacza uczenie sieci neuronowych języka i obrazów jednocześnie

Sieci neuronowe mają spore możliwości. Szeroko opisywany algorytm GPT-2 i jego najnowsza wersja GPT-3, wytrenowane na miliardach przykładów, wydają się rozumieć ludzki język. Algorytm, po przedstawieniu mu fragmentu tekstu, potrafi wygenerować niezwykle realistyczny ciąg dalszy. Językowo jego twórczość jest bez zarzutu.

Bajanie o pożarach morza

Jednak, gdy przyjrzeć się dokładniej, twórczość takich algorytmów bywa pozbawiona sensu. Potrafią opisywać pożary pod wodą, bo nie wiedzą nic o fizycznych realiach. Zapytane o owce, twierdzą, że te są czarne – co jest odzwierciedleniem tego, że w korpusach tekstów, na których były trenowane, często występuje idiom „czarna owca”, sformułowanie zaś „biała owca” – znaczenie rzadziej. Ludzie po prostu wiedzą, że owce są najczęściej białe.

Nawet potężny GPT-3 nic ze świata nie rozumie – gorzej, bo jeśli czegoś nie wie, to bez zażenowania zmyśla. Zapytany, ile oczu ma stopa, twierdzi, że dwoje, a trawa zaś – jedno. Bez wahania odpowie też na pytanie, kto był prezydentem Stanów Zjednoczonych w 1700 roku, choć przecież żadnego prezydenta nieistniejącego jeszcze wtedy kraju nie było.

Sceptycy twierdzą, że algorytmy uczone na samych tekstach nigdy nie zdobędą kompletnej wiedzy o świecie. Należy do nich Jesse Dunietz, który kieruje zespołem Elemental Cognition. Zespół ten zamierza stworzyć sztuczną inteligencję, która nauczy się podstawowych prawideł świata (relacji przestrzennych, związków przyczynowo-skutkowych oraz, co nie mniej ważne, ludzkich motywacji). XLNet, jeden z najlepszych algorytmów rozpoznawania języka, w teście sprawdzającym takie zdroworozsądkowe rozumowanie wskazuje zaledwie 37 procent poprawnych odpowiedzi.

Algorytm jak dziecko

Nauczyć maszynowe algorytmy pojmować świat – łatwo powiedzieć. Jak to zrobić? Pojawiło się nowe podejście, nazwane przez jego twórców „wokenizacją” (vokenization). Sama nazwa niewiele mówi: powstała z połączenia angielskiego pojęcia tokenization, bowiem algorytmy rozpoznawania języka naturalnego operują tak zwanymi „tokenami”, oraz litery V w słowach vision czy visual. Jednak idea jest w teorii dość prosta. Należy połączyć algorytmy rozpoznawania języka i algorytmy widzenia maszynowego.

Wskazywanie obiektów jest istotnym krokiem w nauce słownictwa u dzieci. W naszej pracy wprowadzamy nadzorowany obrazami model języka, który symuluje takie uczenie się ludzi przez wskazywanie

Mohit Bansal, Hao Tan, University of North Carolina w Chapel Hill

„Większość ludzi uczy się języka z wielu źródeł, raczej niż z samych tekstów i dźwięków [korzysta] zwłaszcza z pomocy wzroku” – piszą prof. Mohit Bansal i jego doktorant Hao Tan z University of North Carolina w Chapel Hill w artykule zamieszczonym w serwisie ArXiv (gdzie badacze umieszczają prace przed procesem recenzji i publikacji lub zaprezentowaniem na konferencji).

„Wskazywanie obiektów jest istotnym krokiem w nauce słownictwa u dzieci. W naszej pracy wprowadzamy nadzorowany obrazami model języka, który symuluje takie uczenie się ludzi przez wskazywanie”.

Praca zdążyła już zrobić furorę na Twitterze, gdzie poświęcono jej 800 wpisów. Omówienie jej przez Karen Hao w „MIT Tech Review” cytowano ponad 200 razy.

Kot w walizce

Uczenie się języka z obrazów w praktyce jest nieco trudniejsze, niż się wydaje. Sieci przeznaczonych do różnych celów nie da się łatwo ze sobą „zszyć”. Co prawda GPT-2 nauczono niedawno generować obrazy na podstawie przykładów, ale to nadal tylko zgadywanie zasłoniętych części obrazków. Nie ma w tym wiedzy ani zrozumienia.

Tokenizacja w uczeniu języka polega na przedstawianiu kontekstu, w którym występują słowa. „Morze” częściej będzie występować w sąsiedztwie słów „płynąć” i „niebieskie” niż „jechać” i „pomarańczowe”. Właśnie ta cecha – znajomość kontekstu – pozwala algorytmom uczenia maszynowego lepiej rozpoznawać język i generować przekonujące teksty. Nie będzie w nich mowy o „jeździe po pomarańczowym morzu”, lecz „rejsie po błękitnym morzu”.

Wokenizacja – przez analogię – polega na tym, że sieć uczy się obrazów wraz z ich poszerzonymi opisami. W przykładzie, który przytacza „MIT Technology Review” – kot leżący w walizce leżącej na łóżku będzie podpisany właśnie „kot leżący w walizce z ubraniami, która leży na łóżku”. W ten sposób sieć może nauczyć się rozpoznawać koty, walizki, poskładane ubrania oraz łóżka. Podobnie jak można tworzyć mapy słów w tekstach na podstawie ich występowania w sąsiedztwie, można również tworzyć mapy informacji wizualnych. Potem obie mapy relacji (językowych i wizualnych) można nanieść na siebie (co ciekawe, jak opisywaliśmy w czerwcu w tekście „Moralna propozycja, czyli algorytm z kompasem”, takie mapy można tworzyć też dla wartości etycznych).

Dziś maszyny mówią do nas, ale jeszcze nie bardzo wiedzą, o czym mówią

To sposób, który pozwala odróżnić synonimy, z czym maszyny mają kłopot. Zmapowanie wiedzy w ten sposób pozwoli odróżnić zamek w drzwiach od warownej budowli podpisanej „zamek”. Pozwala też na odróżnianie subtelności znaczeniowych. „Kontakt” może oznaczać osobę z listy kontaktów, może też oznaczać fizyczną interakcję.

Wokenizacja jest trudna, bo wymaga wielu milionów dobrze opisanych zdjęć. Pomysłodawcy tej metody wykorzystali Wikipedię, która prócz trzech miliardów słów zawiera też ilustracje. Udało im się znaleźć „wokeny” w przypadku około 40 procent pojęć. Na zestawie tychże wokenów wytrenowali jeden z lepszych algorytmów rozpoznawania języka naturalnego – BERT. Osiągnął lepsze wyniki w testach „rozumienia” polegających na rozwiązywaniu bardziej subtelnych kwestii językowych (SQuAD oraz SWAG).

Połączyć zmysły z tekstem

To osiągnięcie jest zapewne początkiem dłuższej drogi – ale wyznacza też pewien kierunek w rozwoju algorytmów sztucznej inteligencji. Zamiast uczyć je języka i oczekiwać wiedzy o świecie, można uczyć je w sposób nieco bardziej przypominający to, jak uczą się ludzie. My również czerpiemy wiedzę z obrazów i języka, ale od najmłodszych lat jedno idzie w parze z drugim. Być może sieci neuronowe również będą mogły się uczyć, że koty lubią wchodzić do walizek, na ubrania oraz że walizki mogą zawierać (częściej) ubrania lub (rzadziej) koty.

To metoda na tyle świeża, że badacze z University of North Carolina w Chapel Hill przedstawili ją dopiero teraz (17 listopada) na trwającej do 19 listopada konferencji Empirical Methods in Natural Language Processing, na której zostanie przedstawionych ponad 650 prac – donosi „MIT Tech Review”. Znawcy komentują, że przetwarzanie języka naturalnego rozwijało się w ostatnich latach nieco za szybko.

„Przypominało to robota, który może mówić, ale nie widzi i nie słyszy”, mówi w artykule Karen Hao Thomas Wolf, założyciel firmy Hugging Face, która zajmuje się przetwarzaniem języka. „Może uda się zastosować tę technikę, żeby połączyć zmysły robotów z tekstem”, dodaje.

Bo dziś maszyny mówią do nas, ale jeszcze nie bardzo wiedzą, o czym mówią.

Skip to content