Przetwarzanie języka: żeby nie mleć po próżnicy

Chatboty i algorytmy coraz lepiej rozumieją ludzki język. Czyżby?! Badacze z Elemental Cognition sugerują, że dziedzina maszynowej analizy języka brnie w ślepą uliczkę. I proponują rozwiązanie

Jesse Dunietz jest badaczem maszynowych algorytmów. Związał się z firmą założoną przez Davida Ferrucciego, który przeszedł raczej nieoczekiwaną drogę, niejako idąc do tyłu. Był jednym z twórców Watsona, algorytmu firmy IBM, który wygrał teleturniej wiedzy ogólnej (w Polsce znany jako „Va banque”). Potem założył Elemental Cognition, czyli „Pojmowanie Podstawowe”, a nazwa firmy ma zobrazować jego diagnozę: dzisiejsze algorytmy tak naprawdę nie rozumieją języka i nie potrafią nic o świecie opowiedzieć.

W artykule opublikowanym przez „MIT Technology Review” Dunietz pisze, że wątpliwości co do „możliwości poznawczych” SI pojawiają się ostatnio nawet na branżowych konferencjach. Czy analiza języka naturalnego podąża w słusznym kierunku?

Sieci neuronowe coraz lepiej rozpoznają język, jeśli wziąć pod uwagę pomiary za pomocą testów. Na przykład w teście SuperGLUE ludzie osiągają 87 punktów, a sieć neuronowa opracowana przez programistów z Baidu aż 90 punktów. Zespoły emocjonują się, że ich algorytm okazał się o punkt lub dwa lepszy w rankingu od poprzedników. Ale czy uzyskanie najlepszego wyniku nie jest po prostu ćwiczeniem akademickim? Jeśli lepsze algorytmy nie przekładają się na lepsze rozwiazywanie problemów, znaczyłoby to, że wyścigi algorytmów rozpoznawania języka stały się po prostu dyscypliną sportową.

Oczywiście, współczesne algorytmy dobrze wyłuskują informacje ze zwięzłych źródeł (takich jak hasła w Wikipedii), dobrze radzą sobie też z rozpoznawaniem ogólnego odcienia emocjonalnego („analizą sentymentu”). Asystenci głosowi potrafią dla nas zamówić taksówkę lub obiad w ulubionej restauracji, roboty mogą już wykonywać wydane im polecenia, algorytmy wyszukiwać badania naukowe na dany temat lub przepisy prawa związane z daną sprawą. Firmy coraz częściej zatrudniają też chatboty do obsługi klientów.

Są też algorytmy, wyszkolone na miliardach tekstów, które mogą sensownie kończyć zdania lub nawet całe teksty. Autorów najlepszego z nich (GPT-2 i jego nowszej wersji GPT-3 stworzonych w laboratorium OpenAI) przeraziły jednak te możliwości – algorytm mógłby przecież tworzyć fałszywe informacje i automatycznie atakować mową nienawiści. W pierwszym odruchu zablokowali więc do niego dostęp dla niewtajemniczonych.

Algorytm GPT-2 potrafił kończyć opowiadania, ale bez zrozumienia. Wiernie kopiując styl, „zapominał” na przykład o tym, że woda gasi ogień, i pisał o podwodnych pożarach

Ale wciąż nie ma robotów, które zrozumieją złożone polecenie spoza zdefiniowanej listy komend, czy algorytmów, które będą w stanie zrozumieć czyjąś relację, by na przykład określić, w jakie kłopoty z prawem popadł. W przypadku firmowych chatbotów wystarczy odejść od głównego tematu, żeby zbić je z tropu. Nie można twierdzić, że maszyny nas rozumieją.

To dlatego, że nic nie wiedzą o świecie, twierdzi Dunietz. W pracy opublikowanej na stronie ACL, czyli stowarzyszenia badaczy przetwarzania języka naturalnego, jego zespół twierdzi, że aby móc uznać, że maszyny coś rozumieją, trzeba najpierw zdefiniować „rozumienie”.

Gdy człowiek czyta tekst, pisze Dunietz w swoim tekście, buduje szczegółowe reprezentacje obiektów, miejsc, wydarzeń i relacji między nimi. To model umysłowy świata opisywanego w tekście. Model pozwala na przewidywanie kolejnych wydarzeń czy spekulacje na temat alternatywnego rozwoju wypadków. Tego wszystkiego maszyny nie potrafią. Badacze dziedziny maszynowego przetwarzania języka naturalnego dobrze o tym wiedzą z doświadczenia. Nawet najlepsze algorytmy, które sprawiają wrażenie, jakby rozumiały tekst, jak GPT-3, łatwo na tym zagiąć.

Algorytmy nic nie rozumieją, a co gorsza – zmyślają. GPT-3 zapytany, ile oczu ma stopa, twierdzi, że dwoje, a trawa – jedno. Bez wahania odpowie też na pytanie, kto był prezydentem Stanów Zjednoczonych w 1700 roku.

Wiele grup badaczy stara się temu zaradzić, tworząc coraz trudniejsze dla maszynowych algorytmów testy. Jednak tworzenie kolejnych testów dla maszyn przypomina rozglądanie się po siłowni i tworzenie nowych, coraz trudniejszych zestawów ćwiczeń. Zupełnie nie o to chodzi – przeciętny człowiek poza siłownią wykonuje zupełnie inne zadania.

Dunietz i jego zespół z Elemental Cognition wskazują inną drogę. Fikcja literacka, w szczególności krótkie opowiadania, jest bogata w informacje, które trudno sklasyfikować maszynom. Wydaje się doskonałym dla nich testem. Algorytm GPT-2 potrafił już kończyć opowiadania, ale bez zrozumienia. Wiernie kopiując styl, zapominał na przykład o tym, że woda gasi ogień, i pisał o podwodnych pożarach.

Szef Elemental Cognition, David Ferrucci, zaproponował testowanie rozumienia narracji przez maszyny na czterech poziomach: przestrzennym (czy algorytm rozumie relacje przestrzenne), czasowym (czy potrafi wskazać kolejność zdarzeń), przyczynowym (czy jest w stanie wskazać, co prowadzi do czego) oraz motywacyjnym (jaka motywacja kieruje bohaterami tekstu w ich działaniach).

Gdy zastosować taki test, okazuje się, że sztuczna inteligencja błądzi we mgle. XLNet, jeden z najlepszych algorytmów rozpoznawania języka, który w teście RACE zdobył ponad 81 procent, w „rozumieniu świata” osiągnął wynik tylko 37 procent. Jak słusznie zauważają badacze, to mniej niż w losowym wyborze odpowiedzi (przy którym wynik wyniósłby 50 procent poprawnych wskazań) i niewiele ponad jedna trzecia tego, co rozumie z tekstu przeciętny człowiek.

„Teoria zrozumienia” (Theory of Understanding, ToU), bo taką nazwę nadali badacze swojemu testowi rozumienia języka, pozwoli lepiej testować algorytmy – tak, żeby były przydatne dla ludzi.