Algorytm zbyt dobry, by się nim podzielić ze światem

Nowy system przetwarzania języka naturalnego jest tak dobry, że twórcy boją się jego wykorzystania w niecnych celach

OpenAI to organizacja non-profit zajmująca się badaniami nad sztuczną inteligencją. Została założona między innymi przez Elona Muska, współzałożyciela LinkedIn Reida Hoffmana i Sama Altmana z Y Combinator.

Nowe dzieło badaczy z OpenAI to algorytm przetwarzania języka naturalnego GPT-2. Jego zadanie jest z pozoru bardzo proste – przewidzieć kolejne słowo. Jest w stanie na podstawie krótkiego wycinka tekstu zaproponować jego dalszy ciąg, trzymając się tematu i zachowując styl wypowiedzi oryginału.

System tworzy logiczne fake newsy

Daj mu kilka pierwszych zdań artykułu prasowego, a dopisze resztę, wraz ze zmyślonymi cytatami i statystykami wziętymi z kosmosu. Zacytuj pierwsze zdanie książki, a podchwyci styl narracji i w krótkim opowiadaniu przedstawi dalsze losy bohatera. Przykłady zaprezentowane przez twórców robią wrażenie. Wygenerowane teksty nie dość, że wiernie oddają styl fraz wejściowych i – w przeciwieństwie do innych modeli – trzymają się tematu, to jeszcze często mają wyraźną logiczną strukturę i sprawiają wrażenie, jakby „autor” świadomie dążył do konkluzji.

Dużym osiągnięciem jest fakt, że nowy algorytm jest bardzo wszechstronny. Poza generowaniem tekstu potrafi tłumaczyć z jednego języka na drugi i pisać podsumowania długich tekstów. Może też odpowiadać na pytania dotyczące treści artykułu, a nawet na pytania z wiedzy ogólnej. Każde z tych zadań wykona gorzej, niż wyspecjalizowany algorytm zaprojektowany w tym celu, jednak jego elastyczność i tak robi wrażenie. Twórcy mają teorię, że gdyby operował na jeszcze większym zasobie danych i parametrów prawdopodobnie radziłby sobie z tymi zadaniami lepiej.

Jak się łatwo domyślić, algorytm powstał na bazie pierwszej wersji – GPT. Różni się od poprzednika przede wszystkim skalą. Ma dziesięciokrotnie większy zestaw danych wejściowych i operuje na dziesięć razy większej liczbie parametrów.

Maszyna zassała 40 gigabajtów tekstu

Na zestaw danych GPT-2 składa się 8 milionów stron internetowych, w sumie 40 gigabajtów tekstu. System pobrał je automatycznie, „zasysając” linki z portalu Reddit (odpowiednik naszego Wykopu). Aby zapewnić względną jakość materiału źródłowego, pobierał treści tylko z pozytywnie ocenianych linków.

System nie jest idealny. Czasem potrzeba kilku prób, by uzyskać sensowny tekst. Jeśli zadamy algorytmowi temat, któremu poświęcono sporo tekstów (np. brexit) w 50 procentach prób otrzymamy zadowalający wynik. Bardziej specjalistyczne teksty wymagają o wiele większej ich liczby.

Badacze z OpenAI twierdzą, że stworzona przez nich technologia jest tak dobra, a ryzyko jej użycia w niecnych celach tak duże, że wbrew utartej praktyce postanowili wstrzymać się z publikowaniem całości wyników swoich badań i dać sobie więcej czasu na dyskusję nad konsekwencjami ich odkrycia.

Wymieniają cały szereg potencjalnych szkodliwych zastosowań ich odkrycia. Od masowej produkcji nieprawdziwych informacji prasowych, podszywania się pod inne osoby w internecie, automatycznego generowania obraźliwych treści w social media, po generowanie spamu czy pozytywnych lub negatywnych recenzji produktów w sklepach internetowych.

Oczywiście GPT-2 ma też potencjał mniej niszczycielskich zastosowań. Może to być np. asysta w pisaniu tekstów, bardziej sprawne chatboty, czy lepsze narzędzia do rozpoznawania mowy.