HerBERT mistrzem polszczyzny [AI & NLP Day]

O tym, że przetwarzanie języka naturalnego to nie tylko GPT-3 i w Polsce na tym polu robi się coraz więcej, przekonaliśmy się podczas AI & NLP Day

Algorytmy przetwarzania języka naturalnego to jedna z najbardziej powszechnych emanacji sztucznej inteligencji. Mamy z nimi do czynienia na co dzień w chatbotach, asystentach głosowych, automatycznych tłumaczach czy systemach autouzupełniania w telefonach.

Wydawać by się mogło, że monopol na rozwiązania w tej dziedzinie mają giganci technologiczni z Google’em i Amazonem na czele. Polska jest jednak dla nich trudnym rynkiem ze względu na specyfikę naszego języka. To szansa dla rodzimych badaczy i przedsiębiorców.

Przegląd rozwiązań w dziedzinie NLP mieliśmy podczas dwudniowego wydarzenia AI&NLP Day, które odbyło się pod koniec października. Dwudniowa impreza w formule online dała wiele przykładów na to, że w Polsce w dziedzinie NLP dzieje się sporo, a nowe rozwiązania znajdują swoje zastosowanie w biznesie i nauce.

Wystąpienie otwierające konferencję należało do Piotra Rybaka z Allegro. Opowiadał o ewolucji modeli przetwarzania języka naturalnego. Algorytmy te umożliwiają operacje językowe – interpretację wypowiedzi, automatyczne tłumaczenie tekstu na inne języki, badanie emocji przekazywanych w tekście czy wreszcie generowanie tekstu.

KLEJ do języka polskiego

Największe i najlepsze modele NLP są tworzone dla języka angielskiego. Wśród nich jednym z najpopularniejszych jest stworzony przez Google’a BERT. Sednem jego działania jest – w uproszczeniu – ukrywanie niektórych słów w zbiorze treningowym (tzw. masked language modeling) i tym samym stymulowanie modelu do wnioskowania na podstawie kontekstu.

BERT, o którym pisaliśmy między innymi w tekście „BERT, RoBERTa i ALBERT, czyli językowe łamigłówki maszyn”, osiągnął ponad 80 punktów na 100 w opracowanym przez DeepMind i University of Washington teście GLUE, badającym sprawność modeli uczenia maszynowego w rozwiązywaniu różnych zadań językowych.

BERTa, tak samo jak inne modele wyszkolone na korpusach tekstów w innych językach, można zastosować do języka polskiego, jednak z marnym skutkiem. Dlatego od kilku lat powstają modele dedykowane dla naszego języka, szkolone na korpusach tekstów w języku polskim. Allegro stworzyło nawet KLEJ – odpowiednik GLUE dla języka polskiego. Kompleksowa Lista Ewaluacji Językowych to zautomatyzowany system oceny jakości modeli językowych. Podobnie jak GLUE składa się z kilku zadań ocenianych w skali od 0 do 100. Wynik z zadań składa się na średni wynik, który jest ostatecznym wskaźnikiem jakości modelu.

Polska jest trudnym rynkiem dla potentatów NLP jak Google czy Amazon ze względu na specyfikę naszego języka. To szansa dla rodzimych badaczy i przedsiębiorców

Jeśli chodzi o polskie modele, to wszystkie liczące się próby z ostatnich lat były oparte właśnie na modelu BERT, z tym że zmodyfikowanym i wyszkolonym na polskim korpusie tekstów. Do niedawna liderem był stworzony w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym (OPI PIB jest wydawcą portalu Sztuczna Inteligencja) model Polish RoBERTa Large.

W klasyfikacji KLEJ model osiągnął wynik 87,8 na 100. Kilka dni przed konferencją Allegro wypuściło swój własny model. HerBERT powstał na bazie modelu RoBERTa Large, został zmodyfikowany i zoptymalizowany, a także wyszkolony na większym korpusie tekstów. To pozwoliło mu na osiągnięcie wyniku 88,4 w klasyfikacji KLEJ.

Sociale to nie Wersal

Konferencja AI & NLP Day pokazała, jak modele NLP można wykorzystać w praktyce, w polskich badaniach i biznesie.

Mikołaj Małkiński z Sotrender podczas swojego wystąpienia o metodach użycia NLP w wykrywaniu mowy nienawiści w internecie opowiadał, jak trzeba dostosowywać modele przetwarzania języka do realiów mediów społecznościowych. Modele takie jak BERT i jego rodzime implementacje są przeważnie szkolone na dużych korpusach uporządkowanych danych, takich jak Wikipedia, wystąpienia sejmowe czy Narodowy Korpus Języka Polskiego. Polszczyzna w nich użyta jest bliska polszczyźnie wzorcowej.

Język mediów społecznościowych bardzo się od tych tekstów różni. Jest pełen nowych form językowych, skrótów, emotikonów, wreszcie jest najeżony błędami i literówkami. Aby skutecznie wykrywać w mediach społecznościowych mowę nienawiści, trzeba brać poprawkę na charakterystykę ich języka podczas szkolenia modeli.

Książki i akta na wyrywki

Najczęstszą formą wykorzystania NLP w biznesie są chatboty, które przejmują na siebie część zadań związanych z obsługą klienta. Implementowane z różnym skutkiem mechanizmy trudno nazwać kluczowymi dla rozwoju przedsiębiorstwa.

To się zmienia. Przykładem jest księgarnia internetowa Booksbox, która specjalizuje się w sprzedaży książek naukowych. Te wydawnictwa często są bardzo drogie, a zdarza się, że ich odbiorcy potrzebują tylko fragmentu, na przykład na potrzeby pracy naukowej. Dlatego w Booksbox można kupić pojedyncze strony z wybranych książek. Start-up wprowadził algorytm oparty o NLP, który analizuje treść wszystkich książek w bazie i sugeruje użytkownikowi podobne książki, a nawet konkretne strony na zadany temat.

Ciekawe zastosowanie NLP zaprezentował dr Adam Zadrożny ze start-upu ius.ai. Wykorzystał modele językowe do automatycznej analizy orzecznictwa polskich sądów. Takie rozwiązania pozwalają na przykład ocenić, jak poszczególni sędziowie orzekają w pewnych rodzajach spraw, albo sprawdzić, czy w sprawach dotyczących podobnych kwestii zapadają podobne wyroki, i wykrywać podejrzane odstępstwa od normy. Tego typu algorytmy mogą być formą oceny działania wymiaru sprawiedliwości, ale także narzędziem w rękach prawników przygotowujących się do spraw sądowych.

AI & NLP Day odbył się online 25 i 26 października 2020. Portal Sztuczna Inteligencja objął wydarzenie patronatem medialnym.