Język, którym posługujesz się w sieci, jest jak twój odcisk palca albo chód. Algorytmy uczenia maszynowego i analizy behawioralnej wytropią cię po nim wszędzie

W styczniu na polskich uczelniach skończyła się era bezkarnego ściągania. Zadbało o to kilkunastu programistów z Laboratorium Inżynierii Lingwistycznej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego, którzy stworzyli Jednolity System Antyplagiatowy. System finansowany ze środków Ministerstwa Nauki i Szkolnictwa Wyższego działa od początku roku i pozwala określić, w jakim stopniu praca jest dziełem podpisującego się pod nią człowieka. Czyli wykryć plagiat.

Jak działa JSA?

10 miliardów kęsów

– Z grubsza tak: dzielimy tekst na krótsze fragmenty: pięcio-, dziesięcio- albo dwudziestozdaniowe, tak zwane kęsy, a potem szukamy podobieństw między nimi a fragmentami o analogicznej długości, które mamy już w bazie danych. Jest z czym porównywać, bo takich mikrodokumentów zebraliśmy już ponad 10 miliardów – wyjaśnia dr Marek Kozłowski, szef Laboratorium.

Systemu nie da się oszukać, np. zmieniając szyk słów czy zastępując jedne słowa innymi. JSA, rozbijając tekst na poszczególne słowa, tworzy z nich bowiem nieuporządkowane kolekcje elementów

Te miliardy kęsów pochodzą z dziesięciu wielkich baz danych, m.in. z Ogólnopolskiego Repozytorium Prac Dyplomowych (ponad 3 mln), bazy NEKST (900 mln dokumentów z polskiego internetu), sześciu wersji językowych Wikipedii (w tym polskiej), baz aktów prawnych czy aktualnie zbieranych artykułów OpenAccess.

Szósty zmysł systemu

Systemu nie da się oszukać, np. zmieniając szyk słów czy zastępując jedne słowa innymi. JSA, rozbijając tekst na poszczególne słowa, tworzy z nich bowiem nieuporządkowane kolekcje elementów. I dopiero takie zbiory są porównywane z tekstami źródłowymi.

Dr Marek Kozłowski

Ale na tym nie koniec. „Szóstym zmysłem”, który czyni system jeszcze bardziej precyzyjnym, jest badanie stylometryczne czy, mówiąc inaczej – stylometryczne profilowanie behawioralne. Najprościej rzecz ujmując, to badanie stylu, jakim został napisany tekst – i wyciąganie z tego wniosków na temat autora.

– Nie mamy więcej danych na temat stylu autora niż ta jego praca, którą właśnie analizujemy. Możemy jednak wyszukać fragmenty, które odbiegają od uśrednionego stylu całej pracy. Oczywiście zakładając, że praca ma dominujący styl – mówi dr Kozłowski.

Fragmenty odbiegające od normy są podświetlane.

Odcisk palca w każdym tekście

Na czym polega stylometryczne profilowanie behawioralne?

Przez całe swoje życie każdy z nas wykształca charakterystyczny tylko dla siebie styl pisania. Dlatego jako czytelnikom intuicja często podpowiada nam, że jakieś teksty napisała ta sama osoba – albo że tekst ma innego autora niż człowiek, który się pod nim podpisał. Widzimy przecież, jakich kto używa zwrotów, w jaki sposób zwykle formułuje szyk zdania, jak używa interpunkcji itd.

– My robimy to intuicyjnie, gdy czytamy tekst – wyjaśnia Kozłowski. – Natomiast maszyna musi mieć pewne dane wejściowe, na podstawie których porównuje te elementy w czasie. Musi mieć przestrzeń cech, w której tworzy sobie pewne wektory (czyli uporządkowane zbiory cech). Opisują one profil danej osoby, a kolejne teksty są z tym profilem porównywane. I właśnie to nazywamy stylometrycznym profilowaniem behawioralnym. Tworzymy profil behawioralny, czyli dotyczący zachowania osoby. A konkretnie tego, w jaki sposób używa ona języka pisanego.

Profilowanie behawioralne ma też swój słaby punkt: np. ludzie w depresji zmieniają styl swego języka – i nie chodzi tu wcale o wyrażanie przygnębienia lub smutku

O jakie cechy chodzi? Na przykład o to, że jedni wolą zdania krótsze (wtedy w tekście pojawi się więcej kropek i wielkich liter), inni zaś dłuższe, złożone (stosują zatem więcej przecinków, a kropek i wielkich liter mniej). Albo o preferowanie określonych części mowy: jedni lubią rzeczowniki, podczas gdy w tekstach innych będzie więcej czasowników. Zaimki też mają znaczenie. U jednych autorów częściej pojawiać się będzie „ja”, u innych „ty”, a u jeszcze innych „my” bądź „wy”.

Zwierciadło twoich myśli

Analizie poddać można także przyimki (każdy ma ulubione) czy częstotliwość występowania przymiotników bądź imiesłowów przy rzeczownikach.

– To wszystko są cechy, które opisują naszą strukturę formułowania myśli. Algorytm tworzy zbiory tych cech – dodaje Kozłowski.

Gdy zbierze się wystarczająco dużo tekstów napisanych przez daną osobę, maszyna może nauczyć się rozpoznawać jej indywidualny styl wyrażania. Podstawowe elementy stylu każdego z nas formują się już między 14. a 16. rokiem życia, natomiast ostatecznie krystalizują się w okolicach matury czy pierwszego roku studiów. Później zmienia się niewiele – i tylko pod warunkiem, że człowiek nad swoim stylem świadomie pracuje (jak czynią np. pisarze czy dziennikarze). Według psychologów po dwudziestce przeciętny człowiek nabiera większej płynności pisania, zwiększa się zasób jego słów, lecz styl jego języka w zasadzie pozostaje ten sam.

– Zmiany, owszem, pojawiają się, ale statystycznie rzecz biorąc są nieistotne – zaznacza Kozłowski. – To co najwyżej dziesięcioprocentowe wahnięcia pewnych cech w jedną lub drugą stronę.

Duński pisarz-duch

Ghostwriter to ktoś, kto pisze dzieło na czyjeś zamówienie, a po wykonaniu pracy godzi się, by to zamawiający podawał się za autora. Tymczasem oparty na sztucznej inteligencji program o tej właśnie nazwie, który stworzyli naukowcy z Wydziału Informatyki Uniwersytetu Kopenhaskiego, od wiosny pomaga w walce z pisaniem na zlecenie na rzecz uczniów duńskich szkół. W ostatnich latach zjawisko to osiągnęło rozmiary plagi. W internecie powstała nawet specjalna strona, Den Blå Avis, na której uczniowie ogłaszają przetargi na swoje zadania pisemne.

Algorytm informatyków z Kopenhagi korzysta z profilowania behawioralnego i analizuje każdą pracę pod kątem jej podobieństwa językowego względem wcześniejszych prac tego samego autora. Bazuje na 130 tysiącach prac napisanych przez 10 tysięcy uczniów.

Gdy zbierze się wystarczająco dużo tekstów napisanych przez daną osobę, maszyna może nauczyć się rozpoznawać jej indywidualny styl wyrażania

Twórcy Ghostwritera twierdzą, że ich program można wykorzystać także do wykrywania fałszerstw dokumentów – czyli tam, gdzie do tej pory potrzebna była ludzka intuicja albo żmudne badania biegłych.

Jedyny słaby punkt

Jednak profilowanie behawioralne ma też swój słaby punkt: ludzie w depresji zmieniają styl swego języka – i nie chodzi tu wcale o wyrażanie przygnębienia lub smutku. W depresji zmienia się cała perspektywa postrzegania świata.

Jak wynika z badań, człowiek w depresji rzadziej używa drugiej i trzeciej osoby („on”, „ona”, „oni”), za to znacznie częściej pierwszej („ja”). Jego świat staje się monochromatyczny, pozbawiony odcieni i niuansów, więc częściej używa słów takich jak „zawsze”, „nic”, „całkiem” czy „zupełnie”, to znaczy bezwzględnie kategoryzujących.

Tyle że algorytm i to może ujawnić, stwierdzając, że mamy depresję, a potem uwzględnić ten fakt w analizie naszego tekstu.

Ostatnie sito i alerty

Ostatnie sito JSA ujawnia ewidentne manipulacje, które miałyby maskować zapożyczenia. To tzw. wykrywanie białych znaków (zaznaczanie fragmentu tekstu przez autora na biało, by nie był widoczny) i mikrospacji (usuwanie spacji spomiędzy wyrazów i tworzenie zbitek, np. „tobyłokłamstwo”).

Na koniec system ustala wartość alertów ostrzegawczego i alarmowego. Domyślnie (każda uczelnia, a nawet wydział może dopasować te parametry do własnych standardów) pierwszy z nich został ustawiony na 40, a drugi na 70 proc. podobieństwa badanej pracy do innych materiałów.

– Z naszych badań wynika, że to wartości optymalne – mówi Kozłowski. – Prace dyplomowe cytują źródła naukowe w różny sposób, stosują różne metodologie, dlatego ocena JSA nie jest ostatecznym wyrokiem. Nasz system ma być wsparciem dla promotora i to do niego należy ocena, czy badana praca jest plagiatem, czy może zapożyczenia są uzasadnione.

250 sekund, 100 serwerów, 40 terabajtów

Na mocy nowelizacji ustawy „Prawo o szkolnictwie wyższym” od początku 2019 roku każda pisemna praca dyplomowa przed dopuszczeniem do obrony musi zostać sprawdzona przez JSA. Z systemu skorzystało już prawie 350 polskich uczelni. Do ubiegłego roku przed wejściem JSA w życie uczelnie używały różnych systemów, jak Genuino, OSA czy Plagiat.pl. Jednak porównywały one nowo powstające prace tylko z ograniczonymi zbiorami prac danej uczelni lub federacji uczelni korzystających z tego samego systemu. Istniała więc możliwość bezkarnego splagiatowania pracy z innej uczelni.

Analiza pracy pod kątem zapożyczeń trwa średnio 250 sekund. Wykonuje ją klaster 100 serwerów, który zarządza ponad 40 terabajtami danych. System wykrył podejrzanie dużą ilość tekstu zapożyczonego z innych źródeł w niemal 10 tysiącach przypadków.

– Około 8 proc. prac studentów przekroczyło próg ostrzegawczy, który wskazuje, że 40 proc. tekstu jest podobne do innych znajdujących się w bazie. Kolejne 2,5 proc. prac przekroczyło próg alarmowy; w ich przypadku współczynnik podobieństwa wynosił 70 proc. – mówi Kozłowski.

Lajki, czyli cała prawda o tobie

Co znamienne, ślady, które po sobie pozostawiamy w internecie, mogące posłużyć do wytropienia nas, mają nie tylko postać tekstów. Nie musisz nic pisać. Wystarczy, byś kliknął. I nie chodzi tylko o internetowe ciasteczka, czyli pliki cookies, na podstawie których algorytmy tworzą profile konsumentów.

Sześć lat temu naukowcy z uniwersytetów Stanforda i Cambridge wykazali, że algorytm może odgadnąć płeć czy poglądy polityczne dowolnej osoby tylko na podstawie polubień, jakie daje ona na Facebooku. W dwóch przypadkach na trzy trafnie przewidywał stan cywilny, w czterech na pięć wyznanie, a orientację seksualną w niemal dziewięciu na dziesięć (odpowiednio: 65, 82 i 88 proc. dokładności).

Twoje polubienia są niczym stale złuszczający się naskórek. Inteligentne algorytmy mogą na ich podstawie określić to, co psychologowie nazywają „wielką piątką” osobowości

W 2015 roku zespół z Cambridge, w którego składzie znalazł się polski badacz, dr Michał Kosiński, dowiódł, że ślad, jaki pozostawiasz w sieci, pozwala określić twój typ osobowości. Już dziesięć lajków wystarczy, by algorytm zidentyfikował ją trafniej niż twoi koledzy czy koleżanki z pracy, a kilkadziesiąt – precyzyjniej od współlokatora. 150 lajków czyni z komputera lepszego znawcę ciebie od członka twej rodziny, a 300 – od partnera czy partnerki.

Playlista: czy jesteś inteligentny?

Na podstawie analizy twoich polubień inteligentne algorytmy mogą określić to, co psychologowie nazywają „wielką piątką” osobowości, czyli nasilenie lub osłabienie stanów neurotycznych, ekstrawersji, otwartości na doświadczenia, ugodowości i sumienności.

– Ludzie nie zdają sobie sprawy, jak dużo można się o nich dowiedzieć tylko na podstawie profilu na Facebooku, tego, co można znaleźć na Spotify czy Youtube. Myślisz sobie: najwyżej ktoś się dowie, czego słucham. Tymczasem z playlisty na Spotify po komputerowej analizie można wycisnąć sporo danych dodatkowych, określających osobowość, inteligencję, wyznanie, poglądy polityczne, orientację seksualną – komentował wyniki badań Michał Kosiński.

Układając odpowiednią kombinację takich cech, można cię wyłowić nawet w morzu wielu milionów innych osób.

Czarna skrzynka: umie, ale nie rozumie

To, że maszynowe algorytmy mogą rozpoznać nasze ślady w internecie, nie oznacza jednak wcale, że cokolwiek z tego rozumieją.

– Maszyny są doskonałe w generalizacjach. Mogą z tekstu odczytać stylometryczny odcisk palca autora, mogą rozpoznać, co znajduje się na zdjęciu, i poprawnie to opisać. Ale nie potrafią wyciągać logicznych wniosków ani wytłumaczyć, jak do wniosków dochodzą. Dajemy im zdjęcie – i pstryk, opiszą: „pies i kot jadą na deskorolce”. To wszystko działa bardzo fajnie, bo algorytm nauczył się rozpoznawać psy, koty i deskorolki na milionach przykładów. Ale zupełnie nie wiedzą, że pies i kot są żywe, a deskorolka służy ludziom do jeżdżenia – zastrzega Marek Kozłowski.

Sieci neuronowe są dla nas czarnymi skrzynkami. Wykonują na naszą rzecz pewne zadania, ale nie mamy pojęcia, jak to robią. Kozłowski podaje przykład algorytmu, który powstał w kierowanym przez niego laboratorium: na podstawie analizy treści komentarzy internautów przewidział wynik ostatnich wyborów parlamentarnych. Jak to możliwe, skoro tak wielu starszych wyborców nie udziela się w internecie? Nie wiadomo.

Współpraca: Michał Skubik

Skip to content