RANKING TEKSTÓW 2019. MIEJSCE 5.* Jeśli my nie potrafimy robić tego, co potrafią maszyny, to dlaczego im nie zaufać? – pyta dr Marek Kozłowski, współtwórca Jednolitego Systemu Antyplagiatowego

*Ranking 2019. Najchętniej czytane teksty na sztucznainteligencja.org.pl

Święta, święta, Nowy Rok… czas sprzyjający podsumowaniom. My też po ponad pół roku od premiery portalu postanowiliśmy spojrzeć w przeszłość i sprawdzić, które teksty na sztucznainteligencja.org.pl czytaliście najczęściej.

Codziennie do 1 stycznia 2020 r. z naszego coraz bardziej przepastnego archiwum (liczy już ponad 800 pozycji) wyciągamy na witrynę teksty z listy dziesięciu najbardziej poczytnych artykułów.

Dla nas to nie tylko podróż sentymentalna, ale i okazja do namysłu, co zrobić, żeby portal był coraz ciekawszy i żeby dostarczać Wam coraz lepsze teksty.

Czego Wam i sobie życzymy!
Redakcja

Naszą listę 2019 znajdziesz na końcu tekstu

Robert Siewiorek: Pamiętasz „Mieszczanina szlachcicem” Moliera? Pan Jourdain, parweniusz, by wkręcić się na salony, pobiera lekcje wymowy u nauczyciela filozofii. Na bileciku do damy, którą ma na oku, chciałby napisać: „Piękna Markizo, twoje piękne oczy sprawiły, iż umieram dla ciebie z miłości” – tymi samymi słowami, tyle że bardziej wykwintnie. Nauczyciel podaje mu więc inne wersje tego komunikatu, np.: „Iż z miłości umieram dla ciebie, twoje piękne oczy sprawiły, piękna Markizo” czy „Sprawiły piękne oczy twoje, iż z miłości piękna Markizo umieram dla ciebie”. Oszukałbym wasz system, gdybym, niczym Molierowski nauczyciel, przestawił szyk słów w obcym tekście, który podaję za swój?

Marek Kozłowski*: Nie, bo nasz system antyplagiatowy jest na coś takiego całkowicie niewrażliwy. Zmiana porządku słów nie spowoduje, że system nie wykryje zapożyczenia. On dzieli każdy tekst na zdania, a zdania są dzielone na słowa, które tworzą kolekcje nieuporządkowane.

Kolekcje?

Zbiory elementów, a nie ich listy. Więc jeśli napiszemy: „Mama lubi kota” albo: „Mama kota lubi”, to system w obu przypadkach widzi trzy różne słowa w dwóch zbiorach, a te zbiory są równoważne. Przecięcie tych zbiorów jest miarą podobieństwa. W tym przypadku wyszłoby, że mam stuprocentowy plagiat, bo w obu zdaniach powtarzają się te same słowa.

Czyli bez względu na to, jak biegle posługuję się składnią, jeśli kradnę czyjś tekst, i tak zostanę zdemaskowany?

Zostaniesz. Nasz algorytm jest niewrażliwy na zmiany szyku zdania, kolejności wyrazów, wielkości liter czy interpunkcji. On oczyszcza sobie analizowany tekst, buduje z niego jednoznaczne zbiory słów, pojedynczych tokenów, i na nich pracuje.

System traktuje słowa jak elementy konstrukcji czy rozumie ich znaczenia?

O tyle rozumie znaczenia, że czasem korzysta ze słowników synonimów. Na przykład wie, że „auto” i „samochód” to to samo. Natomiast nie pracuje na takim poziomie semantyki, na którym mógłby uznać za synonimy słowa „adoruje” i „kocha”. Technicznie dałoby się to zrobić, ale wtedy algorytm byłby zbyt wrażliwy, kojarząc słowa znaczeniowo nierównoznaczne.

System – to znaczy co konkretnie?

Jednolity System Antyplagiatowy, który powstał w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym w Warszawie, gdzie pracuję. System informatyczny, który wspiera promotora w wykrywaniu plagiatów prac dyplomowych: licencjackich, inżynierskich i magisterskich. W maju dojdą do tego prace doktorskie.

Chodzi o prace powstałe już po wdrożeniu systemu czy także wcześniejsze?

Tylko te, które miały być obronione po 1 października 2018 roku. System nie działa wstecz, podobnie jak prawo.

Ile prac przez niego przepuściliście?

W styczniu i lutym przeprowadził około 40 tysięcy badań, z czego w przypadku około tysiąca PRP był bardzo wysoki, wynosił 70 procent.

PRP?

Procentowy Rozmiar Podobieństwa. System wykrywa odsetek pasaży tekstu w badanej pracy podobnych do pasaży w innych pracach. Jeśli więc wykryłem w pracy trzy rozłączne pasaże, a każdy ma 30 znaków, to mam w sumie 90 znaków wykrytych pasaży. Dzielę to przez rozmiar całej pracy (całkowitą liczbę znaków) i otrzymuję PRP. Czyli wskaźnik tego, ile tekstu mojej pracy pochodzi z innych prac.

Każdy sprawdzany dokument system dzieli na przykład na pięciozdaniowe kęsy, tworzy z nich mikrodokumenty i zaczyna szukać podobieństw. Kiedy na coś natrafi, odnosi się do dokumentu oryginalnego. Takich mikrodokumentów mamy już 8 miliardów

Jak długo powstawał JSA?

Od połowy 2017 do końca 2018. Półtora roku.

Marek Kozłowski (z prawej) i Maciej Kowalski, lider zespołu programistów, prezentują działanie JSA. Plagiat czy wręcz przeciwnie…?

W ilu go budowaliście?

Było nas kilkunastu. Na początku bliżej 10, na końcu około 15, wliczając do ekipy także testerów, programistów, administratorów, analityków.

Wzorowaliście się na innych systemach?

Owszem, inspirowaliśmy się tym, co w innych systemach najlepsze, ale na pewno nie dopuściliśmy się plagiatu. Nie ma drugiego takiego systemu, jak nasz JSA.

Na jak dużych bazach dokumentów pracuje JSA?

Teraz na 11 wielkich bazach danych. Jest wśród nich m.in. Ogólnopolskie Repozytorium Prac Dyplomowych (około 3 milionów prac dyplomowych), jest baza NEKST, czyli obraz polskiego internetu (to około 760 milionów dokumentów), jest sześć Wikipedii w różnych językach, w tym polska, oraz zbiory aktów prawnych.

I w tych setkach milionów dokumentów system szuka prac podobnych do tej, którą weryfikuje?

Tak. Mówiąc w skrócie, każdy sprawdzany dokument system dzieli sobie na okienka tekstu (np. pięciozdaniowe kęsy), tworzy z nich swego rodzaju mikrodokumenty, co zrobiwszy – zaczyna szukać podobieństw. Kiedy natrafi na coś podobnego, odnosi się do dokumentu oryginalnego. Takich pięciozdaniowych mikrodokumentów mamy już ponad 8 miliardów.

W takim razie spójrz na to: „Miliony, miliony ton kamienia. W ciągu trzech stuleci od XI do XIV wieku wydobyto we Francji więcej tego materiału niż w starożytnym Egipcie, kraju gigantycznych budowli. Osiemdziesiąt katedr i pięćset wielkich kościołów, jakie zbudowano w tym okresie, zebrane razem tworzyłyby łańcuch górski wzniesiony ręką człowieka”.

No i?

I teraz to: „Na przestrzeni trzech stuleci, między rokiem 1050 a 1350, Francja wydobyła wiele milionów ton kamienia, aby wznieść 80 katedr, 500 wielkich kościołów i kilkadziesiąt tysięcy kościołów parafialnych. W ciągu tych trzech wieków Francja przetransportowała więcej kamienia niż starożytny Egipt w którymkolwiek okresie swej historii”.

Bardzo podobne.

Pierwszy fragment pochodzi z książki „Budowniczowie katedr” Jeana Gimpela, wydanej we Francji w 1958 r., drugi to cytat z eseju „Kamień z katedry” w zbiorze „Barbarzyńca w ogrodzie” Zbigniewa Herberta, I wydanie w 1962 r. Wasz system uznałby Herberta za plagiatora?

To zależy od parametru wrażliwości algorytmu na podobieństwo tekstów. Już wyjaśniam: do systemu wprowadziliśmy możliwość zdefiniowania przez administratora systemu w instytucji czułości algorytmu wyszukującego podobieństwa. Czy algorytm ma brać pod uwagę parafrazę? A może uznawać za plagiat tylko wierne podobieństwa? Suwak podobieństwa to miara, która może działać w skali od 0 do 100 procent. Ustawianie jego czułości na 0 procent nie miałoby jednak sensu, bo za plagiat uznawałby każdy tekst, porównując go z dowolnym innym tekstem.

Próg 100 procent oznacza podobieństwo jeden do jeden?

Co do słowa, choć szyk może być różny, jak w „Mama lubi kota”, „Mama kota lubi”. Albo u Moliera. Te 100 procent mówi nam, że zdania zawierają te same słowa, więc system uzna badany tekst za plagiat. Ale jeśli oba teksty będą się różniły choćby jednym słowem, plagiatu nie wychwyci. Jeżeli parametr wrażliwości algorytmu jest ustawiony na 100 procent, system wykrywa tylko idealne klony dokumentów.

Klony?

Klon to fragment jednego tekstu przeklejony do drugiego. Ale jeżeli ustawisz czułość na 100 procent, to znaczy, że nie uznajesz za plagiat niczego, co wiąże się z parafrazą. Natomiast jeśli ustawisz go, powiedzmy, na 30 procent, akceptujesz pewien współczynnik parafrazy.

Jak wy ustawiacie suwak?

Jako wartość domyślną dajemy 30 procent. Z przeprowadzonych badań wynika, że to wartość optymalna. Ale uczelnia może uznać, że system będzie zbyt czuły, wykrywając zbyt wiele podobieństw, które zaburzą ostateczny obraz pracy autora. I ustawia suwak na przykład na 50 albo 70 procent. Parametr może mieć inną wartość na różnych wydziałach. Dla przykładu, wydziały humanistyczne mogą być zainteresowane wynikami przy parametrze ustawionym w okolicach 30, natomiast wydziały techniczne powinny ustawić na 70 procent.

A uczelnie?

Zwykle ustawiają go na 50 procent. I to jest racjonalne.

Wystarczy, by uznać, że Herbert splagiatował Gimpela?

Tak. Przy suwaku ustawionym na 30 procent by wystarczyło. Myślę nawet, że podejrzenie pojawiłoby się już przy 50-procentowej czułości.

Znasz jakieś przypadki prac z nauk ścisłych, gdzie podejrzenie plagiatu pojawiło się już przy takiej czułości?

Dwa. Jedna praca dotyczyła eksperymentów nad uzbrajaniem żelbetonowych konstrukcji mostowych, druga – uplastycznienia tych konstrukcji. System zaznaczył wiele podobnych fragmentów, ale według promotora to nie był plagiat. Uznaliśmy, że to jego interpretacja.

Analizowanie pracy wrzuconej do systemu trwa średnio 450 sekund

Jak promotorzy reagują w takich sytuacjach?

Zależy którzy. Wiele uczelni technicznych zarzucało nam, że JSA pokazuje za dużo, jest zbyt wrażliwy. I chciały wykrywać tylko klony. Dla niektórych parafraza jest sprawą autorską, więc przesuwały suwak w stronę 70 procent, uznając, że to rozwiązuje problem.

Dlaczego od razu nie 100 procent?

Bo takie podejście trudno byłoby obronić. Oznaczałoby, że dla tej czy innej uczelni plagiatem są tylko klony. Zmieniłeś jedno słowo – a my już tego nie wykryjemy. Taka zamierzona ślepota.

Czego potrzeba, by oszukać algorytm? Większej inwencji w operowaniu językiem?

Spore pole manewru mają tu ci, którzy tłumaczą fragmenty obcojęzycznych prac. Gdyby ktoś przetłumaczył pracę angielską na polski, algorytm nie byłby jeszcze w stanie wykryć podobieństw. Jednak niedługo algorytmy będą w stanie wykrywać i takie podobieństwa.

Druga sprawa to dobra parafraza. Ale nie taka zwykła, słownikowa, jakiej używamy, wykrywając plagiaty.

Literacka?

Tak. Ktoś napisze: „Wczoraj zwodowaliśmy dwa statki”, a ty przerobisz to na: „We wtorek nasza brygada spuściła na wodę dwie jednostki pływające” – i takie podobieństwo jest nie do wykrycia.

Jak do tej pory uczelnie ujawniały plagiaty?

Miały inne systemy, jak Plagiat.pl, Genuino, OSA. Ale one pracowały na ograniczonych zbiorach danych. Zwykle zbiorach tej uczelni, z której pochodziła dana praca, albo uczelni objętych działaniem tego systemu.

Czyli wystarczyło przepisać fragmenty pracy z innego uniwersytetu – i nic się nie działo?

Nie tylko fragmenty. Kiedyś praca obroniona w Opolu miesiąc później była broniona w Suwałkach.

Jak uczelnie odnoszą się do działania JSA?

Z rezerwą.

Bo ujawnianie plagiatów godzi w ich prestiż?

Właśnie. Plagiat oznacza też, że jakość kształcenia była na danej uczelni niska. Jest nawet gorzej. Z naszych rozmów z uczelniami wynika, że z powodu podejrzenia o plagiat w pracy licencjackiej, magisterskiej czy inżynierskiej tej zimy do obrony nie zostało dopuszczonych co najmniej kilkudziesięciu studentów.

30 procent nadużyć to problem, ale jeszcze nie tragedia. Zawsze jakoś odnosisz się do idei, metod badawczych, dorobku czy narzędzi, które powstały przed tobą

To poważny problem w polskiej nauce?

Poważny, skoro w ciągu zaledwie dwóch miesięcy promotorzy zablokowali obrony kilkudziesięciu studentów, a pamiętajmy, że my mamy ograniczony obraz rzeczywistości. Wiele uczelni nie przyznaje się do tego, by nie ujawnić prawdziwej skali problemu.

Większy niż gdzie indziej?

Nie, taki sam. No, może poza krajami protestanckimi.

Etyka pracy?

Etyka pracy. Przywiązanie do pewnej jakości pracy, a nie tylko jej końcowego efektu. Nikt nie chce o tym mówić głośno, bo to by pokazywało, że z etyką od dawna u nas kiepsko. Więc wszyscy milczą, dopóki nie pokażesz liczb. Póki można operować dogmatami, wizjami, zjawisko jest niemierzalne.

Można zwalić na poezję.

Na poezję, parafrazę, złą wolę wrogich sił. Albo powiedzieć, że problem jest marginalny, raptem dwa przypadki w roku.

A jaki jest naprawdę?

Zakładam, że plagiaty to około 5 procent prac dyplomowych.

Co dwudziesty magister i inżynier jest oszustem?

Może nie każdy z tych 5 procent to oszust, ale na pewno każdy dopuścił się nadużycia, nadmiernie wykorzystywał inne źródła.

Lubisz Monty Pythona?

Trochę tak, choć już od dawna ich nie oglądałem.

John Cleese powiedział kiedyś: „Jeśli pracujesz w przemyśle kreatywnym, powinieneś kraść pomysły innych osób. Szekspir wykorzystywał wątki z greckich klasyków. Jeśli mówisz, że zamierzasz napisać coś zupełnie nowego, oryginalnego i świetnego, a chcesz poprzestać na tym, co podpowiada ci tylko twój rozum, to tak, jakbyś próbował latać samolotem, nie wziąwszy przedtem żadnych lekcji”.

No tak. Zawsze od czegoś startujesz.

Nauka też jest przemysłem kreatywnym.

Jest, dlatego zawsze powtarzam, że te 30 procent PRP w badaniu pracy to problem, ale jeszcze nie tragedia. Zawsze jakoś odnosisz się do idei, metod badawczych, dorobku czy narzędzi, które powstały przed tobą. Czyniąc to, udowadniasz, że je znasz i wiesz, jak się nimi posłużyć. Brak odniesień też byłby podejrzany.

Bo to wymyślanie świata od zera?

Właśnie. Według mnie około 30 procent pracy jako odniesienie się do literatury przedmiotu, podstawowych pojęć, koncepcji, czerpanie z bazowych źródeł – to żaden grzech. Ale 70 procent podobieństwa już się nie da obronić.

Nie masz przypadkiem wrażenia, że te maszyny, algorytmy zabierają nam jakąś przestrzeń twórczej swobody? Że tropiąc podobieństwa wyrazów czy fraz, ograniczają nas w kreowaniu wiedzy, kultury, reinterpretowaniu świata, opowiadaniu go na nowo?

Bo udowadniają nam, że to wszystko to samo, a twój wkład jest niewielki albo żaden?

I wszystko już było, a ty nie wymyśliłeś niczego nowego.

Może i tak jest. Z drugiej strony, jeśli my nie jesteśmy w stanie robić tego, co potrafią maszyny, to dlaczego im nie zaufać? Dzięki maszynom możemy uświadomić sobie nie tylko zagrożenia, ale i korzyści, które z takiej sytuacji dla nas płyną. Bo może się okazać, że części prac nie warto w ogóle promować.

Przestaniemy udawać?

Tak. Po co pisać 30 prac dyplomowych z podziału gruntu rolnego we wsi Głucha Dolna przy rzeczce, ścieżka piąta – jeśli to wciąż to samo?

Czyli co? Pójdziemy do przodu?

Przestaniemy się oszukiwać.


*Marek Kozłowski – doktorat ze sztucznej inteligencji obronił w Instytucie Informatyki Politechniki Warszawskiej. Jest kierownikiem Laboratorium Inżynierii Lingwistycznej w Ośrodku Przetwarzania Informacji – Państwowym Instytucie Badawczym, gdzie prowadzi 30-osobowy zespół badaczy i programistów zajmujący się tworzeniem oprogramowania wzbogaconego inteligentnymi metodami przetwarzania danych (m.in. JSA, chatboty, semantyczne wyszukiwarki). Pasjonuje go przetwarzanie języka naturalnego, eksploracja danych i uczenie maszynowe. Autor ponad 30 publikacji naukowych z zakresu semantycznego przetwarzania tekstów i uczenia maszynowego.

JSA w liczbach

  • 40 000 000 – tyle zapytań do indeksów wykonał system w celu znalezienia podzbiorów potencjalnych źródeł plagiatów dla badanych prac
  • 12 000 000 – tyle par dokumentów zostało zbadanych metodami TextAlignmentu (porównywanie dwóch dokumentów ze sobą) w procesie ujawniania potencjalnych plagiatów
  • 45 000 użytkowników ma JSA, z czego prawie 30 tysięcy to użytkownicy kont założonych bezpośrednio w systemie, a ponad 15 tysięcy to osoby korzystające ze swoich systemów na uczelniach
  • 40 000 badań prac dyplomowych system wykonał od początku 2019 roku
  • 36 300 użytkowników przeglądarkowych korzystało z JSA według Google Analytics
  • 6000 badań na dobę może przetwarzać bieżąca wersja
  • 450 sekund trwa średnio analizowanie pracy wrzuconej do systemu
  • 216 polskich uczelni skorzystało z JSA
  • 100 serwerów składa się na klaster obsługujących system. Zarządza on ponad 30 terabajtami (30×1012 bajtów) danych.

Dane za okres od 1 stycznia do 7 marca 2019. Duże liczby zostały podane w przybliżeniu.


Na mocy nowelizacji ustawy Prawo o szkolnictwie wyższym od 1 stycznia 2019 r. każda pisemna praca dyplomowa przed dopuszczeniem do obrony musi zostać sprawdzona w JSA


Read the English version of this text HERE