Wielkie czytanie maszyn, czyli zarazić świat Mickiewiczem

Co by było, gdyby sztuczną inteligencję wytrenować na tekstach z prasy propagandowej? Włos się jeży. Dlatego ludzie zawsze będą musieli nadzorować SI. Także ci, którym algorytmy pomagają cyfryzować zbiory Biblioteki Narodowej

W sali tłum. Zaraz ma się tu odbyć debata Future Talks o sztucznej inteligencji w świecie książki. Sztuczna inteligencja to modny temat, więc i tu, na październikowych Targach Książki w Krakowie, nie mogło go zabraknąć, ale dla bibliofili, którzy zjeżdżają tu co roku, sprawa jest nieco niepokojąca. („Co do diabła sztuczna inteligencja ma z nami wspólnego? Z nami, którzy tak kochamy stare, dobre, papierowe książki z ich zapachem i szeleszczącymi stronami, które przenoszą nas w inny wymiar? Trzeba się natychmiast dowiedzieć o co kaman”). Czuć, że w tym towarzystwie nawet czytniki są ledwo tolerowane. („To jednak nie to samo co papierowa książka… Papier to papier… No, może na wakacje, bo zajmuje mało miejsca w walizce”).

Sztuczna inteligencja to przyszłość, a przyszłość książki – jak wieszczą niektórzy – jest pod dużym znakiem zapytania. Obraz wypiera słowo. Co prawda Polacy nigdy za dużo nie czytali, ale teraz podobno czytają jeszcze mniej. Większość przerzuciła się z telewizji na netflixy.

Literatura – rzecz świeża, lecz święta

– Czy za sto lat będziemy jeszcze czytać? Czy książki przetrwają? – nieco dramatycznie zagaił prowadzący debatę Łukasz Wilczyński.

– Cóż, książki to nic innego jak dane – wzruszył ramionami Łukasz Kozak*, ekspert od zbiorów cyfrowych Biblioteki Narodowej w Warszawie. – Czy te dane są zapisane, czy zapamiętane; czy czytamy papirus, czy książkę w formie papierowej; czy odczytujemy tekst z kamiennej tablicy, czy z ekranu czytnika – to nieistotne. To wciąż te same dane, dane, które interpretujemy.

Słuchacze zbledli na te słowa, a serca zamarły im w piersi.

– Papierowa książka to przecież w perspektywie historii ludzkości bardzo świeży wynalazek – ciągnął Kozak. – Literatura to jest rzecz świeża, a literatura zapisana to już w ogóle! Tak naprawdę mówimy o pewnej intermedialności. Perspektywa śmierci tak rozumianej książki to iluzja.

Czy sztuczna inteligencja naprawdę czyta książki?
„Czyta. I jest to dla nas dobrodziejstwo” – zapewnia Łukasz Kozak z Biblioteki Narodowej

– To jak będą wyglądały biblioteki przyszłości? – zmartwił się prowadzący.

– Pan chyba pyta, jak już wyglądają – skontrował Kozak. – Dzisiaj każda szanująca się biblioteka poddaje swoje zbiory digitalizacji. Każdy bibliotekarz wie już, czym jest OCR, czyli optical character recognition, proces, dzięki któremu można analizować grafię [czyli graficzną postać wyrazu – red.]. Bo jak by nie patrzeć, tekst jest także obrazem. To zmiana, która już zaszła, tylko nie wszyscy o tym wiedzą.

Sztuczna inteligencja a „Janko Muzykant”

– Czy sztuczna inteligencja naprawdę czyta książki? – drążył prowadzący.

– Czyta. I jest to dla nas dobrodziejstwo – zapewniał Łukasz Kozak. – Pomaga nam znaleźć coś, czego szukamy, tak jak Spotify w morzu muzyki pozwala nam wyszukać konkretny utwór albo wykonawcę. Kiedy w bibliotece cyfrowej Polona zdigitalizowanych było 40, 100, ba!, nawet 200 tysięcy książek, to ja mniej więcej pamiętałem, co tam jest. Byłem w stanie to jakoś ogarnąć umysłem. Ale dzisiaj, przy 3 milionach, nie mam już najmniejszych szans.

Łukasz Kozak jest pewny, że sztuczna inteligencja będzie służyła naszej przyjemności, tak samo jak internet.

– Kanon literacki, z którym mamy dziś do czynienia, jest archaiczny. Dzieci wciąż muszą czytać „Krzyżaków” i „Janko Muzykanta”. Wszyscy mieliśmy w szkole lektury, których nie lubiliśmy. Dlatego czytywaliśmy tzw. bryki, czyli streszczenia lektur. Obcując z niektórymi arcydziełami pozytywizmu, nie dziwię się absolutnie. Jestem pewien, że lepiej przeczytać streszczenie. SI nam to ułatwi – zaznaczył.

– No dobrze, zatem sztuczna inteligencja czyta książki. Ale czy rozumie, co czyta? – powątpiewał moderator.

– Rozumie, choć może jeszcze nie idealnie. Tzw. sentiment analysis (analiza sentymentu) pozwala jej na przykład zidentyfikować, czy mamy do czynienia z mową nienawiści, czy z opisem randki. To prawda, że na razie dość łatwo ją oszukać. Ale ona bardzo szybko się uczy.

10 milionów dokumentów

W Bibliotece Narodowej w Warszawie sztuczną inteligencję uczy zespół Soni Wronkowskiej** z Pracowni Systemów IT w Zakładzie Technologii Informatycznych Biblioteki Narodowej. To właśnie z nimi współpracuje Łukasz Kozak.

Skoro książka to dane, to Biblioteka Narodowa jest olbrzymim zbiorem danych. 10 milionów dokumentów – życia nie starczy, by zapoznać się choćby z drobną częścią tego, co tu jest. Biblioteka gromadzi nie tylko książki; są tu także czasopisma, rękopisy, druki muzyczne, mapy, pocztówki, fotografie, ikonografia, dokumenty elektroniczne, dźwiękowe i audiowizualne. Wszystko, co zostało opublikowane w języku polskim.

– Zajmujemy się utrzymaniem i rozwojem różnych systemów informatycznych, które służą Bibliotece Narodowej i jej czytelnikom: biblioteki Polona, repozytorium cyfrowego, multiwyszukiwarki – wylicza Sonia Wronkowska.

Cyfrowy skarbiec narodu

Digitalizacja na dużą skalę rozpoczęła się w Bibliotece Narodowej w 2006 roku.

– Głównym naszym celem było wówczas zabezpieczenie zbiorów – opowiada. – Chodziło o to, żeby mieć kopię cyfrową tych najcenniejszych, najbardziej wrażliwych obiektów i ograniczyć ich eksploatację fizyczną. To był między innymi tak zwany skarbiec Biblioteki Narodowej, czyli najcenniejsze rękopisy, kluczowe dla polskiej kultury i polskiego języka zabytki. W 2013 roku zdecydowaliśmy, że będziemy digitalizować nie tylko po to, żeby zabezpieczać te najbardziej wartościowe. Robiliśmy to także po to, żeby udostępnić czytelnikom wszystkie książki. Bo takie jest zadanie Biblioteki Narodowej. Jesteśmy jedynym miejscem z tak bogatym zasobem polskiej kultury piśmienniczej. Trafia do nas po dwa egzemplarze wszystkiego, co wydane jest w Polsce, gromadzimy również publikacje wydane w języku polskim za granicą od 1928 roku, czyli od powołania Biblioteki Narodowej.

Zaczęła się masowa digitalizacja. Powstała Polona – cyfrowa Biblioteka Narodowa.

– W 2013 roku mieliśmy kilkadziesiąt tysięcy zdigitalizowanych i udostępnionych online obiektów. Dzisiaj jest ich już ponad 3 miliony, co czyni nas jedną z największych bibliotek cyfrowych na świecie – mówi Wronkowska. – To samo robią wszystkie najważniejsze europejskie Biblioteki Narodowe. Największa w tej chwili jest francuska biblioteka cyfrowa Gallica; oni zaczęli ten proces kilka lat przed nami.

– Ponieważ łącznie mamy w bibliotece około 10 mln dokumentów, to jest jeszcze co robić. Ale nasza wymarzona demokratyzacja informacji jest już faktem – uśmiecha się Łukasz Kozak. – Każdy, kto ma dostęp do internetu, może wejść na stronę Polony i przeczytać „Psałterz floriański” czy rękopisy Chopina.

OCR, czyli jak to się robi w Warszawie

W najbardziej aktywnych okresach codziennie digitalizowanych jest w BN nawet do dwóch tysięcy dokumentów. Jak to wygląda?

– Zaczyna się od tradycyjnej pracy bibliotekarza analogowego, który opisuje dokument zgodnie ze sztuką bibliotekarską, czyli – w naszym żargonie – zapewnia metadane dla obiektu – wyjaśnia Sonia Wronkowska. – Następnie dokument idzie do ucyfrowienia. Podlega oczywiście także inspekcji konserwatorskiej; konserwator wskazuje też, na które urządzenie digitalizacyjne powinien trafić. Najcenniejsze obiekty są fotografowane.

Potem pliki lądują w jądrze biblioteki – czyli repozytorium cyfrowym. Tam metadane wytworzone przez bibliotekarza łączone są ze skanami i powstaje obiekt cyfrowy. Ten obiekt trzeba jeszcze opracować, wprowadza się więc paginację i poddaje go procesowi OCR, czyli optycznego rozpoznawania tekstu. Bo skan to plik graficzny, obraz, który reprezentuje tekst. OCR przekłada go na format czytelny dla komputera. Dzięki temu komputer rozpozna tekst na stronie, odróżni go od numeracji, tabeli czy marginesu. A także umożliwi użytkownikom przeszukiwanie treści.

Bo przecież nie wszystko, czego ludzie szukają, znajduje się w samym tytule bądź w metadanych opisowych, które zapewnia bibliotekarz. Użytkownik chce na przykład w bibliotece wyszukać wszystkie wzmianki o swojej rodzinnej miejscowości. Wpisuje więc jej nazwę do Polony i oczekuje, że otrzyma w wynikach wszystkie książki, w których ta miejscowość jest wspominana. Takie dodatkowe dane zapewnia właśnie OCR.

Starodruki dla maszyn niedostępne

Tak przygotowany obiekt ląduje w repozytorium. Jest długotrwale archiwizowany w bibliotekach taśmowych, w bardzo bezpiecznych warunkach. Dostarczany jest do Polony, skąd każdy, z dowolnego miejsca i w dowolnym czasie, ma do niego dostęp. Z repozytorium korzystają także inne instytucje, które nie mają własnego systemu bądź chcą zwiększyć swoje zasięgi, na przykład Muzeum Etnograficzne, Narodowy Instytut Fryderyka Chopina czy Biblioteka Jagiellońska.

Jednak maszyna potrafi „przeczytać” jedynie te książki, które mają standardowe czcionki, a więc te, które powstały w XIX i XX wieku. Tylko takie obiekty mogą podlegać standardowemu procesowi OCR. Wcześniejsze – starodruki, rękopisy – pozostają w szarej strefie. Dla nich nie ma gotowych narzędzi. W tej chwili starodruki są więc niedostępne dla maszyn, ale także dla osób niewidomych lub nieznających języka polskiego. Tymczasem w Bibliotece Narodowej są takie rarytasy, jak: najstarszy zachowany polski tekst prozatorski, czyli „Kazania świętokrzyskie” z XIII wieku, rękopis z kroniką Anonima tzw. Galla, „Psałterz floriański”, „Rozmyślanie przemyskie”, „Rocznik dawny” z notatką o chrzcie księcia Mieszka, masa rękopisów Norwida, Baczyńskiego, jedyny zachowany rękopis Kochanowskiego etc.

Czy w przyszłości sztuczna inteligencja będzie potrafiła je odczytać? Nad tym pracuje Jacek Tlaga***, entuzjasta inżynierii lingwistycznej, pasjonat fonetyki i fonologii.

Jacek Tlaga wpada na pomysł

– Chcąc podążać za tym, co się dzieje na świecie, rozpoczęliśmy prace związane ze sztuczną inteligencją – mówi Sonia Wronkowska. – Z Jackiem, specjalistą od starodruków, współpracowaliśmy już wcześniej, przy projektach związanych z najstarszymi dziełami. Zrekonstruował dla nas na przykład oryginalną wymowę „Bogurodzicy”. Znaliśmy jego zainteresowania i możliwości. Udało nam się go zatrudnić w naszym projekcie.

– Wpadłem na pomysł, jak można najstarsze polskie druki odczytać i przełożyć na formę, która byłaby czytelna dla programu komputerowego – na pliki tekstowe – zaznacza Jacek Tlaga. – Zajmuję się tym od półtora roku. To projekt pilotażowy, eksperymentalny, więc właściwie nie wiadomo, co z niego wyniknie. Nie mamy deadline’u. To raczej rekonesans – próba zorientowania się, co jest możliwe. To samo zresztą robią teraz inne biblioteki na świecie: zakładają małe zespoły badawcze, które rozpoznają sytuację. Wcześniej nie było to możliwe, ale pojawiły się głębokie sieci neuronowe i nagle okazało się, że rzecz jest w zasięgu ręki. Próbuję nauczyć maszynę czytania historycznych tekstów, które nie mają znormalizowanej czcionki. Niestety szwabacha, którą były drukowane polskie teksty, jest trudna do odczytania. Do tego w starodrukach nierzadko zdarzają się błędy. Drukarze w XVI wieku często się mylili.

Maszyna czyta, ale nie rozumie

– Jak to się odbywa w praktyce? – pytam.

– Wykorzystuję różne narzędzia. Bo czy można powiedzieć, że maszyna rozumie tekst? Oczywiście – nie. Rozumie go tylko jako ciąg znaków następujących po sobie. To czytanie bez zrozumienia. Dopiero potem następuje próba zrozumienia. Dlatego na początku algorytm rozpoznaje, co jest tekstem, a co obrazkiem; co literą, a co jedynie ornamentem – wyjaśnia Tlaga. – Do tego celu używam sieci konwolucyjnych, które rozpoznają obrazy. Potem używam sieci rekurencyjnych, które analizują sekwencję, czyli tekst. Sieć rozpoznaje nazwy własne, imiona, nazwy geograficzne, nazwy instytucji.

– No dobrze – zastanawiam się na głos – ale mamy, powiedzmy, XVI-wieczne wydanie trenów Kochanowskiego, gdzie inicjał każdego utworu wygląda jak miniaturowy obrazek. Czy program komputerowy jest w stanie połapać się, co to jest?

– Ozdobne inicjały to rzeczywiście duże wyzwanie – przyznaje Tlaga. – Praca ze sztuczną inteligencją to w dużym stopniu eksperymentowanie, sprawdzanie, co się dzieje, co działa.

Linijka po linijce, dziesiątki tysięcy

Tlaga nie tłumaczy algorytmowi, co jest czym. Daje mu tylko obrazek, daje mu tekst, a algorytm sam uczy się przyporządkować jedno do drugiego. Do tego potrzeba dużo danych, ale w Bibliotece Narodowej nie ma z tym problemu. Trzeba tylko dane odpowiednio przygotować, by stały się danymi treningowymi. Każdy obrazek musi zawierać tylko jedną linijkę tekstu, z konkretnymi znakami po kolei. Trzeba więc najpierw manualnie spisać litery, zaznaczając, czy to tekst główny, czy tytuł, inicjał czy podpis. To żmudna praca, bo potrzeba dziesiątków tysięcy takich linijek.

Praca ze sztuczną inteligencją to w dużym stopniu eksperymentowanie, sprawdzanie, co się dzieje, co działa

– Im więcej ich zdobędziemy, tym silniejszy i bardziej skuteczny będzie algorytm – zaznacza Tlaga. – Właśnie pracuję nad platformą, która pozwoli na łatwe i szybkie wprowadzanie tych danych; jestem na etapie opracowania prototypu.

Adres filmu na Youtube: https://www.youtube.com/watch?v=EyD0Q10REYs

Sonia Wronkowska z Biblioteki Narodowej w Warszawie opowiada o projekcie Polona, który przenosi do świata cyfrowego papierowe zbiory, a Jacek Tlaga o tym, czy można nauczyć sztuczną inteligencję czytania starodruków. https://polona.pl/

Na początku algorytm robił dużo błędów, które trzeba było ręcznie korygować. Ale w miarę upływu czasu błędów jest coraz mniej. Teraz, po roku zbierania danych i trenowania, algorytm radzi sobie już nieźle z polską szwabachą, fraszki Kochanowskiego odczytuje już bardzo sprawnie. I rozpoznaje, u którego drukarza drukowana była książka.

Bibliotekarze nie wyginą nigdy

– Macie wizję biblioteki przyszłości? Jak za 20 lat będzie wyglądała Biblioteka Narodowa? Będzie w niej jeszcze miejsce dla bibliotekarzy? – pytam.

– O to bym się nie martwiła – uspokaja Sonia Wronkowska. – Biblioteka Narodowa to ogromna instytucja. Pracuje tu 700 osób, a i tak czeka nas jeszcze dużo pracy ze zbiorem, który został nam powierzony. Tradycyjne zbiory są niedostępne dla osób niewidomych, a także tych, które nie znają polskiego. Tymczasem tekst w postaci cyfrowej każdy może wrzucić do translatora i się nim zapoznać. Indexer Google’a też sobie nie poradzi z nieopisanym obrazem.

Do tego dochodzą zbiory muzyczne, zapisane w notacji muzycznej. Dlaczego w przyszłości SI nie miałaby umożliwić użytkownikowi odtwarzania muzyki z drukowanej partytury?

– Myślę, że bibliotekarze będą mieli po prostu nieco inne zadania – dodaje Wronkowska. – Sztuczna inteligencja pomoże im się uporać z najbardziej żmudnymi pracami. Maszyna nie zastąpi człowieka, ale pomoże oszczędzić mu czas, na przykład generując słowa kluczowe opisujące treść książki.

Bardzo liczymy na to, że narzędzia sztucznej inteligencji będą nas wspierać.

– Przybliżymy Mickiewicza światu?

– Tak. Bardzo duży nacisk kładziemy na zapisywanie danych w standardach międzynarodowych, tak by różne systemy mogły z nich korzystać. A programy tłumaczące są coraz lepsze.

Kultura, czyli przewaga śmieci i głupoty

– Czytamy coraz mniej… Czy digitalizacja i dostęp online do zbiorów bibliotek poprawią sytuację? – pytam.

– Wcale nie czytamy mniej. Czytamy więcej, tyle że inaczej. Przecież każdy z nas wiecznie czyta coś w swoim telefonie.

– To dość krótkie teksty.

– To prawda, ale SMS-y nie są o wiele krótsze od fraszek Kochanowskiego. Udostępnienie w postaci cyfrowej zasobów BN sprawia zresztą, że w telefonie można czytać również fraszki. Poza tym… My digitalizujemy regał po regale – bez cenzury, bez selekcji. Digitalizujemy książki o tym, że ziemia jest płaska, kuriozalne stare poradniki lekarskie i propagandę z czasów okupacji. Kultura polska to nie tylko Mickiewicz i Kochanowski. Duża część naszych zbiorów to z dzisiejszej perspektywy książki niekoniecznie mądre i niekoniecznie dobre. To jest rzeczywisty obraz kultury i dziedzictwa kulturowego.

– Nikt o tym dzieciom w szkole nie mówi.

– Owszem. W tym przypadku dochodzimy też do problemu zniekształcenia danych. Co by było, gdybyśmy wytrenowali jakiś model na prasie historycznej, na książkach, które przekazują wiedzę zupełnie nieaktualną, niezgodną ze współczesnymi standardami, często szkodliwą? Jak on by potem klasyfikował różne zjawiska? Włos się jeży na głowie, prawda? Dlatego ludzie zawsze będą musieli nadzorować sztuczną inteligencję. Nawet jeśli będzie wykonywała już prawie wszystkie prace, ktoś musi jej pilnować. Bo ona jest naiwna jak dziecko. Jeżeli będzie się do niej mówić zdaniami z propagandowej prasy, to właśnie tego się nauczy.

*Łukasz Kozak – mediewista i ekspert od technologii. Od 8 lat współpracuje z Biblioteką Narodową przy tworzeniu i rozwijaniu usług cyfrowych.

**Sonia Wronkowska od ponad 6 lat w Bibliotece Narodowej, obecnie jako kierownik Pracowni Systemów IT. Z wykształcenia muzykolog, z doświadczenia bibliotekarz, studiuje informatykę na PJATK. Związana z RISM (Répertoire International des Sources Musicales) i kilkoma projektami z zakresu cyfrowej humanistyki, bierze udział w pracach MEI (The Music Encoding Initiative) i IIIF (International Image Interoperability Framework). W wolnych chwilach edytorka i badaczka muzyki dawnej.

***Jacek Tlaga pracuje w Bibliotece Narodowej od 2018 roku, gdzie zajmuje się automatyczną analizą dokumentów historycznych. Zaangażowany w badanie i rozwój różnorodnych narzędzi z dziedziny sztucznej inteligencji. Ma wieloletnie doświadczenie w eksploracji danych oraz w przetwarzaniu i analizie sygnałów i obrazów. Jego pasją jest rekonstrukcja brzmienia zabytków językowych, w tym celu oddaje się badaniom językoznawczym, w których również wykorzystuje metody cyfrowe.

Read the English version of this text HERE