SI kluczem do Tajnych Archiwów Watykanu

Tajne Archiwa Watykanu to jedna z najwspanialszych kolekcji dokumentów i książek na świecie. Mieszczą 53 mile regałów rękopisów z ostatnich dwunastu stuleci. Tylko niewielka część tego bogatego księgozbioru jest zeskanowana i udostępniona online. Teraz może się to zmienić

Archiwa watykańskie znajdują się tuż obok Biblioteki Apostolskiej i na północ od Kaplicy Sykstyńskiej. Są wśród nich m.in. bulla papieska, w której papież Leon X ekskomunikował Marcina Lutra. Jest też list z prośbą o pomoc, wysłany przez Marię Stuart królową Szkotów do papieża Sykstusa V przed jej egzekucją.

Niewielka część tego księgozbioru została zeskanowana i udostępniona online, a jeszcze mniej treści przetworzono na zapis komputerowy. Kiedy chciałoby się przeczytać dokument lub książkę, trzeba poprosić o zgodę, przyjechać do Rzymu i przeglądać każdą stronę ręcznie.

„Tajemnica” w nazwie +Tajne Archiwa Watykanu+ nie odnosi się do niczego tajnego, ani konspiracyjnego. Oznacza to jedynie, że archiwa są osobistą własnością papieża. +Prywatne archiwa+ byłyby prawdopodobnie lepszym tłumaczeniem oryginalnej nazwy Archivum Secretum

Aby uniknąć powyższych czynności naukowcy opracowali nową metodę nazwaną In Codice Ratio. Została stworzona z myślą o badaczach pracujących na tekstach źródłowych lub entuzjastach historii. Wykorzystuje kombinację sztucznej inteligencji i oprogramowania do optycznego rozpoznawania znaków OCR, aby przetwarzać teksty na zapis współczesną czcionką.

Splotowa sieć neuronowa rozpoznaje znaki i modele językowe do komponowania transkrypcji słów. Naukowcy wykorzystali procesory graficzne Nvidia GeForce GTX, CUDA i akcelerowaną przez cuDNN platformę do nauki głębokiego uczenia TensorFlow.

OCR nie radzi sobie z minuskułą karolińską

OCR, choć z powodzeniem wykorzystywane do skanowania książek i drukowanych dokumentów, nie pasuje do materiałów przechowywanych w Tajnych Archiwach Watykanu. Dzieli wyrazy na serie obrazów literowych, szukając spacji między literami. Następnie porównuje każdy obraz z bazą danych liter w swojej pamięci.

Po podjęciu decyzji, która litera najlepiej pasuje do obrazu, oprogramowanie tłumaczy literę na kod komputerowy (ASCII). Tym samym umożliwia odtworzenie treści tekstu. Ten proces działa tylko w przypadku tekstu drukowanego. Słabo radzi sobie z tekstami napisanymi ręcznie. Czyli w ogromnej większości starych dokumentów przechowywanych w Tajnych Archiwach Watykanu np. zapisanych minuskułą karolińską.

Głównym problemem jest brak przestrzeni pomiędzy literami tzw. brudna segmentacja. OCR nie może stwierdzić, gdzie kończy się jedna litera a zaczyna druga i nie wie, ile jest liter. Dochodzi do zakleszczenia obliczeniowego (paradoks Sayre’a). Oprogramowanie OCR musi segmentować słowo na pojedyncze litery, zanim je rozpozna. A w wyrazach składających się z połączonych liter rozpoznawać litery, aby je posegmentować.

Niektórzy informatycy próbowali rozwiązać ten problem poprzez wprowadzenie funkcji rozpoznawania całych słów zamiast liter. Pociąga to jednak za sobą uruchomienie ogromnych baz danych.

Zamiast kilkudziesięciu liter alfabetu, systemy te muszą rozpoznać obrazy tysięcy słów. Co przekłada się na to, że potrzeba wielu naukowców z doświadczeniem, potrafiących odczytać pismo w średniowiecznej łacinie, aby przejrzeć dokumenty i uchwycić obrazy każdego słowa. W rzeczywistości potrzeba kilku zdjęć każdego z nich, aby uwzględnić różnice w piśmie ręcznym.

In Codice Ratio – średniowieczne puzzle

In Codice Ratio omija te problemy poprzez nowe podejście do OCR. Czterech głównych naukowców odpowiedzialnych za projekt: Paolo Merialdo, Donatella Firmani i Elena Nieddu z Università Roma Tre oraz Marco Maiorino z VSA tłumaczy opracowaną przez siebie innowację jako segmentację układanki. Jest to proces, który łamie słowa nie literami, ale czymś zbliżonym do pojedynczych pociągnięć piórem.

OCR robi to, dzieląc każdy wyraz na szereg pionowych i poziomych pasm. Ponadto szuka szczegółów – cieńszych części, tam gdzie jest mniej atramentu lub mnej pikseli.

Następnie oprogramowanie tworzy litery w tych częściach. Rezultatem końcowym jest seria elementów układanki. Same fragmenty układanki nie są zbyt użyteczne. Ale oprogramowanie może je podzielić na różne sposoby, aby możliwe było utworzenie list wyrazów. Musi tylko wiedzieć, które grupy fragmentów reprezentują prawdziwe litery, a które są fałszywe.

Donatella Firmani, Università degli studi Roma Tre wyjaśnia nam: „Problem, na którym się skupiamy, jest znany w informatyce jako rozpoznawanie tekstu odręcznego (HTR). HTR zyskało ostatnio większą uwagę badaczy z całego świata, ale wciąż jest znacznie trudniejsze niż klasyczne Optyczne Rozpoznawanie Znaków (OCR).

Dzieje się tak, ponieważ litery rękopisu mają mniej regularne kształty niż znaki maszynowe. Ponadto często są łączone w pojedyncze jednostki, które nazywamy „ligaturami”. Z tego powodu klasyczne metody HTR starają się rozpoznawać całe słowa i zdania na raz i mają tendencję do pochłaniania ogromnej ilości danych szkoleniowych”.

Algorytm segmentacji układanki

Badaczka dodaje, że naukowcy w swojej pracy brali pod uwagę najnowsze techniki, które pierwotnie opracowano do rozpoznawania tekstu online. Czyli na przykład podczas pisania na iPadzie, kiedy pismo odręczne jest natychmiast konwertowane na sformatowany dokument.

„Pokazaliśmy, że takie metody można zastosować do starożytnych manuskryptów, starannie wdrażając algorytm „segmentacji układanki”, aby rozkładać zdigitalizowane słowa na elementarne pociągnięcia atramentem. Następnie można ponownie połączyć w krótkie sekwencje znaków (znane jako q-gramy) i słowa.

Nasze podejście jest „łatwiejsze” do uczenia maszyn niż klasyczne techniki HTR. Pokazuje też, że HTR można wykonać przy pomocy niewielkiej ilości danych szkoleniowych. Tym samym można skalować do dużych kolekcji przy ograniczonym nakładzie ludzkim” – tłumaczy portalowi sztucznainteligencja.org.pl Firmani.

Licealiści nauczycielami sztucznej inteligencji

Aby oprogramowanie nauczyło się segmentować układankę, badacze zwrócili się o pomoc do licealistów z 24 szkół we Włoszech.

Uczniowie zalogowali się na stronie internetowej, gdzie znaleźli ekran z trzema sekcjami. Zielona na górze zawierała najlepsze przykłady ze średniowiecznych tekstów łacińskich. Czerwona pośrodku – fałszywe przykłady nazywane przez naukowców z projektu „fałszywymi przyjaciółmi”. Sekcja na dole była przeznaczona do tworzenia bazy danych i samouczenia się programu. Każdy z obrazów składał się z kilku kawałków układanki, które oprogramowanie OCR łączyło ze sobą.

Następnie uczniowie ocenili wysiłki OCR pod kątem błędów i poprawności.

Tajne Archiwa Watykanu składają się z około pięćdziesięciu trzech mil regałów. Zawierają trzydzieści pięć tysięcy tomów katalogu – dokumentów i książek z dwunastu stuleci. Są wśród nich prywatne listy i inne zapisy poprzednich papieży, w tym listy i dokumenty od Michała Anioła, Henryka VIII żądającego unieważnienia małżeństwa oraz listy od Abrahama Lincolna

Obraz po obrazie, licealiści nauczyli oprogramowanie jak wygląda każdy z 22 znaków średniowiecznego alfabetu łacińskiego. Uczniowie wybrali idealne przykłady zaznaczone na zielono, a także „fałszywych przyjaciół” na czerwono. Kiedy już to zrobili, nie musieli nawet czytać łaciny.

Na początku pomysł Paolo Merialdo o zaangażowaniu uczniów ze szkół średnich uznano za głupi, jednak okazał się świetnym rozwiązaniem. Po skończeniu pracy przez uczniów, oprogramowanie zaczęło samodzielnie oddzielać fragmenty układanki i oceniać jakie były to litery.

Komputer nadal potrzebował dodatkowych narzędzi do rozplątywania węzłów ręcznie pisanego tekstu. Naukowcy znaleźli korpus – 1,5 miliona zdigitalizowanych już łacińskich słów. Zbadali je w kombinacjach dwu- i trzyliterowych, tak, aby ustalić, które kombinacje są wspólne, a które nigdy nie występują. Oprogramowanie OCR mogło następnie wykorzystać te statystyki do przypisania prawdopodobieństw do różnych ciągów liter.

Serena Ammirati, z Università degli studi Roma Tre mówi portalowi sztucznainteligencja.org.pl, że „Badanie ogromnych ilości danych pomoże lepiej i głębiej zbadać, jak zmieniają się różne nawyki graficzne na przestrzeni wieków. Wydaje mi się, że ten program może również dostarczyć nam nowych zasobów dydaktycznych dla naszego wydziału paleografii, dając nowe interaktywne narzędzie. Moc nie leży w samym medium, ale w sposobie, w jaki będziemy z niego korzystać.”

Sztuczna inteligencja w mrokach średniowiecza

Obecnie system czyta samodzielnie, a jego baza danych powstała na podstawie 18 tysięcy stron dokumentów: listów do władców europejskich, orzeczeń w sprawach prawnych i innej korespondencji papieskiej.

Nowe rozwiązanie „pomoże paleografom szybciej transkrybować, ale nie sądzę, że może całkowicie zastąpić paleografa. To jest jak tłumaczenie Google dla profesjonalnych tłumaczy. Przepisuje większość tekstu, ale zawsze istnieje potrzeba eksperckiego rzucenia okiem i poprawy błędów. W tym przypadku paleografa, aby rozwiązać najtrudniejsze fragmenty rękopisu” – mówi nam Paolo Merialdo, Università degli studi Roma Tre.

Naukowcy, którzy opracowali In Codice Ratio uważają, że ich oprogramowanie może zrobić dla rękopisów to, co Google Books dla książek drukowanych – umożliwić udostępnienie listów, dzienników, pamiętników i innych dokumentów szerszej grupie odbiorców, szczególnie naukowcom z całego świata, co znacznie ułatwia zarówno czytanie tych dokumentów jak i wyszukiwanie odpowiednich materiałów badawczych.

Nowa metoda skraca czas pracy naukowców

„Jeśli inteligentne systemy sprawdzą się w Archiwum Watykańskim, to będą mogły być także stosowane i w innych archiwach” – mówi portalowi sztucznainteligencja.org.pl ks. dr Szymon Tracz, adiunkt Katedry Historii i Dziedzictwa Kulturowego Uniwersytetu Papieskiego Jana Pawla II w Krakowie, członek Stowarzyszenia Historyków Sztuki (oddział krakowski).

Jak twierdzi, bez digitalizacji jego praca nie byłaby możliwa. Poza tym musiałby dużo czasu poświęcić na kwerendę w archiwum. „A przecież pracujemy zespołowo, więc często kilka osób sięga do tego samego zestawu. Dzięki digitalizacji i stworzonej bazie możemy z tych dokumentów korzystać jednocześnie, nie narażając ich na zniszczenie przez nadmierną eksploatację. Tak wygląda obecnie nowoczesne uprawianie nauki. A jeśli inteligentne systemy będą je jeszcze same czytać i tłumaczyć, to czy trzeba czegoś więcej? Każde szersze udostępnienie zbiorów jest przez badaczy pożądane” – deklaruje naukowiec.

Jak mówi, wiąże się to z łatwiejszym dostępem do materiałów bez konieczności podróżowania do Rzymu.

TensorFlow