Naukowcy pracują nad algorytmem, który potrafiłby rozpoznawać teksty pisane w zapomnianych stylach, zwanych kuzushiji

Japonia ma w swoim dorobku setki milionów starodruków, ksiąg i innych dokumentów pisanych. Niektóre liczą sobie nawet ponad 1000 lat. To ogromne bogactwo kulturowe. Jednak większość współczesnych Japończyków nie może z niego czerpać, ponieważ mało kto jest w stanie je dziś przeczytać. Są napisane w kuzushiji, którym to terminem określa się zapomniane style i rodzaje pisma, używane w Japonii od VIII do końca XIX wieku.

Reforma przyczyną zapomnienia starych rodzajów pism

W 1868 roku w Japonii nastąpiła rewolucja. Kiedy cesarz Mutsuhito zwyciężył ostatniego z szogunów i zdobył pełnię władzy, zaczął się dla Japonii czas reform i otwarcia na wpływy Zachodu. Jedna z cesarskich reform dotyczyła pisma; chodziło o uproszczenie skomplikowanego systemu różnego rodzaju zapisów. Nowe zasady pisma wprowadziła reforma edukacji w 1900 roku. Stare teksty, pisane w pionie, najczęściej kursywą, stawały się coraz bardziej niezrozumiałe dla następnych pokoleń. Szacuje się, że dzisiaj tylko kilka tysięcy Japończyków w tym 127 milionowym kraju potrafi odczytać dawne sposoby zapisu.

Jedynie niewielką część dawnego dorobku przepisano – odręcznie – w nowej formie. Wszystko więc, co wiemy o dawnej kulturze Japonii, oparte jest na tych odręcznie przepisanych, nielicznych tekstach, które są jedynie ułamkiem większej całości. Większość historycznej literatury, a także dokumentów naukowych, urzędniczych, handlowych – czyli pisanych świadectw japońskiej cywilizacji – jest niezrozumiała dla przeciętnego Japończyka.

10 klas Kuzushiji-MNIST, z pierwszą kolumną pokazującą nowoczesny odpowiednik hiragany każdej postaci

Wyobraźmy sobie, czym dla kultury europejskiej byłoby zapomnienie łaciny i greki, na których zasadza się nasza kultura…A przecież dawny system zapisu funkcjonował w Japonii o wiele dłużej niż łacina w Europie.

Podobny problem ma wiele krajów Dalekiego Wschodu. W XX wieku rewolucję w systemie pisma przeszły m.in. Mongolia, Wietnam i Malezja. Te kraje także borykają się dzisiaj z trudnościami w dostępie do swojego dziedzictwa kulturowego.

Konkurs na rozpoznanie starych pism

Tymczasem czas mija i cenne starodruki coraz bardziej niszczeją. Japoniści od dawna próbują poradzić sobie z tym problemem. Jednocześnie trwają próby stworzenia programu komputerowego, który automatycznie rozpoznawałby znaki kuzushiji.

Wiele zespołów naukowych podejmowało się tego zadania, używając programu do optycznego rozpoznawania liter (OCR). W przypadku kuzushiji jest to jednak bardzo trudne z powodu ogromnej różnorodności stylów i liter lub trudności w odseparowaniu jednego znaku od drugiego.

Trzy japońskie instytucje: CODH (Center for Open Data in the Humanities), Narodowy Instytut Informatyki i Narodowy Instytut Literatury Japońskiej ogłosiły konkurs, który pozwoli znaleźć najlepsze metody rozpoznawania pisma kuzushiji. Powstała też otwarta baza danych – Kuzushiji MNIST.

Konkurs zatytułowany “Rozpoznawanie pisma kuzushiji: otwarte drzwi do tysiącletniej historii literatury i kultury japońskiej” ogłoszono na platformie Kaggle – największej na świecie platformie zrzeszającej ponad 3 miliony specjalistów od uczenia maszynowego.

Niezwykłe zadanie cieszy się dużym zainteresowaniem

– Baza Kuzushiji MINST ogłoszona w zeszłym roku przyciągnęła moją uwagę – mówi Rafał Rzepka, adiunkt w Laboratorium Przetwarzania Języków na uniwersytecie Hokkaido w Sapporo, japonista, specjalista SI. – 13 lat temu my też chcieliśmy zająć się tym tematem. Niestety nie mieliśmy ani fachowca od OCR, ani wystarczających zasobów takich, jak te przygotowane przez japońskie instytucje. Ponieważ utwory były napisane głównie w kanie, największym problemem było wtedy przygotowanie samych tekstów do przetworzenia – z powodu wieku wiele znaków było odbarwionych, ugryzionych przez ząb czasu lub… owady. Teraz każdy może spróbować swoich sił w klasyfikacji. Jak to się przełoży na digitalizację starodruków? – czas pokaże.

Jakie najwartościowsze dzieła mogłyby zostać w ten cyfrowy sposób „przeczytane”?

– Pierwszym przykładem jest „Koten-seki”, który zawiera ręcznie pisane dzieła jak „Ise-monogatari”, sutry z okresu Nara, drukowane również przy pomocy odcisków w drewnie. A także: wiersze waka zbierane przez skrybów er Heian i Kamakura, ilustrowane zwoje, skrypty sztuk teatralnych kabuki, opisy medycznych procedur, osobiste pamiętniki i wiele innych. Z pewnością możliwość przeszukiwania i analizowania tych dokumentów ucieszy każdego japonistę, historyka czy językoznawcę zajmującego się starojapońskim – stwierdza Rafał Rzepka.

To niezwykłe zadanie budzi na platformie Kaggle duże zainteresowanie; do tej pory zgłosiło się ponad 50 zespołów z całego świata. Przez trzy miesiące – od lipca do października tego roku – naukowcy będą pracować nad algorytmem, który potrafiłby rozpoznawać teksty pisane w kuzushiji. Autorzy pięciu najlepszych pomysłów zostaną nagrodzeni na sympozjum zatytułowanym „Kultura japońska i SI” 11 listopada w Tokio. Zwycięski algorytm będzie ogólnodostępny.

Skip to content