Na językach – Sztuczna Inteligencja

Algorytm uczenia maszynowego poprawnie przetłumaczył starożytne tabliczki z Knossos. Teraz spróbuje swoich sił w odcyfrowaniu języków, których jeszcze nikt nie odczytał

Na świecie mówi się w tej chwili 7 tys. 111 językami – donosi The Ethnologue, Languages of the World. Szacuje się, że w sumie, na przestrzeni dziejów, ludzkość mówiła około 31 tysiącami języków. Języki jednak także umierają tak, jak ludzie, plemiona, cywilizacje i kultury.

Połowa ze wszystkich znanych nam języków zniknęła w ciągu ostatnich 500 lat, a proces znikania przyśpiesza. W tej chwili na wymarciu jest 470 języków; niemal codziennie odchodzą ostatni ludzie, którzy się nimi posługują.

Język jak zagrożony gatunek

Językoznawcy postulują, żeby języki chronić tak samo, jak staramy się chronić zagrożone wymarciem gatunki zwierząt lub roślin. Bo wraz z językiem odchodzi w zapomnienie cała niemal wiedza o ludziach, którzy kiedyś żyli – ich tradycja, kultura, umiejętności. Zostają tylko świadectwa kultury materialnej: ruiny miast i grobów, radła i posągi. Na ich podstawie wysnuwamy różne hipotezy, ale czy słuszne? Tego nie wiemy.

Kiedy francuski egiptolog Jean – Francois Champollion odczytał hieroglify, cywilizacja starożytnego Egiptu stanęła przed nami otworem: mitologia, szczegóły transakcji handlowych, życie rodzinne faraona. Nagły i precyzyjny wgląd w przeszłość. Jakbyśmy odczytali czarną skrzynkę z rozbitego samolotu. Bo język jest rodzajem szyfru. To niesamowicie kusząca wizja – złamać ten szyfr i tym sposobem na nowo uchylić drzwi do tamtego świata. Wielu naukowców, archeologów, językoznawców podejmowało takie próby.

Na początku XX w. angielski archeolog Arthur Evans rozpoczął wykopaliska w Knossos, starożytnym mieście na Krecie, gdzie odkrył gliniane tabliczki zapisane nieznanym pismem. Pismo na starszych tabliczkach różniło się od tego na tabliczkach późniejszych; pierwsze nazwał pismem linearnym A, a drugie – pismem linearnym B. Przez całe życie próbował je odcyfrować, ale bez rezultatu. Udało się to dopiero w 1953 roku Michaelowi Ventrisowi, który z pomocą Alice Kober odkrył, że język pisma linearnego B jest archaiczną greką, starszą od języka Homera o pięćset lat.

Alfabet sprzed 3 tysięcy lat

Z kolei w 1929 roku podczas kampanii archeologicznej w mieście Ugarit na terenach starożytnego Kanaanu a dzisiejszej Syrii odkryto tabliczki z nieznanym, alfabetycznym językiem klinowym. Język ten nazwano ugaryckim. Okazało się, że liczy sobie około 3 tysięcy lat, a wymarły jest od XII w. p.n.e.; jest to najstarszy znany nam alfabet. Odczytanie go było bardzo trudne, ponieważ brakowało tekstów zapisanych równolegle w innym, znanym języku. Udało się to jednak niezależnie od siebie trzem naukowcom: Hansowi Bauerowi, Edwardowi Dhorme i Charlesowi Virolleaudowi.

Złamanie szyfru, jakim jest wymarły język, to nie lada wyzwanie; wymaga wielkiego talentu językowego, ogromnej wiedzy językoznawczej i lat żmudnej pracy, a wysiłki te i tak często kończą się niepowodzeniem. Wiele języków, na przykład pismo linearne A z Knossos, wciąż nie doczekało się kogoś, kto je zrozumie. Albo – czegoś. Naukowcy z MIT i Google Brain stworzyli właśnie system oparty na sztucznej inteligencji, który to potrafi.

Kluczem przynależność rodzinna

Języki ewoluują, rozprzestrzeniają się, tworzą rodziny. Mimo ciągłych zmian, wewnątrz danego rodu językowego część symboli i struktura – sposób rozmieszczenia znaków – pozostają podobne. W zrozumieniu wymarłego języka kluczowe jest więc ustalenie, z jakiej rodziny pochodził.

Ta teza stała się punktem wyjścia badań nad automatycznym tłumaczeniem wymarłych języków. Naukowcy z MIT – Regina Barzilay i Jiaming Luo, wraz z Yuan Cao z projektu AI Google Brain stworzyli algorytm uczenia maszynowego, który wytrenowali na rozszyfrowanych językach linearnym B i ugaryckim. Algorytm porównywał je ze wszystkimi językami i wyszukiwał podobieństwa strukturalne i znaczeniowe. Algorytm poprawnie znalazł pokrewieństwo pisma linearnego B z greckim aż w 67 procentach i poprawnie przetłumaczył tabliczki z Knossos.

Dla człowieka tak ogromna praca – porównanie języka z każdym innym – byłaby niemożliwa. Ale dla komputera jest w sam raz. Algorytm, już gotowy, wytrenowany, może teraz spróbować swoich sił w tłumaczeniu języków, których do tej pory nikt jeszcze nie odcyfrował. Może wkrótce zrozumiemy pismo linearne A? Język etruski? Tajemniczy rongo-rongo – język długouchych kapłanów z Wyspy Wielkanocnej? Może wreszcie dowiemy się, co jest napisane na słynnym dysku z Fajstos i czy na pewno nie jest on falsyfikatem?

W Kanadzie, na uniwersytecie w Toronto, prof. asyriologii Emilia Pagé-Perron próbuje zaprząc komputer do pomocy przy może nieco łatwiejszym, ale równie ważnym zadaniu. Od końca 2018 roku pani profesor koordynuje projektem automatycznego tłumaczenia 69 tysięcy tekstów mezopotamskich z XXI w. p.n.e. Do naszych czasów zachowało się wiele mezopotamskich tabliczek, ale tylko 10 procent z nich odczytano. Tutaj problemem nie jest to, że nie rozumiemy starożytnego języka, tylko to, że mało jest naukowców, którzy się na tym znają. W tym kontekście pomoc komputerów także będzie nieoceniona.