Poczytaj mi, pisarzu – Sztuczna Inteligencja

Audiobooki cieszą się popularnością także w Chinach. Czytać je będzie program, który nauczy się głosów pisarzy. Czy sztuczna inteligencja będzie umiała mówić głosem każdego?

Technologia zamiany tekstu na mowę jest już rozwinięta, ale maszynowe głosy nadal brzmią dość mechanicznie – na tyle, że raczej nie chcielibyśmy słuchać audiobooka czytanego przez syntezator mowy. Niedługo jednak może się to zmienić.

Wirtualni Chińczycy trzymają się mocno

Jak podaje BBC, chiński gigant internetowy Sogou chce stworzyć awatary popularnych w tym kraju autorów (Yue Guan oraz Bu Xin Tian Shang Diao Xian Bing), które będą czytać swoje powieści. W czytniku e-booków będzie można odtworzyć nie tylko książkę czytaną głosem pisarza. Jeśli ktoś zechce, będzie mógł uruchomić też aplikację wideo, w której postać autora będzie powieść recytować. Zarówno postacie, jak i głosy powstaną dzięki sztucznej inteligencji, która nauczy się czytać na podstawie nagrań audio i klipów wideo.

Chińczycy pokochali powieści w odcinkach, które w Europie też były kiedyś niezwykle popularne. Swoje powieści publikowali w małych dawkach w prasie między innymi Henryk Sienkiewicz, Charles Dickens, czy Aleksander Dumas, z bliższych współczesnym zaś Stanisław Lem. Bestsellery chińskich autorów nie ukazują się w gazetach, można je pobierać na czytniki.

Sogou zaczynało od przeglądarki internetowej, obecnie ma roczne przychody rzędu miliarda dolarów. Stworzyło też najpopularniejszą w Chinach metodę wprowadzania chińskiego tekstu, a także opracowało system rozpoznawania mowy. W 2016 roku firma przeznaczyła 30 milionów dolarów na wspólny z Uniwersytetem Tsinghua projekt stworzenia instytutu sztucznej inteligencji.

W ubiegłym roku Sogou wraz z chińską agencją informacyjną Xinhua stworzyło wirtualnych prezenterów wiadomości rządowej stacji telewizyjnej New China. Mimo realistycznego wyglądu głos zaprezentowanych wtedy postaci pozostawiał sporo do życzenia.

Adres filmu na Youtube: https://www.youtube.com/watch?v=GAfiATTQufk

Wirtualny chiński prezenter stworzony przez firmę Sogou we współpracy z państwową agencją informacyjną Xinhua.
Źródło: New China TV / YouTube

SI daje głos

Kanadyjska firma Lyrebird twierdzi, że jest w stanie stworzyć „awatary głosowe” z zaledwie minutowego nagrania ludzkiej mowy. Na swojej stronie internetowej przedstawia nagrania Baracka Obamy i Donalda Trumpa stworzone za pomocą uczenia maszynowego. O ile rzeczywiście można rozpoznać w nich głos obu prezydentów, tak jak w przypadku chińskich prezenterów, nie są to jeszcze głosy, których chciałoby się słuchać godzinami.

Lepiej brzmi stworzona przez londyńską firmę DeepZen Alexia, która czyta „Metamorfozę” Franza Kafki.

Wysłuchać artykułów mogą czytelnicy wielu tytułów prasowych, odtworzenie wersji audio w aplikacji lub przeglądarce umożliwiają na przykład „Gazeta Wyborcza”, „Guardian” i „Economist”. Z różnym, czasem mało zadowalającym efektem. Najbardziej dokuczliwy jest brak charakterystycznej dla naturalnej mowy intonacji.

Zapewne szybciej niż później uda się udoskonalić syntezatory mowy tak, by głosy „lektorów” były przyjemne dla ucha. To może mieć spory wpływ na rynek audiobooków, bowiem obecnie jego nagrywanie to czasochłonny proces.

Oczywiście, zrodzi to pytania natury etycznej i prawnej. Jeśli będzie można nauczyć sztuczną inteligencję mówić głosem konkretnej osoby, może to prowadzić do nadużyć (pisaliśmy już o zjawisku deepfake, jeśli chodzi o manipulowanie obrazem). Prawo, jak zawsze, nie nadąża za rozwojem technologii, polskie na przykład nie orzeka jednoznacznie, czy głos jest częścią wizerunku osoby. Rozwój technologii w tym zakresie zapewne sprawi, że głos będzie chroniony podobnie jak zdjęcie lub nagranie wideo.