Karaoke dla redaktora, czyli pomoc w transkrypcji

Tradycyjne usługi transkrypcji drogie i czasochłonne
Synchronizacja tekstu z nagraniem ma pomóc wyłapywać nieścisłości
Trint wspomaga, a nie zastępuje dziennikarza

Narzędzie do transkrypcji ułatwia pracę dziennikarzom i pokazuje, jak można wspierać się sztuczną inteligencją.

Transkrypcja, czyli przepisywanie nagrań audio na tekst, to jedno z najbardziej niewdzięcznych zadań w pracy dziennikarza. Nierzadko po godzinnym wywiadzie spędza się kilka godzin na mozolnym przepisywaniu jego treści do komputera.

Są firmy, które oferują usługi transkrypcji. Korzystają z pracy ludzi – to drogie i czasochłonne. Są też systemy automatycznego rozpoznawania mowy. To drugie rozwiązanie – choć tańsze – daje rezultat najeżony błędami. Trzeba go zweryfikować i ręcznie nanieść poprawki.

Adres filmu na Youtube: https://www.youtube.com/watch?time_continue=60&v=tAyqWUoRLE4

Trint działa podobnie jak karaoke.
Źródło: YouTube

Narzędzie o nazwie Trint, stworzone przez zespół, którego założycielem jest wieloletni korespondent zagraniczny Jeff Kofman, ma znacznie ułatwić proces transkrypcji.

Algorytm nie zrobi wszystkiego

Trint korzysta z algorytmów rozpoznawania mowy i przetwarzania języka naturalnego. Są wspierane przez SI, dzięki czemu – jak twierdzi Kofman – z czasem zwiększa się ich skuteczność. Twórcy oprogramowania zapewniają, że dochodzi ona do 95 procent, co oczywiście zależy od jakości nagrania i tego, jak wyraźnie mówi nasz rozmówca i jakiego używa słownictwa.

Kofman przyznaje, że choć algorytmy rozpoznawania mowy stają się coraz lepsze, wciąż pojawiają się błędy, które trzeba wyeliminować ręcznie. Jego zespół stworzył narzędzie, które pozwala łatwo wyłapać pomyłki w transkrypcji i je poprawić.

Edytor tekstu i odtwarzacz wideo w jednym

“Mieliśmy pomysł, żeby co do milisekundy zsynchronizować automatycznie wygenerowany tekst z nagraniem, żebyś mógł podążać za nim jak w karaoke.” – mówi Kofman portalowi ZDNet. Trint łączy funkcje edytora tekstu i odtwarzacza wideo. Po wstępnym przetworzeniu nagrania na tekst pisany, na ekranie użytkownika pojawia się transkrypcja podzielona na akapity, okienko z podglądem nagrania oraz graficzna reprezentacja ścieżki audio. Kiedy odtwarzamy nagranie, kursor automatycznie przesuwa się po rozpoznanym tekście i pomaga wyłapać nieścisłości i je poprawić. Z kolei kliknięcie w dowolne słowo tekstu automatycznie przewija nagranie do odpowiedniego miejsca.

Trint to przykład zastosowania algorytmów rozpoznawania mowy. Twórcy narzędzia są świadomi ograniczeń zastosowanych technologii i nie starają się całkowicie zastąpić człowieka w czymś, z czym – przynajmniej na razie – poradzi sobie lepiej od maszyny. Zamiast tego stworzyli narzędzie, które wykorzystuje zdobycze technologii by ułatwić, usprawnić i uprzyjemnić wykonanie niewdzięcznego zadania.