Bot umawia do fryzjera

Wirtualna asystentka zatrudniona w sieci salonów Jean Louis David umówi, przełoży lub odwoła wizytę u fryzjera

Dzwoniąc do jednego z salonów fryzjerskich Jean Louis Davida, usłyszałam:

– Witaj Monika, z tej strony wirtualna asystentka Ania Grzywka. Nasza rozmowa jest rejestrowana. Czy chcesz, żebym umówiła Cię na wizytę?

Taaaak – odpowiedziałam z lekką rezerwą, ponieważ rozmowa z robotami nie była dla mnie chlebem powszednim. Ale nie rozłączyłam się jak niektórzy kiedy usłyszeli bota, tłumacząc się później tym, że sądzili, że to automatyczna sekretarka. Teraz, po niemal dwóch latach pracy Ani Grzywki w salonach Jean Louis Davida prawie się to już nie zdarza – klienci się do Ani przyzwyczaili.

Grzywka jest botem głosowym stworzonym specjalnie dla 70 polskich salonów Jean Louis Davida. Niby umówienie się na wizytę do fryzjera nie jest wielką filozofią, ale, żeby robić to w pełni profesjonalnie bot Ania potrafi przeprowadzić rozmowę z klientem aż na ponad 500 sposobów. Największą ulgą jest jednak to, że linia nigdy nie jest zajęta! Ania może przeprowadzać dowolną ilość rozmów jednocześnie i nigdy się nie męczy.

Jeśli ktoś był już klientem tej sieci, Ania Grzywka ma dostęp do jego historii. Wita się więc z nim po imieniu. Wie, kto go ostatnio strzygł i w którym salonie, jakiej farby używał i ile zapłacił za wizytę. Wystarczy więc (kiedy nie mamy czasu się rozwodzić, bo właśnie się spóźniamy do pracy), że krzykniemy w locie: „Tam gdzie ostatnio! Jutro o 12!”. I bot umówi nas do właściwego salonu na właściwą usługę.

Kreatywny czas samodoskonalenia

Na pomysł bota, za pomocą którego można się umówić na strzyżenie do fryzjera, wpadli przed dwoma laty programiści z warszawskiej firmy Pragmatists, kiedy polskojęzycznych voicebotów na rynku jeszcze praktycznie nie było. Żeby było ciekawiej – oświeciło ich w czasie, który ich firma przeznacza na samodoskonalenie się pracowników. Każdy pracownik Pragmatists 10 procent swojego czasu pracy może poświęcić na swój rozwój w dowolnej dziedzinie – niekoniecznie związanej z tym, co przyda się w firmie.

Software house Pragmatists powstał 10 lat temu. Założył ją Paweł Lipiński, już wtedy wieloletni programista i agile coach zespołów programistycznych. Jak zapewnia, od początku firma skupiała się na tworzeniu rozwiązań wysokiej jakości m.in. przez stałe dbanie o kulturę rozwoju zawodowego i samorozwoju pracowników. Większość polskich firm powiedziałaby zapewne, że ich na to nie stać – mówię.

– Oczywiście, to jest wydatek. Ale inwestycja w kulturę organizacyjną się opłaca. Ludzie mają możliwość rozwijania kompetencji, autonomii – tłumaczy. – Kiedy posiadają wysokie kompetencje i nie czują presji czasu, mogą stale dbać o jakość tworzonych przez siebie rozwiązań, a my możemy takie usługi drożej sprzedać. Nie ma cienia wątpliwości, że taka organizacja pracy przekłada się na większą motywację i wyższe umiejętności, a także na bardzo niską rotację pracowników – nikt od nas nie chce odchodzić. Mniej więcej dwa razy do roku robimy także wewnętrzne hackathony i przynajmniej jeden z nich może dotyczyć dowolnego tematu. Wiadomo – jest ryzyko, że nic z tego nie wyjdzie. Ale niektóre z tych pomysłów pomagają nam zbudować coś zupełnie nowego. Tak właśnie powstał system Talkie.ai, czyli bot Jean Louis Davida.

Bot na sznurkach

Wojtek Przechodzeń, jeden z autorów pomysłu, opowiada, że poskładali go na hackathonie w ciągu dwóch dni.

– Z kilku dostępnych w internecie rozwiązań, które powiązaliśmy „na sznurki”. Dla zabawy, z ciekawości, w ramach eksperymentu. Taki super uproszczony mechanizm, ale działał – mówi.

– Nie miało to jeszcze wiele wspólnego z tym, jak dzisiaj działa nasz bot, ale i tak wyszło na tyle fajnie, że „prototyp” pokazaliśmy naszemu klientowi Tomaszowi Bączykowi, który przewodzi polskiemu oddziałowi Jean Louis Davida. Wtedy, dwa lata temu nikt nie wiedział, że coś takiego jest możliwe. W Stanach Zjednoczonych i Wielkiej Brytanii działały już różne mechanizmy automatyzujące głos w dużych instytucjach finansowych, ale w Polsce to było objawienie. „Chcemy to!” – powiedział od razu. „Róbcie to jak najszybciej!” Trzy miesiące później wdrożyliśmy pierwszą wersję naszego bota we wszystkich salonach Jean Louis Davida w Polsce.

Kiedy w 2002 roku pisałem na politechnice pracę inżynierską i magisterską o sztucznej inteligencji, to było to zagadnienie czysto akademickie. Przez te paręnaście lat dokonał się ogromny skok technologiczny. Nikt z nas się tego nie spodziewał

Bot głosowy składa się z trzech elementów. Pierwszy to sieci neuronowe, które przetwarzają dźwięk na tekst. Drugi wykorzystuje mechanizmy NLP, czyli przetwarzania języka naturalnego, żeby wyciągnąć z tekstu kluczowe informacje, zrozumieć, o co chodzi rozmówcy. Trzeci etap to wykonanie jakiejś operacji w systemach klienta i wygenerowanie odpowiedniej odpowiedzi głosem nagranym przez lektora lub głosem syntetycznym.

– Do tego roku nie było na rynku ani jednego ogólnodostępnego narzędzia, które pozwalałoby na kompleksowe przetwarzanie języka naturalnego po polsku. Dopiero niedawno opublikowano implementację języka polskiego dla wiodącej biblioteki Spacy – tłumaczy Paweł Lipiński. – Kolejną barierą w wejściu na rynek rozwiązań związanych ze sztuczną inteligencją jest dostęp do danych. W przypadku rozpoznawania głosu, trzeba mieć setki, a najlepiej tysiące godzin nagrań z transkrypcją, którymi się trenuje te rozwiązania. W przypadku języka angielskiego nie stanowi to takiego problemu, jak w polskim.

Grzywka na treningu

Praca nad botem to nie tylko praca programistyczna. Trzeba napisać dialogi i je przetestować. Jeżeli się używa głosu z syntetyzatora – przesłuchać, jak brzmią. Ania Grzywka jest właśnie głosem syntetycznym.

– Niektóre słowa syntezator wymawia wciąż dziwnie mimo, że generalnie ich jakość bardzo się poprawia – wyjaśnia Lipiński. – Pewnie wkrótce będą nie do odróżnienia od głosów naturalnych, ale póki co – czasem trzeba poszukać synonimu. Coraz bardziej modne staje się naśladowanie głosu konkretnego człowieka. Są już narzędzia, które pozwalają na to, że z kilkudziesięciosekundowych próbek syntezator może nauczyć się naśladować głos konkretnego człowieka – mówi.

Zespół Pragmatists nie tylko stworzył bota, ale także kontroluje, jak przebiegają rozmowy z klientami.

– Czuwamy, żeby Ania Grzywka coraz lepiej rozumiała klientów trenujemy ją na rozumienie nowych zwrotów. Robimy też badania, jak powinna reagować gdy na przykład ktoś wulgarnie odzywa się do bota lub się na niego denerwuje. Czy jest dużo takich ludzi?

Okazuje się, że niewielu. – W rozmowie z botem ludzie nie pokazują tak emocji, nie krzyczą tak, jak krzyczeliby na człowieka. Ludzie krzyczą, żeby osiągnąć pewien efekt; a wiedzą, że na bota to nie zadziała. – Ludzie nie zawsze orientują się, że rozmawiają z botem, a nie człowiekiem. Wydaje się, że czasem są w błędzie. Odpowiadają tak, jakby rozmawiali z dziewczyną – mówią np. „Tak, Aniu”, „Dziękuję, Aniu”. Albo na koniec: „Życzę pani cudownego dnia i dziękuję za fantastyczną pomoc!”. Ostatnio jakaś pani zamilkła, zawahała się chwilę, a potem roześmiała z ulgą i powiedziała: „już myślałam, że to automatyczna sekretarka”, przekonana chyba, że rozmawia z człowiekiem. Inni, gdy orientują się, że rozmawiają z maszyną, dla zabawy używają wręcz nadmiernie grzecznych zwrotów.

Bot jest kobietą

Ania Grzywka, jak większość botów, to głos kobiecy. Ostatnio Unesco uznało to za seksizm podtrzymujący mniemanie, że to kobieta powinna być osobą usługującą. Właśnie powstaje głos bezpłciowy, choć niektórzy krytykują, że to bardzo nienaturalne.

– Ludzie wolą rozmawiać z kobietą niż z mężczyzną – tak pokazują badania opinii publicznej – tłumaczy Lipiński. – Z takich czy innych względów, głos kobiecy kojarzy nam się z ciepłem i spokojem bardziej niż głos męski. W wielu liniach lotniczych wszystkie informacje dotyczące bezpieczeństwa są wypowiadane głosem kobiecym, właśnie po to, żeby dać ludziom poczucie komfortu i bezpieczeństwa. Nie widzę powodu, żeby od tego uciekać – dodaje.

Największym problemem w pracy nad botem głosowym jest w przekładanie mowy na tekst – uważa Wojtek Przechodzeń – W warunkach laboratoryjnych działa świetnie, ale kiedy rozmowa toczy się w samochodzie na zestawie głośnomówiącym, a na zewnątrz pada deszcz, to jakość jest niska i w transkrypcjach zdarzają się absurdalne błędy. Ostatnio mężczyzna na pytanie bota odpowiedział: „można, można, słucham!”, a mechanizm zamiany głosu na tekst przełożył to na „mąż gwałci suchar”… – opowiada.

Ale nie tylko jakość rozpoznawania mowy może być barierą dla dobrego rozwiązania voicebotowego. Ludzie, mówiąc korzystają ze skrótów myślowych i zwrotów mających różne znaczenie w zależności od kontekstu. Nawet – wydawało by się proste – umówienie wizyty “na następną środę” nie jest jednoznaczne: może oznaczać inną datę gdy aktualnie jest wtorek, a inną gdy jest czwartek. Tego rodzaju niuansów jest bardzo dużo nawet w przypadku automatyzacji prostych procesów, a naszą rolą jest przewidzenie jeśli nie wszystkich, to przynajmniej przeważającej większości z nich.

Klienci szukają inteligentnych rozwiązań

Paweł Lipiński zapewnia, że zainteresowanie interfejsem głosowym rośnie. Pokazuje to popularność Siri czy Alexy.

– Myślę, że rozwój sztucznej inteligencji spowoduje, że wkrótce będziemy mieć wysyp inteligentnych botów. Uczenie głębokie spowodowało, że programy rozpoznawania głosu zaczęły działać dużo lepiej niż do tej pory. To dla sztucznej inteligencji bardzo dobry moment. Kiedy w 2002 roku pisałem na politechnice pracę inżynierską i magisterską o sztucznej inteligencji, to było to zagadnienie czysto akademickie. Przez te paręnaście lat dokonał się ogromny skok technologiczny. Nikt z nas się tego nie spodziewał. Wtedy wszyscy byliśmy święcie przekonani, że możemy się tym bawić wyłącznie na uczelni, a zawodowo będziemy musieli zająć się czymś zupełnie innym. Tymczasem dzisiaj nasi klienci sami poszukują inteligentnych rozwiązań, a my możemy zawodowo zajmować się tym, co lubimy najbardziej.