Pandemia okiem sztucznej inteligencji

Czy sztuczna inteligencja przewidzi rozwój pandemii koronawirusa? Tak, ale dopiero następnej. Dlaczego?

W obliczu epidemii koronawirusa (jego oficjalna nazwa to SARS-CoV-2) w Chinach i w Europie, już oficjalnie uznanej za pandemię przez Światową Organizację Zdrowia (WHO), Amerykanie dwoją się i troją, żeby przewidzieć rozwój wypadków. Zapobieganie rozprzestrzenianiu się zakaźnych chorób jest bowiem pochodną kilku rzeczy. Liczy się, rzecz jasna, zakaźność samego patogenu. Ale istotne jest również przygotowanie na lawinowy rozwój wypadków systemu opieki zdrowotnej.

System, którego nie ma

To paradoksalne w tak rozwiniętym i zamożnym kraju, ale żadnego spójnego systemu w USA w zasadzie nie ma. Kto jest chory, może pójść do lekarza prywatnie lub zgłosić się na izbę przyjęć dowolnego szpitala. Płaci za to rynkową cenę jego ubezpieczyciel. Składki na ubezpieczenie zdrowotne są zaś wysokie. Pracodawcy odprowadzają je nielicznym lepiej zarabiającym, reszta robi to sama. Systemem federalnym objęci są tylko najubożsi i osoby starsze.

To sprawia, że istnieje rzesza ludzi zbyt dobrze zarabiających, by obejmował ich system federalnych ubezpieczeń (Medicaid i Medicare), ale nie na tyle, żeby stać ich było na prywatną polisę zdrowotną, która kosztuje kilkaset dolarów miesięcznie. Dla dwudziestokilkulatka przykrą niespodzianką może być, że ze swojej pierwszej pensji będzie musiał zapłacić (w zależności od stanu, w którym mieszka) między 200 a 450 dolarów. O ile jest zdrowy. Jeśli cierpi na astmę albo cukrzycę, będzie musiał wyłożyć wielokrotnie więcej.

To sprawia, że wiele osób polis po prostu nie wykupuje, a udaje się do szpitali dopiero wtedy, gdy naprawdę musi, licząc się z wydatkami rzędu tysiąca dolarów za pomoc doraźną lub kilkunastu tysięcy za hospitalizację. Według oficjalnych danych w 2018 roku takich osób w Stanach Zjednoczonych było 27,5 miliona (choć niektóre źródła mówią o 44 milionach). To mniej więcej co ósmy mieszkaniec kraju.

Co roku federalne CDC (Centra Zapobiegania i Kontroli Chorób) urządza konkurs na przewidywania dotyczące rozwoju epidemii grypy. Teraz CDC ogłosiło też konkurs na prognozę dotyczącą koronawirusa

A to oznacza, że co ósma osoba stanowi potencjalne zagrożenie epidemiologiczne – w przypadku zakażenia nie otrzyma porady lekarskiej, która mogłaby brzmieć: zostań w domu! Zresztą nawet posiadacze ubezpieczenia zdrowotnego z tym się nie spieszą. Pracownicy (na mocy federalnych przepisów Family and Medical Leave Act z 1993 roku) mają prawo do 12 dni zwolnienia lekarskiego w roku, tyle że obowiązuje ono firmy zatrudniające powyżej 50 osób, a zwolnienie jest całkowicie bezpłatne. Płatne zwolnienie lekarskie istnieje tylko w 10 z 49 stanów, w mniejszych firmach ograniczone jest do pięciu dni w roku, w większych zaś – do dziewięciu.

Ci, których nie stać na ubezpieczenie, i ci, którzy nie mają płatnych zwolnień, na pewno nie zostaną w domu z powodu gorączki i kaszlu. Z epidemiologicznego punktu widzenia to tykająca bomba zegarowa. Z góry można założyć, że zaleceniom lekarzy nie podda się kilkadziesiąt milionów osób.

Konkurs na grypę

Nic więc dziwnego, że co roku federalne CDC (Centers for Disease Control and Prevention, czyli Centra Zapobiegania i Kontroli Chorób) urządza konkurs na jak najlepsze przewidywania dotyczące rozwoju epidemii grypy. Zwycięska firma pomaga w przygotowaniach planów na kolejny rok. W tym sezonie grypowym CDC ogłosiło rzecz jasna także konkurs na prognozę dotyczącą rozwoju epidemii koronawirusa. Wśród stających do współzawodnictwa zespołów jest też grupa z Carnegie Mellon University, która od kilku lat najtrafniej przewiduje rozprzestrzenianie się wirusa grypy. A robi to za pomocą uczenia maszynowego.

Jak opisuje „MIT Technology Review”, grupa początkowo nie była zapalona do pracy nad rozprzestrzenianiem się koronawirusa. Dla laika to z pozoru zadania podobne, ale różnic jest zbyt wiele. O ile o grypie wiadomo już sporo, to natura patogenu, który pojawił się w Wuhan zaledwie trzy miesiące temu, jest jeszcze niezbyt dobrze znana.

Badacze z Carnegie Mellon podjęli się jednak zadania. W obu przypadkach proces wygląda podobnie. W pierwszym etapie wykorzystuje się tak zwany nowcasting, czyli prognozowanie w czasie rzeczywistym. Służą do tego dane zbierane z rozmaitych źródeł, od zapytań w wyszukiwarkach (głównie Google’a), przez posty na Twitterze, po dane epidemiologiczne zbierane przez CDC. Na tej podstawie tworzony jest model rozprzestrzeniania się zakażeń w czasie rzeczywistym.

Kolejne etapy stanowią właściwą prognozę. Na podstawie danych zebranych z ostatnich 20 lat rozwój grypy na miesiąc naprzód przewidują algorytmy uczenia maszynowego. Podają trend (czy liczba przypadków rośnie, czy już maleje), kiedy można spodziewać się maksimum przypadków oraz jaka będzie ich maksymalna liczba. Ale prócz maszynowych algorytmów tę samą pracę wykonują także ochotnicy, zarówno eksperci z dziedziny, jak i laicy. Mają takie samo zadanie jak algorytmy – przewidzieć rozwój wypadków. Choć żaden z nich nie jest w tym szczególnie dobry, prognoza oparta na średnich z ich przewidywań jest zaskakująco trafna (i zbieżna z predykcjami sztucznej inteligencji).

W przypadku koronawirusa trudność polega na tym, że wiele osób będzie wyszukiwać informacji o nowej chorobie, nawet jeśli nie ma żadnych objawów (w przypadku grypy jest to rzadkość). A to utrudnia przewidywania maszynom. Nie ma też żadnych danych z poprzednich lat. Maszynowe algorytmy muszą tu uczyć się wszystkiego od nowa. A że uczą się na podstawie przykładów, mogą mieć z tym problem. Częściowo wykorzystywane są informacje z innych krajów.

W przypadku koronawirusa trudność polega na tym, że wiele osób wyszukuje informacji o nowej chorobie, nawet jeśli nie ma żadnych objawów. A to utrudnia przewidywania maszynom

Pierwsze dane dotyczące liczby zakażeń koronawirusem już jednak spływają, znane są też lokalizacje pojawiania się przypadków. Na tej podstawie można próbować przewidywać rozprzestrzenianie się choroby (oficjalnie nazwanej COVID-19). Ale siłą rzeczy nie będzie to tak doskonałe, jak prognozy dotyczące grypy.

„Będzie bardzo trudno stwierdzić, czy użyte przez nas metody są dobre”, mówi „MIT Technology Review” Roni Rosenfeld, szef grupy uczenia maszynowego na Carnegie Mellon University. „Można stworzyć trafną prognozę na podstawie błędnych przesłanek. Można przewidywać nietrafnie na podstawie właściwych. Gdy ma się tylko jeden sezon, w zasadzie nie można wysnuć żadnych silnych wniosków odnośnie do użytej metodologii”.

„Ale to, co mamy, jest lepsze niż nic”, dodaje.

Do następnego razu

I choć to niewielkie pocieszenie, dokładnie z tego samego powodu następną epidemię (lub pandemię) algorytmy przewidzą lepiej.

To prawda, rozprzestrzenianie się koronawirusa jeszcze w grudniu ubiegłego roku w chińskiej prowincji Hubei zauważyły komputerowe algorytmy z Kanady. To system firmy BlueDot, który wykorzystuje uczenie maszynowe do monitorowania ognisk chorób zakaźnych na całym świecie. Wysłał ostrzeżenia przed niezwykłym wzrostem liczby przypadków zapalenia płuc w Wuhan dziesięć dni przed oficjalnym ogłoszeniem epidemii przez WHO.

Jak się później okazało, BlueDot nie był jedyny. Podobny wzrost przewidziały algorytmy zwane HealthMap Szpitala Dziecięcego w Bostonie i model mającej siedzibę w San Francisco firmy Metabiota. Jak opisuje „Mit Technology Review”, przewidywania Metabioty odnośnie do koronawirusa były niezwykle trafne. Pod koniec lutego algorytmy prognozowały, że na początku marca będzie 127 tysięcy przypadków zakażeń (w rzeczywistości było ich o 30 tysięcy mniej, co jednak mieści się w granicach błędu obliczeniowego). Wśród krajów, co do których sztuczna inteligencja przewidywała pojawienie się nowych przypadków, były Chiny, Włochy, Iran i USA.

Jak działają takie algorytmy uczenia maszynowego? Wykorzystują przetwarzanie języka naturalnego i przeczesują wszelkie dostępne im zasoby w poszukiwaniu słów świadczących o zachorowaniach. BlueDot robi to w oparciu o dane z ponad 100 źródeł, takich jak lokalne wiadomości, fora internetowe, dane ze szpitali, a nawet przypadki zachorowań wśród zwierząt. Algorytm uwzględnia dane demograficzne i dotyczące transportu (lokalnego i lotniczego) oraz dane klimatyczne. Gdy widzi więcej słów „zapalenie płuc”, „wzrost liczby przypadków” w chińskim Wuhan, może wydać ostrzeżenie o „wzroście liczby przypadków zapalenia płuc w mieście Wuhan w chińskiej prowincji Hubei”.

O ile więc trudno jest nauczyć algorytmy uczenia maszynowego rozpoznawania rozprzestrzeniania się zupełnie nowej choroby, mogą one przewidzieć, że niezwykły wzrost zachorowań gdzieś na świecie nie jest normalnym rozwojem wypadków. To może być nowa epidemia lub – jak w przypadku COVID-19 – pandemia.

Co zrobić z wiedzą

Co z takimi przewidywaniami robić, jest jednak niejasne. Czy to, że jeden (a nawet dwa lub trzy) algorytmy przewidują epidemię, oznacza, że należy stawiać służby medyczne w stan podwyższonej gotowości i ponosić koszty? Czy maszynowe ostrzeżenie oznacza, że należy zamykać granice lub wprowadzać inne ograniczenia? Nikt chyba (jeszcze) w dzisiejszym świecie na to by się nie zdobył – a przynajmniej nie na podstawie przewidywań komputerowych modeli – opartych o sztuczną inteligencję czy nie.

Przewidywania BlueDot zignorowano, podobnie jak systemu Szpitala Dziecięcego w Bostonie. (przewidywania Metabioty zaś pojawiły się na tyle późno, że niewiele już mogłyby pomóc). Nietrudno zrozumieć, czemu. Nie są to systemy, które zostałyby w jakikolwiek oficjalny sposób uwiarygodnione. Trudno, żeby rządy i organizacje takie jak WHO brały pod uwagę ostrzeżenia systemów opracowanych przez prywatne firmy, nawet jeśli są one zaskakująco trafne.

Możemy być jednak pewni, że jeśli przydarzy się kolejna epidemia, sztuczna inteligencja szybko ją zauważy.