Walka z koronawirusem: Algorytmy przeczesują prace naukowe

Biały Dom wezwał naukowców do pracy nad algorytmami, które pomogą przeanalizować liczącą 29 tysięcy pozycji bazę tekstów naukowych dotyczących koronawirusów

Pandemia koronawirusa skłoniła amerykańskie władze i technologicznych gigantów do zakopania topora wojennego. Biały Dom współpracuje z firmami z Doliny Krzemowej na wielu płaszczyznach. W zeszłym tygodniu na telekonferencji z przedstawicielami kilku z nich administracja zaapelowała między innymi o walkę z fake newsami i teoriami spiskowymi.

W poniedziałek światło dzienne ujrzał kolejny owoc tej współpracy. Powstała ogólnodostępna baza ponad 29 tysięcy prac naukowych dotyczących COVID-19 i koronawirusów w ogóle. Administracja zachęca naukowców do stworzenia narzędzi analizy językowej, które pozwoliłyby przeczesać tę bazę wiedzy w poszukiwaniu wskazówek jak walczyć z wirusem.

Projekt jest prowadzony w należącym do Google serwisie Kaggle, który jest platformą do publikowania konkursów związanych z analizą danych. Tam można pobrać korpus tekstów i publikować wyniki swoich badań.

Zadaniem dla wszystkich chętnych jest odpowiedź na wybrane z 10 zagadnień dotyczących koronawirusa. “Co wiemy o przenoszeniu, inkubacji i stabilności środowiskowej wirusa?”, “ Co wiemy o czynnikach ryzyka związanych z COVID-19?”, “Co wiemy o niefarmaceutycznych sposobach leczenia?” – to niektóre z pytań.

Na osoby, które dostarczą najbardziej kompletnych i kompetentnych odpowiedzi, czekają nagrody pieniężne – 1000 dolarów za każde pytanie.

Czy uda się znaleźć coś ciekawego, to się okaże, ale ta inicjatywa pokazuje jak ważny jest uporządkowany, otwarty dostęp do literatury naukowej w formie dostępnej dla maszyn
Giovanni Colavizza z Uniwersytetu w Amsterdamie

Baza publikacji została stworzona dzięki współpracy kilku podmiotów. Zawartość merytoryczną dostarczyły Chan Zuckerberg Initiative (organizacja założona przez Priscillę Chan i jej męża Marka Zuckerberga, założyciela Facebooka) i amerykańska Narodowa Biblioteka Medyczna (National Library of Medicine). Microsoft i Allen Institute of AI zapewniły narzędzia, które umożliwiają analizę badań i ich interpretację przez algorytmy. Nad całością projektu czuwa Centrum Bezpieczeństwa i Nowych Technologii Uniwerstytetu Georgetown.

Wykorzystanie uczenia maszynowego do analizy wielkich korpusów tekstu to nic nowego. Jest ono powszechnie używane do analizy aktów prawnych, literatury medycznej, wniosków patentowych. Pomaga wychwycić w danych ukryte zależności, których nie wykryłby ludzki analityk.

Giovanni Colavizza z Uniwersytetu w Amsterdamie mówi w rozmowie z Wired, że to ważna inicjatywa, nie tylko ze względu na potencjalne wyniki. “Czy uda się znaleźć coś ciekawego, to się okaże, ale ta inicjatywa pokazuje jak ważny jest uporządkowany, otwarty dostęp do literatury naukowej w formie dostępnej dla maszyn” – mówi.

Cały zbiór COVID-19 Open Research Dataset (CORD-19) jest dostępny na stronie Semantic Scholar, darmowej wyszukiwarce prac akademickich działającej non-profit. Jak informuje The Next Web, kolekcja będzie na bieżąco uzupełniana najnowszymi pracami.

Jak podaje portal, Biały Dom uważa, że CORD-19 to największa dostępna dla maszyn kolekcja literatury dotycząca koronawirusa. Miejmy nadzieję, że gdzieś w jej odmętach kryje się cenna wiedza, a algorytmy pomogą w jej odkryciu.