Dlaczego renomowane czasopismo naukowe opublikowało badanie na temat sztucznej inteligencji, które nie ma nic wspólnego z nauką

1 stycznia „Nature” opublikowało pracę badaczy z Google Health dotyczącą zastosowania sztucznej inteligencji w wykrywaniu raka piersi w obrazach mammograficznych. Teraz, po jedenastu miesiącach, publikuje krytykę tego, co wtedy pod swym szyldem wypuściło. Pod tekstem podpisało się ponad trzydziestu badaczy.

Polemiki w świecie naukowym nie są zjawiskiem rzadkim, ale rzadko zdarza się, by szacowny periodyk publikował jakąś pracę, a wkrótce po tym jej dogłębną krytykę. Zwykle publikacje, odnośnie do których stawiane są zarzuty, oficjalnie się wycofuje – z odpowiednim komentarzem. Co się więc stało tym razem?

Dłużej tak nie można

„Naprawdę tak dłużej nie można. Nie chodzi tylko o to jedno badanie [Google Health] – to trend, który widzimy od wielu lat, a który teraz naprawdę nas martwi” – mówi „MIT Tech Review” Benjamin Haibe-Kains, główny autor pracy opublikowanej właśnie w „Nature”, zajmujący się genetyką obliczeniową na Uniwersytecie w Toronto.

„Gdy przeczytaliśmy pracę [inżynierów] z Google’a, zdaliśmy sobie sprawę, że to kolejny przykład, gdy renomowany periodyk naukowy publikuje bardzo ekscytujące badanie, które nie ma nic wspólnego z nauką – rozwija wątek Haibe-Kains. – To raczej reklama fajnej technologii”.

Kryzys w nauce po cichu narastał od lat, i to w wielu dziedzinach

Proces publikacji prac naukowych z założenia służy temu, by móc badanie powtórzyć i stwierdzić, że w istocie jest tak, jak donoszą autorzy publikacji, czyli móc odtworzyć wyniki badań. By to było możliwe, publikacja naukowa powinna odkrywać wszystkie karty: zawierać hipotezę badawczą, pełne dane wejściowe, opis badania testującego hipotezę, wyniki badania i ich rzetelną analizę. Wszystko to powinno być na tyle przejrzyste, żeby dowolny zespół dysponujący tymi samymi narzędziami mógł osiągnąć taki sam wynik.

Doskonałym przykładem prac, które zdobyły rozgłos, choć nikomu ich wyników nie udało się powtórzyć, są te o rzekomej szkodliwości genetycznie modyfikowanej kukurydzy i o związku zawartego w szczepionkach tiomersalu z autyzmem. Obie prace wycofano po publikacji, bo zawierały metodologiczne błędy. Co jednak ważniejsze, przedstawionych w nich wyników nikomu nie udało się później powtórzyć. Skutek? GMO i szczepionki przez lata miały sporo złej prasy.

Kryzys replikacji

Problem, który określa się mianem „kryzysu replikacji” (ang. reproducibility crisis), nie jest nowy. Publikuje się teksty na temat wielu badań, których wyników nie sposób odtworzyć ze względu na niepełne dane.

I nie jest to problem wyłącznie nauk komputerowych. Kryzys w nauce po cichu narastał od lat, i to w wielu dziedzinach. Problem nagłośnił statystyk John Ioannidis z Uniwersytetu Stanforda, który już w 2005 roku pisał – jak głosił tytuł jego pracy – że „większość badań naukowych jest nieprawdziwa”. Statystycznie rzecz biorąc, prawdopodobieństwo, że losowo wybrana praca naukowa będzie zawierała prawdziwe wnioski, jest mniejsze niż to, że będzie zawierała fałszywe. Za niską jakość pracy naukowej może odpowiadać zbyt mała próba badanych osób lub próbek, statystycznie niereprezentatywny dobór takiej próby, złe zaplanowanie badania czy uprzedzenia i nastawienie eksperymentatorów – w tym przedstawianie w pracach naukowych tylko wybranych wyników (czyli pomijanie faktów niezgodnych z tezą autora).

Za te ostatnie przewinienia odpowiada również (o ile nie przede wszystkim) presja, pod którą znajdują się naukowcy. Warunkiem zdobywania grantów i naukowych awansów jest wszakże publikowanie artykułów w dobrych czasopismach. Redaktorzy takich czasopism też są rozliczani z tego, jak często publikowane w nich artykuły są cytowane. Badacze starają się więc publikować prace przedstawiające coś nowego, a redaktorzy takie prace zaś przyjmować. To wprowadza mechanizm „błędnego koła nowości”, choć w nauce przełomowe odkrycia zdarzają się przecież rzadko.

Co najłatwiej podważać

Osobną sprawą jest pogoń za tak zwaną „istotnością statystyczną”. Gdy brytyjski statystyk Ronald Fisher wprowadził tak zwaną wartość P w latach 20. XX wieku, nie zamierzał nadawać jej szczególnego znaczenia. Była tylko nieformalnym sposobem stwierdzenia, czy uzyskane wyniki są znaczące w potocznym tego słowa znaczeniu i zasługują na dalsze badania – by potwierdzić lub obalić słuszność badanej hipotezy. Sama wartość P nie przesądza o prawdziwości wyniku badań.

Wielu badań nad sztuczną inteligencją nie można odtworzyć, bo autorzy prac naukowych nie publikują w nich trzech rzeczy: kodu źródłowego, danych oraz parametrów sprzętu

Rzecz jasna trudniej podważać badania w dziedzinie nauk ścisłych, fizyki czy chemii, gdzie wynik bywa namacalny (choć oczywiście i w tych dziedzinach zdarzają się badania, których wyników nikt nie potrafi później odtworzyć). Gorzej jest w naukach przyrodniczych i medycznych, a najgorzej wypadają pod tym względem nauki społeczne, gdzie (jak wykazano w 2015 roku) nie udaje się odtworzyć nawet połowy opisywanych eksperymentów.

Ktoś jednak mógłby powiedzieć: „No dobrze, ale przecież inżynierowie od algorytmów podają twarde dane”. Otóż nie – i na to właśnie skarżą się badacze w „Nature”.

Algorytmy i brak twardych danych

Wielu badań nad sztuczną inteligencją nie można odtworzyć, bo autorzy prac naukowych nie publikują w nich trzech rzeczy: kodu źródłowego, danych oraz parametrów sprzętu. Czyli rzeczy absolutnie podstawowych, bo określających, co jest badane, za pomocą jakiej metody i jakich urządzeń. Według tegorocznego badania „State of AI” kod zawiera zaledwie 15 procent badań.

Wielcy gracze – DeepMind oraz Open AI – podają kod szczególnie rzadko. Można zrozumieć ich intencje: chronią tajemnice handlowe swoich spółek i nie chcą ujawniać danych, które kosztowały ich miliony dolarów (jak np. wytrenowanie algorytmu GPT-3). Niemniej, bez takich danych publikacje nie mają waloru prac naukowych i są tylko wyrafinowanym public relations.

Przekładając taki brak informacji na język biochemii: trudno sobie wyobrazić sytuację, że biochemicy donoszą w pracy naukowej, iż udało im się wynaleźć nowy antybiotyk –wspominają jednak tylko o tym, że było to możliwe dzięki genetycznej modyfikacji mikroorganizmu, na przykład drożdży. I że nie podają przy tym sekwencji wyjściowych i zmodyfikowanych genów, informacji o warunkach, w jakich prowadzono badanie, ani o parametrach wykorzystanego sprzętu. A bez takich informacji nikt nie mógłby ich odkrycia zweryfikować.

Niezbędna przejrzystość

„Publikowanie niedostatecznie udokumentowanych badań nie spełnia podstawowych kryteriów leżących u podstaw odkryć naukowych. Słowne opisy modeli uczenia głębokiego mogą zaciemniać stopień ich złożoności. Niuanse kodu źródłowego mogą mieć wyraźny wpływ na trenowanie [modelu] i ocenę wyników [jego] działania” – piszą badacze w „Nature”. „Przejrzystość w formie komputerowego kodu wykorzystanego do trenowania modelu i osiągnięcia przezeń końcowych parametrów jest niezbędna do replikacji naukowej”.

„MIT Tech Review” w cytowanym już tekście przedstawia dodatkowo inny problem. Wiele algorytmów powstających w laboratoriach gigantów jest prowadzonych na superkomputerach o parametrach niedostępnych mniejszym zespołom. Ujawnienie kodu niewiele wniesie do naukowego poznania, jeśli nikt nie ma odpowiedniej mocy obliczeniowej, by zweryfikować algorytm. Twierdzenia wielkich graczy mogą więc na zawsze pozostać bez naukowej weryfikacji (zaś to, czy będą zweryfikowane, zależy tylko od ich dobrej woli).

Dwie drogi

W fizyce największe eksperymenty prowadzone są w Wielkim Zderzaczu Hadronów. Koszt jego budowy przekraczał możliwości jednego państwa, więc sfinansowano go z międzynarodowego programu współpracy. W dziedzinie sztucznej inteligencji najsilniejsze algorytmy budują zespoły badawcze gigantycznych korporacji. To problem, z którym kiedyś trzeba będzie się uporać. Oczywiście o ile zechcemy osiągnięcia największych algorytmów zweryfikować.

Możliwa też jest droga pośrednia – podobna do tej, która reguluje rynek leków. Firmy farmaceutyczne poddają swoje produkty naukowym (i nadzorowanym przez odpowiednie instytucje) badaniom pod kątem skuteczności i bezpieczeństwa, ale zachowują prawo do tajemnicy (składu leku i procesu technologicznego) na określony czas. To daje gwarancję, że produkt jest bezpieczny, a firma zachowa zyski ze sprzedaży. Taki sposób wymagałby jednak traktowania algorytmów zupełnie inaczej niż dzisiaj.

Trzeba przyznać, że do sprawy podchodzimy chyba nieco zbyt beztrosko. Bo jeśli algorytm ma rozpoznawać raka piersi (jak proponowany przez Google Health), kto zweryfikuje jego skuteczność?

Skip to content