Trening z milionem obrazów, czyli na tropie raka

O algorytmie, który diagnozuje nowotwór piersi precyzyjniej niż doświadczony radiolog, dr Krzysztof Geras opowiada Monice Redzisz

Monika Redzisz: Zajmuje się pan stosowaniem głębokiego uczenia do obrazowania medycznego. Stworzona przez pana zespół sieć neuronowa potrafi na podstawie obrazu mammograficznego wykryć nowotwór piersi w bardzo wczesnym stadium. Jaką ma skuteczność?

Dr Krzysztof Geras: Jest trochę dokładniejszy niż radiolog. W uproszczeniu można powiedzieć, że algorytm ma dokładność około 90 procent, a radiolodzy około 80 procent. Ale najciekawsze jest to, że kiedy bierzemy przewidywania algorytmu, dodajemy do tego przewidywania radiologów i uśredniamy, to wynik jest jeszcze bardziej dokładny. Model potrafi więc zobaczyć coś, czego ludzie nie widzą, natomiast radiolodzy wciąż potrafią coś, czego nie potrafi algorytm. Poprawiają algorytm, który jest od nich lepszy.

Co takiego mogą mieć, czego nie ma algorytm?

To pytanie za milion dolarów. Analizujemy przypadki, gdy to radiolodzy byli lepsi, ale do żadnych wniosków jeszcze nie doszliśmy. Trudno interpretować działania algorytmu. Staramy się trenować modele uczące się zdolne wykonać klasyfikację tylko wtedy, gdy są w stanie ją wyjaśnić, wskazując elementy wejścia. Ten problem będzie intensywnie badany pewnie jeszcze przez kilka lat.

Skąd mieliście dane do trenowania?

Z naszego systemu szpitali. Uniwersytet Nowojorski jest uniwersytetem, ale poprzez swoją szkołę medyczną także właścicielem wielu szpitali i placówek ambulatoryjnych, które od wielu lat gromadziły dane. To z nich korzystamy. Mamy dostęp do setek tysięcy mammografii. Wydział radiologii gromadzi obrazy medyczne, a wydział patologii badania patologiczne. My łączymy obrazy z wynikami patologii i tworzymy etykiety. Nasz model trenowaliśmy, używając około miliona obrazów.

Raz po raz słychać, że jakieś wyniki są zafałszowane, bo algorytm został wytrenowany na specyficznych danych, np. wyłącznie na mammografiach kobiet o jasnej skórze.

Mówimy, że takie wyniki są nie zafałszowane, tylko optymistyczne. To podstawowa własność algorytmów uczących się: są najdokładniejsze na danych bardzo podobnych do tych, na których zostały wytrenowane. Mogą natomiast okazać się niedokładne na danych pochodzących z innego źródła. Dlatego jest ważne, żeby zbiór danych był różnorodny i żebyśmy uczciwie testowali algorytmy – na takich danych, na jakich naprawdę będą używane.

Model potrafi zobaczyć coś, czego ludzie nie widzą, natomiast radiolodzy wciąż potrafią coś, czego nie potrafi algorytm

My mamy to szczęście, że Nowy Jork jest jednym z najbardziej zróżnicowanych etnicznie miejsc na świecie. Nie musieliśmy robić nic szczególnego, by nasz model został wytrenowany na mammografiach kobiet różnych narodowości i ras.

Czy można powiedzieć, że stworzyliście zupełnie nowy model?

Nie do końca. Korzystaliśmy z wcześniejszych dokonań innych grup badawczych pracujących nad głębokimi sieciami neuronowymi. Podstawą naszego modelu są sieci neuronowe z rodziny ResNet, które zaadoptowaliśmy do interesującego nas problemu. Wiele standardowych modeli jest ogólnodostępnych, więc różne grupy mogą z nich korzystać, ulepszać je i dopasowywać do nowych zastosowań.

We współczesnym świecie nie da się wymyślić wszystkiego od podstaw i prowadzić badań w izolacji. Mój zespół to w tej chwili sześciu doktorantów, jeden postdoc, pięciu magistrantów, pięciu radiologów i jeden fizyk medyczny – a i tak nie jest możliwe, żebyśmy wszystko zrobili sami. Poza tym to, że opublikowaliśmy model, nie wystarczy. Teraz inni muszą powtórzyć nasze wyniki na ich własnych danych. Model musi zostać przetestowany na danych z różnych populacji, w różnych krajach, uzyskanych przy pomocy różnego sprzętu do obrazowania. Dopiero wtedy można powiedzieć, że model rzeczywiście działa.

Badania dotyczące wczesnego wykrywania raka piersi prowadzi wiele ośrodków na świecie. Czytałam na przykład o osiągnięciach naukowców z MIT, których algorytm rozpoznaje nowotwór piersi pięć lat przed pierwszymi objawami.

Jest wiele grup, które prowadzą badania nad sieciami neuronowymi i obrazowaniem medycznym, ale relatywnie niewiele takich, które mają zaawansowaną wiedzę z obydwu tych dziedzin.

O nas w mediach nie jest głośno, ale w świecie informatyki i medycyny nasze badania są dobrze znane. Model, który upubliczniliśmy na GitHubie [jeden z hostingowych serwisów internetowych – red.], jest bardzo popularny. Został ściągnięty przez wiele grup badawczych z całego świata, które próbują go teraz modyfikować albo aplikować do swoich danych. Wstępną wersję naszego artykułu opublikowaliśmy już w marcu 2019 roku. Rok później inna grupa opublikowała artykuł, który praktycznie powtarzał nasze wyniki. Oczywiście, nie ma nic złego w tym, że ktoś waliduje wyniki pochodzące z innego źródła.

Jak to się stało, że zajął się pan tą dziedziną i trafił na Uniwersytet Nowojorski?

Zrobiłem licencjat na wydziale matematyki, informatyki i mechaniki Uniwersytetu Warszawskiego, a na drugim roku studiów magisterskich wyjechałem na Erasmusa do Edynburga. Pracę magisterską obroniłem w Warszawie, ale na doktorat z uczenia maszynowego wróciłem do Edynburga. Większość osób, które w ramach swoich doktoratów pracują nad uczeniem maszynowym, ma do czynienia ze zbiorami danych, które są standardowe, dobrze już poznane, a problemy – rozwiązane. Mnie bardziej interesowało rozwijanie algorytmów uczenia maszynowego tam, gdzie jeszcze wiele jest do zrobienia. Obrazowanie medyczne jest jednym z takich obszarów. Po doktoracie zaaplikowałem na pozycję postdoca tu, na uniwersytet w Nowym Jorku.

Wyobraża pan sobie, że wykonuje takie badania w Polsce?

Akurat ten typ badań trudno byłoby prowadzić w Polsce, ponieważ wymagają one wielkich nakładów i ogromnych zbiorów danych. Coś takiego jest możliwe tylko w potężnej organizacji, która robi takie rzeczy przez wiele lat. Takiej, jak NYU. Natomiast w Polsce prowadzonych jest wiele innych badań nad uczeniem maszynowym, i to z dużymi sukcesami, na przykład na Uniwersytecie Jagiellońskim w grupie profesora Jacka Tabora.

Nasze uczelnie dobrze przygotowują do tego studentów?

Są na bardzo wysokim poziomie do etapu magisterskiego. Powiedziałbym nawet, że ktoś, kto kończy informatykę na Uniwersytecie Warszawskim, jest lepiej przygotowany do bycia programistą niż ktoś, kto kończy Stanford.

Jest wiele grup, które prowadzą badania nad sieciami neuronowymi i obrazowaniem medycznym, ale relatywnie niewiele takich, które mają zaawansowaną wiedzę z obydwu tych dziedzin

Brałem udział w różnych stażach, pracowałem w Microsoft, Amazon i J.P. Morgan. Myślę, że nie ma na świecie takiego uniwersytetu, który przygotowywałby ludzi do zawodu informatyka istotnie lepiej niż UW. Ci, którzy go kończą, są tak wykształceni i zahartowani, że zniosą wszystko i zrobią wszystko lepiej i szybciej niż studenci najlepszych uniwersytetów Wielkiej Brytanii czy Ameryki.

Dlaczego?

Nasz system edukacyjny jest dość brutalny. Od początku jesteśmy trenowani w takim reżimie egzaminacyjnym: kartkówki, klasówki, egzaminy. Stawiamy na restrykcyjne i systematyczne egzaminowanie ucznia. Ma to swoje dobre strony, ma i złe. Lecz jeśli ktoś już przez to przebrnie, jeśli nie zniechęci się do nauki, to da sobie radę wszędzie.

Mam rozumieć, że polscy informatycy są niczym radzieccy łyżwiarze albo chińscy gimnastycy?

Można tak powiedzieć…

Pytanie, ile osób tego nie przetrwa…

No właśnie. Poza tym taki system ma też wady. Nie mamy takich umiejętności organizacyjnych, prezentacyjnych, socjalnych, jak studenci amerykańscy czy brytyjscy. Ich systemy edukacyjne dają im, na przykład kosztem umiejętności rozwiązywania całek, więcej umiejętności miękkich. Można też powiedzieć, że Anglosasi są bardziej intelektualnie kreatywni.

Ile trzeba czasu, by wasze narzędzie mogło służyć lekarzom?

Już w tej chwili nasz model jest wystarczająco dokładny, by był dla nich użyteczny. Ale to nie wystarczy. Po pierwsze, musi być dla nich zrozumiały, a po drugie – musi zostać zintegrowany z całym systemem informatycznym. Inaczej będzie uciążliwy i raczej opóźni diagnozę, niż ją przyspieszy. Problem integracji takich narzędzi jest znacznie bardziej skomplikowany niż samo trenowanie sieci neuronowych. Dokładne algorytmy już mamy. Teraz musimy być pewni, że nie zawiodą nas w najbardziej nieoczekiwanym momencie.

Dr Krzysztof Geras – adiunkt w NYU School of Medicine i w Center for Data Science. Absolwent wydziału Matematyki, Informatyki i Mechaniki na UW. Doktoryzował się na uniwersytecie w Edyndburgu. Odbył staże w Microsoft, Amazon i J.P. Morgan. Zajmuje się uczeniem nienadzorowanym sieci neuronowych, oceną modeli uczenia maszynowego i zastosowaniem tych technik w obrazowaniu medycznym.