Pan-Cancer: Wielki Zderzacz Hadronów onkologii

1300 naukowców i 700 instytutów badawczych na świecie dzień po dniu gromadzi oceany danych. Cel: dopaść raka. Z prof. Janem Komorowskim, bioinformatykiem uczestniczącym w projekcie, rozmawia Monika Redzisz

Monika Redzisz: Pan-Cancer to?

Jan Komorowski*: To projekt na światową skalę, w którym uczestniczę, podobnie jak około 1300 innych naukowców i 700 instytutów badawczych z całego świata. Pan-Cancer oznacza przede wszystkim wspólne korzystanie z danych, wszystkie wyniki są dostępne dla innych uczestników. Obowiązuje zasada, że twórcy danych mają pierwszeństwo publikacji, lecz pozostali uczestnicy mogą je wykorzystywać wcześniej i publikować wyniki po zakończeniu embarga. To bardzo dobre podejście. Wszyscy zyskują.

Pan-Cancer jest dla onkologii tym, czym Wielki Zderzacz Hadronów dla fizyki – generujemy ogromne ilości danych, nad którymi pracuje potem wiele zespołów. Jest tylko jedna zasadnicza różnica: w przypadku Zderzacza dane powstają w jednym miejscu, u nas w wielu.

Wcześniej naukowcy badający nowotwory nie mogli wymieniać się informacjami? Nie mogli stworzyć wspólnej bazy danych?

To nie takie proste. W Pan-Cancer jesteśmy podzieleni na kilkadziesiąt grup roboczych, ale mamy wspólny protokół postępowania. Robimy badania w ten sam sposób, ale nawet jeśli na takich samych sekwenatorach, to musimy dokonywać korekty danych, żeby usunąć skutki lokalnych warunków wpływających na wartości danych.

Do niedawna zresztą pracowano nad nowotworami w małych zespołach i na małych zbiorach danych, jednak okazało się, że by prowadzić kompleksowe badania nad chorobami, które polegają na mutacjach DNA, potrzeba tak dużej ilości danych, że jeden zespół nie jest w stanie tego zrobić. Dlatego zaczęły powstawać projekty współpracy wielu ośrodków naukowych. Statystyka ma swoje prawa.

Prof. Jan Komorowski — prof. Jan Komorowski

Co osiągnęliście?

Do tej pory przeanalizowaliśmy kompletny kod genetyczny ponad 2600 nowotworów. Głównym wynikiem jest stwierdzenie, że genom nowotworu jest skończony w tym znaczeniu, że występują w nim powtarzalne mutacje ze względu na typ nowotworu.

Dla wielu nowotworów znaleźliśmy 4-5 głównych mutacji, które sterują ich rozwojem. Można powiedzieć, że przedstawiliśmy najdokładniejszy z dotychczasowych obrazów znanych nowotworów.

Przypomnijmy, jaki jest mechanizm ich powstawania. Gen jest kawałkiem genomu DNA, który składa się z odcinka startowego, czyli promotora, i z sekwencji kodującej, czyli ciała genu. Nowotwór powstaje w wyniku istotnej mutacji w genomie, niekoniecznie w samym genie. Do tej pory koncentrowano się przede wszystkim na mutacjach sekwencji kodującej, tymczasem mutacje przyczyniające się do nowotworu zachodzą też poza ciałem genu, w obszarach nazywanych niekodującymi. Jednym z celów Pan-Cancer było przyjrzenie się obszarom niekodującym, występującym w elementach regulatorowych genu. Najważniejszy jak dotąd rezultat to właśnie potwierdzenie, że pewna część nowotworów jest spowodowana mutacjami w rejonach regulatorowych.

Dowiedzieliśmy się ponadto, że na ogół nie ma jednej mutacji, która byłaby odpowiedzialna za nowotwór. By nowotwór powstał, potrzebny jest szereg mutacji. Dlatego testowanie ich metodami statystycznymi, które skupiają się na jednej zmiennej, nie przynosi dobrych rezultatów.

Jakie to będzie miało przełożenie na praktykę onkologiczną?

Da nam możliwość projektowania nowych lekarstw przeciwnowotworowych. W tej chwili mamy kilka lekarstw, które działają dobrze przy określonych mutacjach w rejonach kodujących. Wyniki Pan-Cancer wskazują, gdzie można szukać nowych miejsc dla lekarstw, które będą stosowane w mutacjach w obszarze regulatorowym.

My, bioinformatycy, nie jesteśmy wybredni – „zjemy” wszystko, co możemy strawić. Dla nas istotny jest sygnał. A czy jest to sygnał opisujący nowotwór, czy cukrzycę typu 2, to metody mamy podobne

Niesłychanie ciekawym rezultatem jest również możliwość określenia wieku danej mutacji. Około 20 procent mutacji powstaje przez wiele lat, a nawet dziesięcioleci przed wystąpieniem nowotworu. Mówimy tu przede wszystkim o mutacjach nabytych, a nie dziedziczonych. Nabytych na skutek palenia papierosów, picia alkoholu, wystawiania się na promieniowanie ultrafioletowe, środki chemiczne i tak dalej. Upraszczając, będziemy więc mogli diagnozować: ta osoba ma od 10 lat tę mutację, następna przyszła 3 lata temu i jeśli zajdzie kolejna, to wtedy powstanie nowotwór. Będziemy śledzić proces nowotworzenia. Będziemy mogli lepiej poznać rozwój nowotworu, a co za tym idzie – będą lepsze możliwości diagnostyczne.

Na czym polega podział pracy pomiędzy zespołami? Czy pana zespół zajmuje się konkretnym nowotworem?

Najwięcej danych mamy na temat nowotworu wątroby i białaczki, ale my, bioinformatycy, nie jesteśmy wybredni – „zjemy” wszystko, co możemy strawić. Dla nas istotny jest sygnał. A czy jest to sygnał opisujący nowotwór, czy cukrzycę typu 2, to metody mamy podobne. Wykonujemy analizy metodami bioinformatycznymi stosowanymi do wielkich zbiorów danych z wykorzystaniem metod uczenia maszynowego. To w ten sposób udało się wykryć istotne mutacje w obszarach regulatorowych genomów.

Mocno upraszczając, do tej pory większość badań w biologii czy medycynie robiono tak: stawiam hipotezę, że gen taki a taki przyczynia się do danej choroby, robię doświadczenie, w którym modyfikuję ten gen i obserwuję, co się dzieje. Hipoteza, doświadczenie, weryfikacja hipotezy.

A dziś?

Dzisiaj badania możemy prowadzić inaczej. Nie musimy stawiać tak dokładnej hipotezy. Tworzymy dane dla kilkudziesięciu, może setek próbek specyficznego nowotworu i porównujemy je ze zdrową tkanką, zwaną kontrolami, u tych samych pacjentów. Szukamy różnic między próbkami a kontrolami i odkrywamy geny, a przy użyciu naszych metod – ich kombinacje wraz z wartościami poziomu regulacji (poziom regulacji to relatywny pomiar stopnia uaktywnienia genu pomiędzy próbką a kontrolą), których do tej pory nie podejrzewaliśmy o uczestnictwo w tych procesach.

Istotne w naszym zastosowaniu nadzorowanego uczenia maszynowego jest odkrywanie nie tylko genów, ale również ich poziomów regulacji związanych z, w tym przypadku, charakteryzacją nowotworzenia. Tradycyjnie wskazuje się geny charakteryzujące próbki, ale występujące w grupach albo mocniej wyrażonych, albo słabiej; my dajemy bogatsze określenie zespołów genów. Oczywiście, w tym procesie znajdujemy też potwierdzenie dla wcześniej określonych genów.

Rola informatyków w medycynie staje się kluczowa.

Tak. Dziś w projekcie biomedycznym informatyk musi być partnerem, a nie tylko technicznym asystentem. Nie może pracować z danymi dopiero po zrobieniu eksperymentu, musi uczestniczyć w ich tworzeniu od samego początku. W moim laboratorium są głównie doktoranci po informatyce, którzy robią bardzo ciekawe analizy we współpracy z biomedykami.

Do czego używacie w Pan-Cancer uczenia maszynowego?

Na tym etapie projektu przede wszystkim generowaliśmy dane. Teraz dopiero wkraczamy w kolejny etap, w którym będziemy mogli stosować uczenie nadzorowane między innymi do wykrywania istotnych mutacji w rejonach regulatorowych. Moje badania zwykle opierają się na dwóch nogach: robimy badania oparte na uczeniu maszynowym, ale równocześnie stosujemy standardowe metody statystyczne. Pierwszym zastosowaniem uczenia maszynowego w tym projekcie jest uczenie się, jak należy łączyć dane różnego typu, by skutecznie wykrywać istotne mutacje w rejonach niekodujących.

Od kiedy zajmuje się pan sztuczną inteligencją?

Już od studiów. Byłem pierwszym rocznikiem studiującym informatykę w nowo powstałym Instytucie Informatyki Uniwersytetu Warszawskiego. Zajmowałem się przetwarzaniem języka naturalnego. W uczenie maszynowe zaangażowałem się wiele lat później. Zafascynowała mnie elegancja teorii zbiorów przybliżonych profesora Zdzisława Pawlaka, która nie tylko jest oparta na mocnych podstawach matematycznych, ale również pozwala na tworzenie klasyfikatorów, których działanie można wyjaśniać.

Jaki był wtedy w Polsce klimat wokół sztucznej inteligencji? Ile osób się tym zajmowało?

Myślę, że w wąskim kręgu informatyków SI interesowało się kilka osób. Dużą rolę odegrał profesor Stanisław Waligórski, naukowiec znany w kręgach amerykańskich, zajmujący się językiem programowania LISP. Ale najpoważniejsi matematycy, zajmujący się analizą funkcjonalną czy topologią, patrzyli na sztuczną inteligencję z politowaniem. Tolerowano ją, ale wielkiego zachwytu nie było.

Powiedziała: „Niesamowite. Ten człowiek wie więcej o tym genie niż moi postdoktorzy”. Oczywiście to nie byłem ja, tylko mój program, który wydobył informacje z 10 mln artykułów

Po obronie w 1976 roku dostałem się na studia doktoranckie, a w 1977 dostałem stypendium Fulbrighta na wyjazd do Massachusetts Institute of Technology. Niestety rektor poinformował mnie, że wyjadę tylko pod warunkiem, że wstąpię do partii. Pamiętam, powiedziałem mu wtedy: „Zobaczy pan, i tak prędzej czy później się tam znajdę!”

Pięć lat później rzeczywiście znalazłem się na Harwardzie i w MIT, ale nie jako doktorant, tylko już Assistant Professor. Wcześniej jednak wyjechałem do Szwecji i zrobiłem tam doktorat pod kierunkiem profesora Erika Sandewalla, który należał do światowej czołówki naukowców zajmujących się sztuczną inteligencją. Mój doktorat wprowadził pojęcie częściowej ewaluacji do programowania w logice i jednego z języków sztucznej inteligencji – Prologu. Częściowa ewaluacja, nazwana później częściową dedukcją, to upraszczanie programów ze względu na częściowo znane dane na wejściu do nich. Okazało się, że zasada częściowej ewaluacji w programowaniu w logice ma zastosowanie nie tylko do kompilacji, ale również do optymalizacji zapytań w bazach danych oraz stanowi formę uczenia maszynowego. Wyniki mojej pracy doktorskiej zostały przyjęte na jedną z najbardziej prestiżowych konferencji zajmujących się językami programowania; moja praca jest cytowana zresztą do dziś. Wkrótce potem otrzymałem szereg ofert pracy na uniwersytetach amerykańskich, w tym z Uniwersytetu Harvarda, gdzie spędziłem prawie siedem lat, wliczając w to pracę w Laboratorium Sztucznej Inteligencji w MIT i w Harvard Medical School.

Dlaczego zajął się pan bioinformatyką?

Przez dwa lata pracowałem w Harvard Medical School. Współpracowałem wtedy z biomedykami i przyjrzałem się dobrze zastosowaniom informatyki w medycynie. Już po powrocie do Europy w Trondheim w Norwegii zająłem się właśnie zbiorami przybliżonymi profesora Zdzisława Pawlaka, które jest polskim podejściem do uczenia maszynowego. We współpracy z profesorem Andrzejem Skowronem z Uniwersytetu Warszawskiego zbudowaliśmy system nazwany ROSETTA, implementujący algorytmy zbiorów przybliżonych. W pewnym momencie byliśmy czwartym systemem na świecie w uczeniu maszynowym.

Mniej więcej równolegle rozpoczynała się rewolucja technologiczna w biologii molekularnej i medycynie. Powstawały pierwsze metody masowego sekwencjonowania za pomocą mikromacierzy cDNA. Mikromacierz cDNA to płytka mikroskopowa, na którą naniesiono fragmenty DNA zwane sondami i odpowiadające sekwencjom mRNA produkowanym z genów, które chcemy badać. Mikromacierz cDNA można porównać do bazy danych zawierającej geny. Próbka z materiałem genetycznym to pytanie do bazy danych: które z genów w mojej próbce, a dokładniej – które mRNA tych genów mają relatywnie wyższą ekspresję, a które niższą (ekspresja genów to proces, który pozwala na odkodowanie informacji umieszczonej w genie oraz przepisanie jej na produkty genu, którymi są RNA lub białko – red.). Odpowiedzi na te pytania powstają dzięki hybrydyzacji, czyli łączeniu się sekwencji z sondy z komplementarnymi fragmentami próbki. Sygnał hybrydyzacji jest otrzymywany za pomocą barwnika fluoroscencyjnego i oznaczany kolorem czerwonym dla zwiększonej ekspresji, a zielonym dla zmniejszonej ekspresji genu. Porównując DNA z nowotworu z DNA w tkance zdrowej możemy się dowiedzieć, jakie różnice w ekspresji genów charakteryzują nowotworzenie.

Byliśmy jednym z pierwszych zespołów na świecie, który zastosował uczenie nadzorowane dla danych eksperymentalnych uzyskanych za pomocą cDNA. Publikowaliśmy w bardzo dobrych czasopismach, takich jak „Genome Research”, „Nature Genetics” i „Bioinformatics” – i zdobyliśmy sporo pieniędzy na badania bioinformatyczne, choć wtedy nazywaliśmy to biologią obliczeniową.

I wtedy przyszła zmiana?

Tak, wtedy uznałem, że warto się przekwalifikować. Nauczyłem się jednej bardzo ważnej rzeczy: jeśli chcesz pracować interdyscyplinarnie, to przynajmniej w jednej z dyscyplin musisz mieć porządne osiągnięcia naukowe. Ja przyszedłem do bioinformatyki z uznanym dorobkiem w informatyce.

W 2002 roku Uniwersytet Uppsalski zaproponował mi stanowisko szefa katedry bioinformatyki. To była pierwsza bioinformatyczna profesura w Szwecji. Zostałem też dyrektorem Centrum Bioinformatycznego imienia Linneusza.

Uczestniczył pan w tworzeniu tej dziedziny.

W pewnym stopniu tak. Od początku lat dwutysięcznych zajmowałem się analizą danych genomicznych. Udało nam się zrobić dobre analizy miejsc wiązania się czynników transkrypcyjnych do DNA, do obszarów regulatorowych. Szukaliśmy informacji na podstawie słów kluczowych w tytule lub w streszczeniu. Mieliśmy średnio 60 procent poprawnych odpowiedzi, co wystarczało, by szybko uzyskać potrzebną informację. Pracę na ten temat opublikowaliśmy w „Nature Genetics”. Pamiętam, jak na jednym z wykładów poproszono mnie, żebym zaprezentował, jak to działa. Wpisałem nazwę pewnego genu centralnego w angiogenezie, zachodzącej podczas nowotworzenia (angiogeneza nowotworowa to proces polegający na tworzeniu nowych naczyń krwionośnych, który występuje w przypadku wielu nowotworów złośliwych – red.), i po chwili program wskazał sieć 20 genów. Profesor, która zajmowała się angiogenezą, powiedziała: „Niesamowite. Ten człowiek wie więcej o tym genie niż moi postdoktorzy”. Oczywiście to nie byłem ja, tylko mój program, który wydobył informacje z 10 milionów artykułów w bazie literatury PubMed.

Komputery będą nas zastępowały w najprzeróżniejszych zadaniach – i będą robiły to lepiej. Ale z tego powodu, że samolot lata, a samochód jeździ, ludzie nie przestali jeździć na rowerze ani biegać

Wkrótce przyszły prestiżowe zaproszenia. Jednym z nich było uczestnictwo w projekcie ENCODE – Encyclopedia of DNA Elements, a wyniki naszych badań opublikowano w „Nature”; to nam dało parę tysięcy cytowań. Przejście do projektu Pan-Cancer było czymś naturalnym. Dostaliśmy zaproszenie i oczywiście je przyjęliśmy.

Projekt trwa. Pokazuje, jak ważna jest współpraca.

Tak. Bardzo bym zachęcał moich polskich kolegów i z bioinformatyki, i z biomedycyny, żeby jak najwięcej uczestniczyli w projektach międzynarodowych. Mamy w Polsce bardzo dobrych bioinformatyków i biomedyków, to daje ogromną szansę do zaistnienia w świecie nauki przez nasz kraj. Przy odpowiednim finansowaniu i poparciu dla młodych Polska może stać się znaczącym krajem w tej dziedzinie. Być może Narodowe Centrum Nauki powinno zachęcać do uczestnictwa w takich programach jak Pan-Cancer?

Na razie młodzi polscy naukowcy raczej wyjeżdżają za granicę.

Tak, ale to samo można powiedzieć o Szwecji: najlepsi szwedzcy naukowcy wyjeżdżają do Stanów albo do Wielkiej Brytanii, bo tam są najmocniejsze ośrodki. W Polsce niestety wciąż pokutuje hierarchiczny styl pracy – po doktoracie młodzi naukowcy publikują ze swoimi promotorami. W Szwecji nie ma czegoś takiego. Jeśli młody człowiek dostaje grant, to on jest głównym autorem swojej pracy. W Polsce nie do końca pozwala się młodym naukowcom na usamodzielnienie. To ich zniechęca.

Jak długo jeszcze potrwa Pan-Cancer? Co przyniesie?

To jest otwarta sprawa. Z tego projektu będą pączkowały następne. Kolejne grupy będą wykorzystywały te dane i szły dalej. A Pan-Cancer będzie trwał jako zbiór danych dostępnych dla wszystkich naukowców. Powstanie olbrzymia otwarta baza danych, którą będzie można łączyć z innymi, lokalnymi bazami. Na przykład w Wielkiej Brytanii mamy projekt 100 tysięcy genomów, wraz z dołączoną informacją z dziennika choroby. Połączenie ich z Pan-Cancer da fenomenalne możliwości diagnozowania. Będziemy mogli na przykład przyjrzeć się tak zwanym chorobom rzadkim, na które w Wielkiej Brytanii choruje, o ile pamiętam, od 6 do 8 tysięcy osób rocznie. A są one niesłychanie trudne do usystematyzowania.

Rola sztucznej inteligencji w diagnostyce rośnie. Czy lekarze, naukowcy nie muszą się obawiać konkurencji z jej strony?

W tej chwili często stawia się niemal znak równości pomiędzy sztuczną inteligencją a uczeniem maszynowym. A przecież to nie to samo. Yann LeCun, współzdobywca Nagrody Turinga, uznawanej za Nagrodę Nobla w informatyce, stwierdził, że aby uczenie maszynowe nazwać inteligentnym, to trzeba by dodać do niego wnioskowanie. Tak naprawdę sztuczna inteligencja to dopiero nasz cel. Widzimy go na horyzoncie i idziemy w jego kierunku.

Swego czasu Patrick Winston, dyrektor laboratorium sztucznej inteligencji w MIT, zapytany, czy nie obawia się, że komputery i roboty będą bardziej inteligentne niż ludzie, odpowiedział: „Nie, nie obawiam się, bo jestem dostatecznie inteligentny”. Na pewno komputery będą nas zastępowały w najprzeróżniejszych zadaniach – i będą robiły to lepiej. Ale z tego powodu, że samolot lata, a samochód jeździ, ludzie nie przestali jeździć na rowerze ani biegać.

Będziemy automatyzować różne aspekty zdolności poznawczych człowieka i wnioskowania, ale człowiek jest niesamowicie plastyczny i ma nieprawdopodobne możliwości samorozwoju. Myślę, że to będzie zdrowa konkurencja.

*Dr Jan Komorowski – profesor bioinformatyki na Uniwersytecie w Uppsali i profesor wizytujący w Instytucie Podstaw Informatyki PAN. Pracował m.in. na Harvardzie i w Laboratorium Sztucznej Inteligencji MIT. W 2002 roku objął Katedrę Bioinformatyki w Uppsali i został dyrektorem tamtejszego Centrum Bioinformatycznego im. Linneusza, które prowadził do 2010 r. W 2019 przewodniczył konferencji „Artificial Intelligence for Life Sciences” w Szwecji. Publikował w „Nature Genetics”, „Genome Research”, „Nature”, „Nucleid Acid Research”, „Nature Communications”, „Bioinformatics i Scientific Reports”. Liczba cytowań jego prac wynosi 15 345.