Po nitce do kłębka, czyli na tropie tajemnicy białek

Sztuczna inteligencja coraz lepiej rozwiązuje jeden z trudniejszych problemów – zwijania się białek. Dlaczego to ważne? Wszyscy żyjemy właśnie dzięki białkom. I przez nie też chorujemy

Białka zbudowane są z prostszych cegiełek chemicznych, aminokwasów, które łączą się w długie i poskręcane nici. To sekwencja aminokwasów definiuje, jakie białko powstanie. Zbadanie tej kolejności jest dziś już stosunkowo łatwe. Wciąż niezmiernie trudne jest zaś określenie, jak dana białkowa nić się zwinie, czyli jaki kształt przybierze kłębek.

Tymczasem od tego zależy, czy białko będzie ułatwiającym komórkowe procesy enzymem, przekazującym sygnały receptorem, przeciwciałem reagującym na zewnętrznego wroga, wreszcie to, czy będzie do niego pasował dany związek chemiczny, na przykład lek. Nieprawidłowe zwijanie się białkowych nici jest z kolei powodem choroby Parkinsona i Alzheimera. Przybywa też dowodów, że może przyczyniać się do wielu innych schorzeń. W biologii określenie kształtu białka jest zatem bardzo cenne – a w medycynie kluczowe.

Po półwieczu badań znamy przestrzenne struktury około stu tysięcy różnych białek. Ale na jej określenie czeka w kolejce – to nie pomyłka – niemal sto milionów innych.

Białka i astronomiczne liczby

Budowę białkowej nici można badać na przykład za pomocą rentgenologii strukturalnej, czyli prześwietlając białko za pomocą promieniowania rentgenowskiego. Nie jest to jednak tania ani błyskawiczna metoda. Nowoczesne urządzenie kosztuje setki tysięcy euro, dane zbierane są przez czas od kilku godzin do kilku tygodni, kolejne tygodnie może zająć ich analiza. Istnieją także inne metody badania struktury białek, ale nie zmienia to podstawowego warunku. Badana próbka musi istnieć. Jeśli białko trudno uzyskać lub jest ono nietrwałe, to po prostu nie ma czego badać.

Po półwieczu badań znamy przestrzenne struktury około stu tysięcy różnych białek. Ale na jej określenie czeka w kolejce – to nie pomyłka – niemal sto milionów innych

Gdy pojawiały się pierwsze komputery, powstała nadzieja, że będzie można przewidzieć strukturę białka na podstawie kolejności aminokwasów. Niestety, szybko okazało się, że to niemożliwe. Łatwo uzmysłowić sobie, czemu. Jeśli założymy, że każdy aminokwas może się ułożyć na trzy różne sposoby (w lewo, na wprost albo w prawo), to przy stu aminokwasach liczba kombinacji wyniesie już 3¹⁰⁰. Jest to liczba astronomiczna i samo przejrzenie tylu kombinacji, by znaleźć właściwą, zajęłoby dłużej niż czas istnienia Wszechświata.

To przykład dla białka złożonego z raptem stu aminokwasów, ale wiele z nich składa się z kilkunastu lub kilkuset tysięcy.

Moc z domowych komputerów

Gdybyśmy chcieli pomóc w rozszyfrowywaniu struktury białek, możemy to zrobić na domowym komputerze. Program Folding@home polega na połączeniu mocy obliczeniowych wielu rozproszonych po świecie komputerów. Setki tysięcy łączą się z serwerami amerykańskiego Uniwersytetu Stanforda, pobierając stamtąd dane do obliczeń i przesyłając tam wyniki. Każdy może taki program zainstalować, a ponieważ wykorzystuje tylko nieużywane zasoby procesora, nie spowolni naszego komputera, będzie działał w tle.

To jeden z najstarszych projektów tak zwanych obliczeń rozproszonych i obecnie największy pod względem mocy obliczeniowej, która wynosi 98,7 petaflopsów (operacji zmiennoprzecinkowych na sekundę), porównywalnej z najpotężniejszymi superkomputerami na świecie.

AlphaFold bije konkurencję

Przewidzenie budowy białka z sekwencji aminokwasów jest na tyle dużym wyzwaniem, że zajął się nim gigant w dziedzinie sztucznej inteligencji. Pod koniec ubiegłego roku należąca do Google’a spółka DeepMind pokazała światu algorytm AlphaFold, który wykorzystywał dwie sprawdzone metody określania struktury białek. Okazał się lepszy od niemal stu konkurencyjnych rozwiązań i przewidział strukturę ponad połowy (25 z 43) białek. Jeśli wydaje nam się to niewiele, pomyślmy, że algorytm, który zajął drugie miejsce, trafnie przewidział strukturę tylko trzech. To dobrze ilustruje skalę trudności problemu.

AlphaFold wyszkolono na białkach o znanej sekwencji aminokwasów i strukturze. Na podstawie zgromadzonych danych w pierwszym kroku przewidywał odległości i kąty między poszczególnymi ogniwami białkowego łańcucha. W drugim zaś starał się zoptymalizować wstępnie przewidzianą strukturę pod kątem energii (w dużym uproszczeniu – im cząsteczki bardziej naprężone, tym więcej energii magazynują). Szkolenie algorytmu zajęło tygodnie, ale obliczenia zajmowały mu tylko kilka godzin.

Aminokwas z sąsiadami

Przełom pojawił się w kwietniu tego roku, gdy amerykański badacz opracował algorytm znacznie szybszy od AlphaFold. Mohammed AlQuraishi, biolog z bostońskiej Harvard Medical School, zbudował sieć neuronową, która otrzymała dane o sekwencji aminokwasów i znanych już strukturach białek. Na tej podstawie przewiduje nowe struktury z nieznanych sekwencji aminokwasów.

To podejście wykorzystuje sposób nieco podobny do tego, jak ludzie rozumieją słowa w zdaniu. Niezwykle istotny jest przecież ich kontekst, czyli bezpośrednie otoczenie. Algorytm AlQurashiego działa właśnie w ten sposób – przewidując strukturę białka nie na podstawie aminokwasów rozpatrywanych z osobna jeden po drugim, ale biorąc pod uwagę te, które w łańcuchu występują przed i po nim. Tu z kolei szkolenie wymaga miesięcy zbierania danych, ale za to uzyskanie odpowiedzi możliwe jest niezwykle szybko.

Co dwa lat odbywają się „igrzyska modelowania białek”, czyli konferencja CASP (od angielskiego Critical Assessment of protein Structure Prediction). W tegorocznej edycji algorytm AlQurashiego niestety miał problemy techniczne. Za to AlphaFold poradził sobie doskonale nawet z białkami o szczególnie trudnej strukturze.

Linia krzywa? To świetnie!

Jednak oba algorytmy już inspirują innych badaczy problemu struktury białek, którzy zapewne zmodyfikują swoje algorytmy i wykorzystają najbardziej skuteczne z poznanych technik. Do istniejących już sieci neuronowych można dodać nowe warstwy – zwykle więcej warstw pozwala na lepsze przetwarzanie danych, na czym opiera się tak zwane głębokie uczenie.

Do czasów AlphaFold postępy w obliczaniu struktury białek wyglądały na wykresach jak niezbyt stromo wznosząca się linia prosta. Dzięki algorytmowi DeepMind coś drgnęło i krzywa odchyliła się do góry. A to pozwala nieśmiało przypuszczać, że postęp w tej dziedzinie może stać się geometryczny.

Sztuczna inteligencja coraz śmielej zaczyna ukazywać nam to, co skrywa się za zasłoną przyszłości. Gdy będziemy mogli przewidzieć strukturę każdego białka, naprawić będzie można w zasadzie każdy organizm. Nie będzie przeszkód, by szybko tworzyć nowe, skuteczne leki, szczepionki czy przeciwciała skierowane przeciw konkretnym typom nowotworów. Ale zanim po nitce dojdziemy do kłębka, musimy jeszcze trochę poczekać.