Nowe sztuczki dla sztywnych algorytmów

Dotychczas sztuczna inteligencja była elastyczna jak stulatek z lumbago. Ale pojawił się MER, nowy program IBM…

Co chwilę słyszymy o sztucznej inteligencji wykonującej zadania wcześniej będące domeną ludzi. Algorytmy grają w go, StarCrafta II czy Super Mario. Radzą sobie świetnie. Ich słabością jest zmiana. Jeśli przestawimy coś w parametrach zadania, jeśli nowe okoliczności jego wykonywania będą różnić się choć minimalnie od wyuczonych przez maszynę, SI sobie z tym nie poradzi. A to dlatego, że nie ma elastyczności ludzkiego mózgu, która pozwalałaby bazować na zdobytej wiedzy, zmodyfikować ją i wykorzystać do zmierzenia się z nowym wyzwaniem.

Kiedy wyszkolona sieć neuronowa uczy się nowej umiejętności, zachodzi coś, co badacze SI nazywają katastrofalnym zapominaniem (catastrophic forgetting, catastrophic interference) – wcześniejsza wiedza jest zastępowana nową.

Naukowcy podejmują próby zmierzenia się z tym problemem. Badacze z Massachusetts Institute of Technology (MIT) sprawdzali, jak radzi sobie z tego rodzaju problemami ludzki mózg, z kolei zespół z należącego do Google’a DeepMind stworzył mechanizm, który pozwala algorytmom zachować coś w rodzaju wspomnień.

Sposoby, którymi dotychczas radzono sobie z katastrofalnym zapominaniem, skupiały się przede wszystkim na ochronie już zdobytej wiedzy. Jak zauważa członek zespołu Matthew Riemer, zamiast powstrzymać algorytm przed zapominaniem, lepiej nauczyć go adaptować się do nowej sytuacji.

To kolejny krok na drodze do bardziej elastycznej, uczącej się podobnie jak człowiek sztucznej inteligencji, która potrafi adaptować się do sytuacji i uczyć się samodzielnie, bez nadzoru człowieka

Rezultaty osiągnięte przez zespół IBM to krok w tę stronę. Badacze opracowali algorytm o nazwie MER (Meta-Experience Replay), który uczy się w taki sposób, że gdy warunki wykonywania zadania się zmienią, zdobyta wiedza i umiejętności zostaną „przekazane” do wykonania nowego zadania.

„Podejścia, które zakładają jedynie ustabilizowanie ciągłego uczenia przez redukcję ‘zapominania’, rozwiązują tylko połowę problemu. Dlatego łatwo stworzyć środowisko, w którym te rozwiązania zawiodą” – pisze Riemer w nieopublikowanym poście na blogu, do którego dotarł portal Futurism.

Różnica w podejściu zespołu z MIT-IBM Watson AI Lab polega na tym, że kiedy okoliczności się zmieniają, wcześniejsza wiedza i doświadczenie są wykorzystane do wykonania nowego zadania, zamiast w tym przeszkadzać.

Naukowcy zaprezentowali działanie nowego algorytmu na prostej grze Flappy Bird. Zadaniem gracza jest utrzymanie w powietrzu ptaka lecącego przez znajdujące się na różnej wysokości prześwity.

Na etapie uczenia algorytmu zespół stopniowo zmieniał parametry zadania – skracał odległości między prześwitami. Po każdej „sesji szkoleniowej” program miał za zadanie przejść grę, znów z coraz mniejszymi odległościami między prześwitami.

Gdyby zaszło zjawisko katastrofalnego zapominania, algorytm po opanowaniu kolejnych etapów trudności „zapominałby” jak radzić sobie z poprzednimi. Tymczasem MER mimo uczenia się gry w coraz trudniejszych warunkach, wciąż dobrze radził sobie z początkowymi etapami.

W podobny sposób uczą się ludzie. Osoba, która dobrze radzi sobie na wysokim poziomie trudności, nie będzie miała problemu w przejściu wcześniejszych etapów.

To kolejny krok na drodze do bardziej elastycznej, uczącej się podobnie jak człowiek sztucznej inteligencji, która potrafi adaptować się do sytuacji i uczyć się samodzielnie, bez nadzoru człowieka. Na końcu tej drogi jest tzw. ogólna sztuczna inteligencja.