Sztuczna inteligencja z prędkością światła

Fotonika, czyli wykorzystanie fotonów zamiast elektronów, może przyspieszyć uczenie maszynowe nawet stukrotnie, twierdzą naukowcy z George Washington University

Tensor Processing Unit (TPU) czyli „układ przetwarzający tensor” to przyspieszający obliczenia układ scalony opracowany przez Google specjalnie do uczenia maszynowego sieci neuronowych. TPU stworzono w 2015 roku do użytku wewnętrznego, trzy lata później udostępniono. Wykorzystywane są do obsługi stworzonego przez giganta oprogramowania TensorFlow.

To tylko jeden z wielu rodzajów akceleratorów, czyli układów przyspieszających obliczenia – czasem nawet dziesięciokrotnie. Podobnie działają karty graficzne.

Głównym ograniczeniem w układach scalonych jest konieczność przenoszenia danych między procesorem, który obliczenia wykonuje, a pamięcią, gdzie przechowywane są dane. Przenosić je trzeba bezustannie, miliony razy na sekundę, co zużywa energię (a nawet całkiem sporo energii). Nie jest to też zbyt wydajny proces, bo płynący prąd (jeśli nie płynie w nadprzewodniku) zawsze napotyka opór i zamienia się w ciepło. W dużych serwerowniach jest go całkiem niemało, wielkie centra obliczeniowe wymagają zaś specjalnego chłodzenia.

Sztuczna inteligencja, która wymaga przetwarzania wielkiej ilości danych, jest zaś szczególnie energożerna. Powstało nawet narzędzie, które pozwala obliczyć ile węgla (lub innych paliw) poszło w komin, by mógł powstać dany algorytm SI.

Rozwiązaniem tych problemów jest fotonika, czyli wykorzystanie fotonów światła zamiast elektronów (czyli prądu elektrycznego). Nie jest to nowa dziedzina, bo za jej początki można uznać wynalezienie lasera w latach 60. ubiegłego wieku. Lasery pozwalają generować światło o bardzo dużych częstotliwościach fali, co teoretycznie pozwala na przesyłanie znacznie większej ilości informacji niż w przypadku elektroniki wykorzystującej prąd. Niestety nie ma jeszcze odbiorników, które potrafiłyby rejestrować tak szybkie zmiany amplitudy i fazy fal światła (rejestrują jedynie średnią wartość mocy w czasie znacznie krótszym od oscylacji fali).

Odkryliśmy, że zintegrowane platformy z pamięcią optyczną mogą wykonywać te same operacje, co układy TPU, ale z większą wydajnością i przy ułamku zużycia energii
Mario Miscuglio

Można jednak wykorzystać światło do samego przechowywania danych. Jak się okazuje, to bardzo dobry sposób na przyspieszenie obliczeń. Zespół badaczy z amerykańskiego George Washington University w Waszyngtonie opublikował niedawno w „Applied Physics Reviews” pracę, w której opisuje swoje nowatorskie i bardzo skomplikowane technologicznie rozwiązanie.

Opisywany przez badaczy fotoniczny akcelerator TPU ich konstrukcji, przechowuje dane w formie optycznej w specjalnie do tego celu skonstruowanym materiale. Reszta (czyli obliczenia) odbywają się tradycyjnie, w odpowiednio dostosowanym obwodzie elektronicznym.

Rozwiązanie technologicznie skomplikowane, ale niezwykle skuteczne. Taki TPU okazał się o dwa do trzech rzędów wielkości – czyli od dziesięciu do stu razy – szybszy od elektronicznego. „Odkryliśmy, że zintegrowane platformy z pamięcią optyczną mogą wykonywać te same operacje, co układy TPU, ale z większą wydajnością i przy ułamku zużycia energii” – pisze Mario Miscuglio, jeden z autorów pracy, w komunikacie prasowym Amerykańskiego Instytutu Fizyki (który jest wydawcą „Applied Physics Reviews”).

Badacze twierdzą, że rozwiązanie przyda się zwłaszcza tam, gdzie dane i tak istnieją już w formie fali świetlnej – sygnałów z cyfrowych aparatów, kamer czy czujników. Może znaleźć zastosowanie w centrach obliczeniowych, gdzie pozwoli na zaoszczędzenie obliczeń (i energii), czy w sieci 5G.

Trzeba przy tym zaznaczyć, że stukrotnie szybsze sieci neuronowe to na razie obietnica – to co sprawdza się w laboratoriach nie zawsze trafia do masowej produkcji. Ale duże firmy przetwarzające dane mogą być zainteresowane oszczędnością energii – płacą przecież olbrzymie rachunki za prąd.

Google oficjalnie podaje, że jego centra obliczeniowe zużywają ponad pół tysiąca gigawatów mocy (to sto razy więcej niż moc największej w Polsce elektrowni Bełchatów), przy czym firma chwali się, że jej serwery są bardzo energooszczędne i zużywają o połowę mniej energii niż średnia w branży przetwarzania danych. Wszystkie centra obliczeniowe na świecie potrzebują już, jak się szacuje, 200 terawatogodzin (TWh) energii rocznie – to nieco więcej niż zużywamy w Polsce (170 TWh).