Dane i uprzedzenie

“Jesteś tym, co jesz” – to stwierdzenie zaskakująco trafnie podsumowuje proces uczenia sztucznej inteligencji

Amazon opracował oparte na SI narzędzie, które ocenia kandydatów do pracy. Szybko wyszło na jaw, że algorytm jest… seksistą i niżej punktuje CV, w których pada słowo “kobiecy” (np. “kobiecy klub szachowy”). Zaniżał też oceny kandydatek, które uczęszczały do żeńskich szkół.

Niestety, to nie jest odosobniony przykład „uprzedzonej” sztucznej inteligencji. Profesor Vicente Ordóñez z University of Virginia natknął się na podobny problem podczas tworzenia algorytmu do interpretacji obrazu. Zauważył, że zdjęcia kuchni są przez jego program częściej kojarzone z kobietami niż z mężczyznami. Joy Buolamwini z Massachusetts Institute of Technology przyjrzała się trzem systemom rozpoznawania twarzy dostarczanym przez Microsoft, IBM i Megvii. Ich skuteczność sięgała 99 proc., ale tylko w przypadku białych mężczyzn. W odniesieniu do czarnoskórych kobiet spadała nawet do 35 proc.

We wszystkich przypadkach przyczyna była ta sama: dane wejściowe. Aby algorytmy SI mogły pełnić swoją rolę, muszą być najpierw wytrenowane na pokaźnej bazie danych, dzięki której “nabierają doświadczenia” (np. w przypadku SI Amazona były to CV kandydatów z ostatnich dziesięciu lat, z kolei profesor Ordóñez używał wielkich repozytoriów otagowanych zdjęć z zasobów Google’a i Facebooka). Algorytmy analizują te dane i uczą się w nich rozpoznawać ukryte, nieoczywiste prawidłowości.

Problem zaczyna się wtedy, kiedy pracują na „stronniczych” danych. Okazało się, że w bazie CV, na której pracował algorytm Amazona, zdecydowana większość kandydatów to mężczyźni. Z kolei zdjęcia, z których korzystał program profesora Ordóñeza, bardzo często powielały stereotypy podziału ról – czynności takie jak sprzątanie czy gotowanie były znacznie częściej wykonywane przez kobiety. Podobnie było w trzecim przypadku: badania pokazują, że osoby widniejące na zdjęciach w ogólnodostępnych repozytoriach to w 75 proc. mężczyźni, z czego 80 proc. jest rasy białej.

Algorytm przyjmuje dane wejściowe z dobrodziejstwem inwentarza, traktuje je jak normę i punkt odniesienia, na nich buduje swój wewnętrzny język. Jeśli przedstawi mu się skrzywiony obraz rzeczywistości, rezultat będzie obarczony błędem. Efekt? Seksistowska sztuczna inteligencja, która uważa, że miejsce kobiety jest w kuchni.

SI nie jest zatem z gruntu obiektywna. Na ironię zakrawa fakt, że wprowadzenie automatyzacji opartej na SI w najróżniejsze procesy (jak np. rekrutacja pracowników) jest często tłumaczone właśnie potrzebą obiektywizmu, którego brak ludziom.

„Uprzedzone” algorytmy to bardzo poważny problem także dlatego, że funkcjonują na zasadzie czarnej skrzynki – nie zawsze mamy możliwość weryfikowania ich wyników, a firmy, które je dostarczają, niechętnie dzielą się informacjami o działaniu swoich programów.

SI jest coraz bardziej obecna w naszym życiu i – czy tego chcemy, czy nie – decyduje o coraz większej jego części. Programy wspierane przez SI są coraz popularniejsze w medycynie, systemie sprawiedliwości, administracji. Dlatego tak ważne jest, aby ich twórcy nie przenosili na nie (świadomie czy nie) uprzedzeń i stereotypów.