Dane a sprawa polska – Sztuczna Inteligencja

To dane, a nie paliwa kopalne, są surowcem nowoczesnej gospodarki
Cyfrowa Europa stawia na sprawiedliwość, jawność i zaufanie
Polskie problemy: luki w prawie, niewiedza, chaos w instytucjach

Każda gospodarka potrzebuje surowców, także cyfrowa. Dziś to dane są odpowiednikiem ropy czy węgla, umożliwiającym przedsiębiorcom tworzenie nowych rozwiązań, produktów i usług. Jednak w przeciwieństwie do zasobów naturalnych danych nie ubywa. Odwrotnie: wszystkie cyfrowe narzędzia wytwarzają ich coraz więcej. Kłopot w tym, że ten nowy surowiec, choć występuje obficie, bywa trudny do pozyskania.

Paliwo dla algorytmów

Dane powstają w wielu miejscach naraz, a ich efektywne wykorzystanie wymaga istnienia wydajnego systemu. Od sposobu funkcjonowania tego systemu zależy konkurencyjność gospodarki i tempo rozwoju cyfrowych technologii. Nigdzie nie widać tego wyraźniej niż w przypadku sztucznej inteligencji.

Uczenie maszynowe byłoby niemożliwe bez dużych zbiorów danych. SI potrzebuje ich, by nabywać nowe umiejętności, jak na przykład rozpoznawanie mowy czy obrazu. I po to, by odnajdywać niewidoczne dla człowieka związki.

Najszybciej rozwijające się gospodarki cyfrowe swobodnie korzystają z olbrzymich zbiorów danych i dbają o to, by były one jak najwyższej jakości. W Chinach działają tzw. fabryki danych, w których pracownicy etykietują dane potrzebne do rozwijania systemów uczenia maszynowego. To tak zwane dane referencyjne, niezbędne w procesie uczenia nadzorowanego (supervised learning). W praktyce chodzi o to, by system SI miał punkt odniesienia i wiedział, że określony zbiór zdjęć przedstawia np. koty. Temu służy właśnie etykietowanie danych.

– Możemy mieć dużo surowych danych, ale naprawdę istotne jest to, żeby na początku były one sensownie analizowane przez człowieka i tworzyły dane referencyjne. Na ich podstawie będzie można tworzyć modele oparte o sztuczną inteligencję – mówił podczas konferencji „Przyszłość sztucznej inteligencji w Polsce” dr Jakub Nalepa z Politechniki Śląskiej. – Wymaga to współpracy ze szpitalami, z fizykami medycznymi czy z radiologami, co jest bardzo kosztowne. Należy o tym pamiętać, jeżeli chcemy tworzyć dobre systemy oparte o SI.

Cyfrowa wieża Babel

Dane to jednak pojęcie abstrakcyjne, często występujące w ogólnych kontekstach. W rzeczywistości mamy do czynienia z ich różnymi rodzajami, źródłami pochodzenia, formatami zapisu czy zastosowaniami.

Najbardziej ogólny podział wyróżnia dane publiczne (bądź pozyskane dzięki środkom publicznym) i prywatne. Dane publiczne są zawarte przede wszystkim w rejestrach, ewidencjach czy archiwach. Są wśród nich choćby dane statystyczne, finansowe czy dotyczące środowiska. Z kolei dane pozyskane ze środków publicznych to przede wszystkim dane badawcze, wygenerowane dzięki finansowaniu nauki z budżetu państwa.

W przypadku danych publicznych powszechne jest oczekiwanie, by były one dostępne zgodnie z ośmioma filarami dostępności:

dostępne dla każdego do wykorzystania w dowolnym celu (komercyjnym i niekomercyjnym);
zaktualizowane;
kompletne;
dające się przetwarzać maszynowo;
bez ograniczeń licencyjnych;
bez konieczności rejestracji i weryfikacji tożsamości;
w oryginalnej formie;
w powszechnie stosowanych formatach.

Z kolei udostępnienie danych z sektora prywatnego (np. na temat konsumentów czy dotyczących pracy urządzeń przemysłowych) nie może być wymuszone. Instytucje promujące gospodarkę opartą na danych zachęcają jednak przedsiębiorstwa do większej otwartości w tym zakresie. Przekonują, że byłoby to korzystne dla rozwoju cyfrowej gospodarki poprzez zwiększanie szans małych i średnich przedsiębiorstw oraz start-upów.

Obie grupy często nie mają dostępu do takich danych, którymi dysponują korporacje. Orędownicy otwierania danych prywatnych przekonują, że nie musi się to równać ujawnieniu informacji wrażliwych (np. gwarantujących firmie przewagę konkurencyjną).

Demokratyczna sztuczna inteligencja

Unia Europejska dąży do utworzenia na Starym Kontynencie jednolitego rynku cyfrowego. To pomysł, który umożliwiałby transgraniczną cyfrową gospodarkę na podobnych zasadach, jak pozbawiona granic gospodarka tradycyjna.

Komisja Europejska podkreśla, że integracja europejskiego rynku to warunek konieczny, by sprawniej tworzyć technologiczne innowacje w Europie i rozwijać gospodarkę opartą na danych. To zaś wymaga utworzenia wspólnej dla całego kontynentu przestrzeni danych. Unia chce realizować tę strategię równolegle z rozwojem SI, oba zadania są bowiem od siebie zależne.

Największą ambicją Europy jest zrównoważony rozwój nowych technologii: europejska SI ma być etyczna i demokratyczna, czyli dawać szanse nie tylko największym graczom w biznesie, ale przede wszystkim małym i średnim przedsiębiorstwom oraz start-upom. Stąd właśnie wynika hasło demokratyzacji sztucznej inteligencji, czyli jej szerokiego udostępniania. Takie działanie wymaga jednak zmian na rynku danych, co z wielu względów nie jest łatwe.

Wyzwania, czyli co trzeba zrobić

Co to znaczy, że żyjemy dziś w erze Big Data, czyli wielkich danych? Najlepiej tłumaczą to trzy właściwości po angielsku określane jako „3V”:

objętość (volume) – danych jest dziś więcej niż kiedykolwiek wcześniej w historii świata. Szacuje się, że w 2020 roku każda osoba na Ziemi będzie co sekundę generować 1,7 MB danych (to odpowiednik około 850 stron znormalizowanego tekstu, bez ilustracji);
prędkość (velocity) przyrostu – dane rosną wykładniczo: w roku 2017 aż 90 procent wszystkich danych stanowiły te powstałe w ciągu wcześniejszych dwóch lat;
różnorodność (variety) – dane są dziś zróżnicowane pod względem zawartości i formatów, w których zostały zapisane.

Z tych właściwości wynika wiele problemów, przede wszystkim natury technicznej.

Po pierwsze, dane bywają nieustandaryzowane, to znaczy w różnych miejscach są zapisywane w różnych formatach czy konwencjach (na przykład skan zamiast formatu dynamicznego uniemożliwia automatyczną aktualizację danych oraz ich mechaniczny odczyt).

Po drugie, dane bywają niezintegrowane, czyli są rozproszone w różnych bazach, przez co niemożliwy jest dostęp do całości z jednego punktu.

W Chinach działają tzw. fabryki danych, w których pracownicy etykietują dane potrzebne dla rozwijania systemów uczenia maszynowego

Ale wyzwania techniczne to nie wszystko. Oprócz nich napotykamy też szereg innych problemów związanych z:

prawem (dotyczące tego, kto i na jakich zasadach może korzystać z danego zbioru);
polityką (związane z regulacjami dotyczącymi udostępniania i przechowywania informacji);
biznesem (dotyczące ryzyka biznesowego związanego z udostępnianiem danych);
bezpieczeństwem (dotyczące przeciwdziałania nieuprawnionym wyciekom danych);
mentalnością (na przykład związane z oporem społecznym przed udostępnianiem danych wrażliwych – choćby dokumentacji medycznej).

W kwietniu 2018 roku Komisja Europejska opracowała zestaw środków mających zwiększyć dostępność danych w Unii. Po raz pierwszy uwzględniono różne rodzaje danych (publiczne, prywatne i naukowe) w ramach jednej spójnej polityki. Dane muszą być wykorzystywane zgodnie z dyrektywą w sprawie otwartych danych i informacji sektora publicznego, jak również szanować zapisy ogólnego rozporządzenia o ochronie danych (RODO).

Kenneth Cukier, dziennikarz „The Economist” i współautor książki „Big Data: A Revolution that Will Transform How We Work, Live and Think”, opowiada o znaczeniu Big Data.
Źródło: TED

Z kolei w kwietniu bieżącego roku zaktualizowano dyrektywę w sprawie otwartych danych i informacji publicznych. Państwa członkowskie będą miały dwa lata na wdrożenie zmienionych przepisów. Komisja zamierza ustalić wspólnie zbiory danych o wysokiej wartości społeczno-gospodarczej, które będą dostępne w całej Europie.

Polska blisko średniej

Jak rynek danych wygląda nad Wisłą? We wrześniu 2016 roku Rada Ministrów przyjęła uchwałę w sprawie ustanowienia „Programu otwierania danych publicznych” (PODP). Program określa działania państwa na rzecz zwiększenia otwartości danych publicznych, a jego głównym celem jest poprawa jakości oraz zwiększenie ilości danych dostępnych w portalu danepubliczne.gov.pl.

Portal działa od maja 2014 roku, pełniąc funkcję Centralnego Repozytorium Informacji Publicznej. Umożliwia wyszukiwanie w jednym miejscu ważnych informacji dotyczących gospodarki i społeczeństwa. Zgodnie z PODP ma być to główny punkt dostępu do danych publicznych w Polsce.

Zgodnie z raportem Open Data Maturity in Europe 2018, opublikowanym przez European Data Portal, Polska zajmuje 13. miejsce pod względem otwartości danych wśród wszystkich państw członkowskich UE. Tym samym lokujemy się w najliczniejszej grupie państw szybko wprowadzających zmiany, przed którymi jest tylko pięciu liderów wskazujących kierunek (trendsetters), czyli Irlandia, Hiszpania, Francja, Cypr i Włochy. Nasz ogólny wynik wynosi 65,8 procent i jest niewiele wyższy od średniej unijnej (65 procent).

Jeśli chodzi o poszczególne wskaźniki oceniane w badaniu, to najlepiej wypadamy pod względem polityki otwartości (82 proc.). Dość wysoko oceniono też portal służący udostępnianiu danych (63 procent) oraz jakość danych (62 procent). Najgorzej wygląda oddziaływanie otwartych danych. Choć ogólny wynik wynosi 50 procent, w przypadku oddziaływania gospodarczego jest to już tylko 31 proc.

Przeszkody: wątpliwości i niewiedza

Wśród największych barier związanych z publikacją danych raport wskazuje przede wszystkim wątpliwości prawne dotyczące udostępniania niektórych rodzajów danych, a także zmiany organizacyjne w instytucjach i brak ciągłości lub dostępu do danych. Poważnym problemem jest również brak wystarczającej wiedzy na temat standardów technicznych wymaganych przy publikacji danych.

W praktyce może to oznaczać, że urzędy gromadzą dane w formatach źródłowych niezgodnych z wytycznymi PODP. Dane mogą być też rozproszone w obrębie jednej instytucji, a to nie sprzyja ich integracji i agregowaniu.

Z kolei główne przeszkody utrudniające ponowne wykorzystanie danych to niska świadomość ich potencjału wśród administracji publicznej oraz niejasności prawne co do statusu (poufność, prywatność, dane osobowe) niektórych typów danych. Podmioty, które mogłyby skorzystać z danych, mogą w ogóle nie wiedzieć o takiej możliwości lub po prostu wstrzymywać się z korzystaniem z nich, ze względu na obawy dotyczące zasad powtórnego wykorzystywania danych.

Jako przykład dobrych praktyk autorzy raportu wskazali m.in. platformę Prześwietl.pl, która dzięki automatycznemu dostępowi do ponad 50 rejestrów stanowi całościową, na bieżąco aktualizowaną bazę polskich firm i przedsiębiorców.

Konkurencyjność Europy

– Różne gospodarki świata zrozumiały, że w zakresie technologii cyfrowych nie mogą sobie pozwolić na to, by opisała je konkurencja – mówił podczas konferencji Cyber Academy mec. Robert Kroplewski z Ministerstwa Cyfryzacji. – Muszą same się zdefiniować.

Europa stawia na e-gospodarkę definiowaną przez etykę i wartości demokratyczne: sprawiedliwość, jawność i zaufanie. To człowiek ma być w jej centrum. Dzięki temu europejski model może być atrakcyjną alternatywą dla dominujących dziś w gospodarce sieciowej globalnych monopoli, w których kryteriami rozstrzygającymi o zwycięstwie pozostają siła, prędkość i zysk.

Włodarze Europy chcą przekonać świat, że można inaczej gospodarować danymi i sztuczną inteligencją: efektywnie i nowocześnie, ale też odpowiedzialnie i z poszanowaniem praw człowieka.

Może się uda?

Piotr Sobecki, kierownik Laboratorium Stosowanej Sztucznej Inteligencji w OPI PIB

Problemem jest brak regulacji prawnych odnośnie do tego, w jaki sposób dane mogą być zbierane, muszą być zanonimizowane i w jaki sposób umożliwić ich udostępnianie i wykorzystywanie do celów badawczo-rozwojowych (np. dokumentacja medyczna). Potrzebne jest działanie „od góry” na poziomie ministerialnym i metodyczne podejście do problemu.

Polska (rząd) powinna podjąć decyzję co do celu zbierania i udostępniania zbiorów danych. Nie ma sensu stawać do wyścigu pod względem ilości agregowanych danych z różnych sektorów gospodarki – tej rywalizacji nie wygramy na arenie międzynarodowej. Naszym narodowym atutem może być jakość danych – to od jakości danych zależy jakość rozwiązań, które mają być tworzone w oparciu o ich analizę.

Źródła:
Open Data Maturity in Europe 2018
Raport nt. rezultatów wdrażania Programu Otwierania Danych Publicznych
Otwieranie danych. Podręcznik dobrych praktyk