Potrzebujemy ambitnych badaczy i projektów

Prof. Przemysław Kazienko: By się liczyć w SI, musimy być widoczni, mieć więcej naukowców i projektów badawczych

Przedstawiam moją autorską analizę i pomysły związane z możliwościami szybszego rozwoju sztucznej inteligencji w Polsce.

I. Kluczowe problemy ograniczające rozwój SI w Polsce

Po pierwsze: za mało naukowców i doktorantów z zagranicy

Najbardziej zaawansowane badania w dziedzinie sztucznej inteligencji (a szerzej – informatyki) prowadzone są w Stanach Zjednoczonych. Na drugim miejscu wymieniłbym najlepsze uniwersytety Europy Zachodniej, a na trzecim niektóre ośrodki w Azji, zwłaszcza w Singapurze i Chinach. Polacy pozostają w tyle za najlepszymi zespołami z tych ośrodków.

Z naszych badań nad efektywnością grantów Narodowego Centrum Nauki wynika, że najbardziej efektywne (średnio) są projekty realizowane we współpracy z zagranicą (program NCN Harmonia). Liczba współautorów z zagranicy w pracach powstających w Polsce jest także na niezbyt dużym poziomie.

Po drugie: za mało międzynarodowych projektów badawczych

Przykłady? Polskie zespoły pozyskały mniej niż 1 procent środków w ramach programu H2020 [unijny Horyzont 2020 – red.], a w jego ramach alokowano już około 35 miliardów euro.

Wśród projektów w ramach H2020 informatyka i telekomunikacja (ICT) radzi sobie relatywnie najlepiej. Podobnie było w programie FP7 [7 Program Ramowy w zakresie badań i rozwoju technologicznego].
Polskie zespoły pozyskały tylko 27 projektów ERC3 [ERC: European Research Council ], głównie Starting Grants, przy czym aż 5 z nich jest w dziedzinie informatyki [PE6 – unijny grant dotyczący nauk inżynieryjnych]. Polska informatyka posiada najwięcej projektów ERC spośród wszystkich dziedzin. Dla porównania, Szwajcaria pozyskała 581 projektów (33 z informatyki), zaś Izrael – 482 (48 z informatyki).
Mało jest projektów informatycznych, w tym ze sztucznej inteligencji, realizowanych dla zagranicznych podmiotów (firm lub organizacji międzynarodowych takich jak NATO).
Bodaj żaden polski zespół nie realizuje międzynarodowego projektu badawczego w dziedzinie sztucznej inteligencji w ramach programu CHIST-ERA (program obejmuje tematykę Analog Computing for Artificial Intelligence i Smart Distribution of Computing in Dynamic Networks – SDCDN).

Po trzecie: słaba widoczność za granicą

Dokonania polskich zespołów są często źle upowszechniane – na konferencjach lub w czasopismach o małym zasięgu. W efekcie cytowalność polskich prac jest stosunkowo niska. Przykłady:

Na konferencji KDD (the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining) na 3102 artykułów opublikowanych tylko 8 prac miało autorów z polską afiliacją. Dla porównania, z Czech są tam 2 prace, z Hiszpanii – 44, zaś ze Słowenii – 95.
Na konferencji NIPS (Conference on Neural Information Processing Systems) opublikowano tylko 4 prace polskich autorów spośród 7261.
Na konferencji ICDM (The IEEE International Conference on Data Mining) opublikowano 22 polskie prace na łącznie 3129.

Na konferencjach o nieco mniejszej renomie i rozpoznawalności idzie nam trochę lepiej:

Na konferencji ECML PKDD (The European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases – europejska, gorsza edycja konferencji KDD) opublikowano 65 polskich artykułów na łącznie 2851.
Na konferencji ASONAM (The IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining) publikacji doczekało się 31 polskich prac na łącznie 1615.

Mamy dobrych programistów serwisów internetowych, gier czy systemów ERP, ale niewiele talentów udaje się ukierunkować w stronę bardziej ambitnych projektów

Nie lepiej jest w przypadku najlepszych czasopism naukowych. Oto lista dziedzinowych czasopism o najwyższym współczynniku wpływu (impact factor, IF) w dziedzinie sztucznej inteligencji:

„Journal of Computer Vision” (IF=11,5): 2 prace z Polski na 2098 łącznie (z Czech jest tam 19 prac, z Hiszpanii 62, z Rumunii 4, ze Słowenii 6);
„IEEE Transactions on Pattern Analysis and Machine Intelligence” (IF=9,5): 7 prac z Polski wśród 5951;
„IEEE Transactions on Cybernetics” (IF=8,8): 14 prac z Polski na 1918;
„IEEE Transactions on Fuzzy Systems” (IF=8,4): 669 na 2563;
„IEEE Transactions on Evolutionary Computation” (IF=8,1): 27 na 1101;
„IEEE Transactions on Neural Networks and Learning Systems” (IF=8,0): 33 na 1957;
„Neural Networks” (IF=7,2): 29 na 4203;
„Information Fusion” (IF=6,6): 16 na 925.

Z przykrością trzeba zauważyć, że spora część wymienionych publikacji, często większość czasopismowych, pochodzi od polonusów, tj. naukowców polskiego pochodzenia na stałe pracujących za granicą, ale posiadających również polskie afiliacje.

Po czwarte: słaba interdyscyplinarność badań

Ze względu na brak tradycji, mentalność oraz brak poważniejszych rozwiązań systemowych i wspierających duża część badań z zakresu sztucznej inteligencji (a także informatyki) jest prowadzona tylko w zespołach informatyków.

Po piąte: słaba współpraca między ośrodkami

Zdecydowana większość prac badawczych jest prowadzona w zespołach działających w ramach jednej instytucji. Doktoratów realizowanych poza uczelnią, w której doktorant obronił pracę magisterską, jest niewiele. To uniemożliwia przepływ dobrych praktyk i rozwiązań, osłabia też starania o większe projekty przemysłowe i badawcze.

Po szóste: mała masa krytyczna, w tym – mało doktoratów realizowanych w dziedzinie sztucznej inteligencji

Sztuczną inteligencją zajmuje się stosunkowo niewiele osób (informatyków). Mamy dobrych programistów serwisów internetowych, gier czy systemów ERP, ale niewiele talentów udaje się ukierunkować w stronę bardziej ambitnych projektów, w tym projektów ze sztucznej inteligencji. O niedoborze w tej dziedzinie świadczy między innymi mała liczba zgłoszeń do konkursów na najlepszą pracę doktorską organizowanych przez Polskie Stowarzyszenie Sztucznej Inteligencji.

II. Proponowane rozwiązania i działania

Pokonanie ograniczeń, które wymieniłem, jest możliwe przez wdrożenie polityki stymulującej odpowiednie działania.

Dla zwiększenia liczby osób (naukowców) zajmujących się sztuczną inteligencją w Polsce:

Dedykowany krajowy program dla doktoratów ze sztucznej inteligencji, oferujący odpowiednie stypendia (np. takie, jak w projektach NCN, to jest 4500 złotych miesięcznie), rozdzielane w konkursie ogólnokrajowym z koniecznością realizacji części prac w innym polskim ośrodku i z obowiązkiem stażu zagranicznego.
Szeroki program stypendiów/nagród dla prac magisterskich w dziedzinie sztucznej inteligencji.
Programy medialne służące upowszechnieniu zagadnień sztucznej inteligencji w społeczeństwie.

Dla umiędzynarodowienia badań, poprawienia ich jakości i widoczności za granicą:

Program typu CHIST-ERA dla państw Grupy Wyszehradzkiej (lub Europy Centralnej), poświęcony sztucznej inteligencji. Finansowanie – ze środków NCN oraz analogicznych agencji z państw Grupy.
Szeroki program nagród dla polskich autorów publikacji z dziedziny sztucznej inteligencji (zatrudnionych na etacie w polskich ośrodkach). Program dotyczyłby tylko najlepszych konferencji międzynarodowych i czasopism naukowych.
Program zatrudniania naukowców z zagranicy w dziedzinie sztucznej inteligencji z ogólnokrajowym konkursem. Osobno dla młodych doktorów (post-doc), osobno dla profesorów i osobno dla naukowców gotowych spędzić w Polsce swój urlop naukowy. Do tego doszedłby wymóg krótkich pobytów w innych polskich ośrodkach.
Stworzenie Central-European Institute for Artificial Intelligence, grupującego m.in. najlepsze polskie zespoły, ale otwarte dla nowych grup. Środki na pozyskanie do tego centrum naukowców, w tym z Europy Środkowej i Wschodniej. Wymóg – minimum 50 procent naukowców z zagranicy. Finansowanie ze środków strukturalnych UE. Centrum to mogłoby być odpowiedzialne za wsparcie dla pozostałych wymienionych tutaj pomysłów, oczywiście z zachowaniem pełnej przejrzystości i otwartości. Dla ich zachowania przydatny byłby odpowiedni, najlepiej częściowo zagraniczny, Board of Trustees.
Stworzenie European Centre for Computational Processing of Slavic Languages, czyli centrum analizy i przetwarzania języków słowiańskich.
Program współpracy z polskimi naukowcami przebywającymi w dobrych ośrodkach zagranicznych, a zajmującymi się sztuczną inteligencją (także z przemysłowych ośrodków badawczych, np. Google), w tym: program doktorancki z wymogiem powrotu do Polski na zadany okres (także program Double PhD Diploma) i program visiting professors.

Dla wsparcia krajowej współpracy, interdyscyplinarności badań i współpracy z przemysłem (działania także częściowo zawarte w dodatkowych wymaganiach w wyżej wymienionych propozycjach):

Program dla interdyscyplinarnych projektów badawczych w dziedzinie sztucznej inteligencji, np. dedykowany program Symfonia (NCN) lub TEAM-NET (FNP).
Dedykowane programy dla start-upów (w tym BRidge Alfa, NCBiR) w dziedzinie sztucznej inteligencji.
Wsparcie dla platform współpracy polskiego przemysłu i nauki, np. dla platformy SciCup służące do organizowania otwartych konkursów analiz danych przemysłowych.

III. Obszary kompetencji i zespół badawczy

Kilkunastoosobowy zespół, którym kieruję, działa w ramach centrum ENGINE – The European Centre for Data Science, funkcjonującego głównie w ramach Katedry Inteligencji Obliczeniowej. Mamy kompetencje potwierdzone publikacjami w dobrych czasopismach, np. „Scientific Reports – Nature”, „Information Sciences” oraz na najlepszych międzynarodowych konferencjach naukowych (KDD, ECML PKDD, ASONAM). Te kompetencje obejmują następujące obszary związane ze sztuczną inteligencją:

analiza zjawisk społecznych, np. rozprzestrzeniania się informacji, dynamika opinii, manipulacje informacją itp.;
analiza mediów społecznościowych i mediów elektronicznych;
naukometria oraz obliczeniowa nauka o nauce (science of science), m.in. analiza efektywności nauk, projektów badawczych, identyfikacja perspektywicznych tematyk badawczych;
przetwarzanie i analiza sieci społecznych i sieci złożonych;Analiza tekstów języka naturalnego;
prewencyjne metody i algorytmy dla danologii (data science);
uczenie maszynowe, zwłaszcza dla danych złożonych i dynamicznych;
analiza sieciowych struktur danych, w tym z wykorzystaniem głębokiego uczenia maszynowego.

Zespół realizował kilka projektów europejskich (FP7, H2020), kilkadziesiąt projektów finansowanych przez Narodowe Centrum Nauki, Narodowe Centrum Badań i Rozwoju, Ministerstwo Nauki i Szkolnictwa Wyższego, a także kilkanaście finansowanych w pełni przez przemysł. Większość projektów miała charakter interdyscyplinarny, łącząc różne gałęzie gospodarki (finanse, telekomunikacja, produkcja, handel) oraz nauki (fizyka, nauki społeczne, medycyna, nauki ekonomiczne). Teraz zespół realizuje kilkanaście projektów o łącznej wartości ponad 30 milionów złotych.

Wszyscy członkowie zespołu odbywali bądź odbywają zagraniczne staże naukowe, zwłaszcza w dobrych uczelniach w USA (Stanford, UC, RPI, Notre Dame), Singapurze (NTU) i Australii (UTS).

W skład zespołu wchodzi także prof. Nitesh Chawla z University of Notre Dame (USA), realizujący u nas własny projekt NCN, oraz dr Suman Kundu z Indii (doktorat na Indian Statistical Institute), zatrudniony na etacie post-doc w ramach projektu NCN. W poprzednich latach zatrudnionych było kilkanaście osób spoza Polski, finansowanych przez projekt europejski (FP7).

Zespół jest mocno zaangażowany w nową specjalność magisterską: danologia (data science), która ma wiele wspólnego ze sztuczną inteligencją (np. uczenie maszynowe), choć nie jest z nią tożsama.

Tekst jest opracowaniem pracy prof. Przemysława Kazienki pt. „Rozwój sztucznej inteligencji w Polsce” (Wrocław 2018), przygotowanego dla OPI PIB.