Regresja liniowa to kolejny sposób nadzorowanego uczenia maszynowego. Pokazuje nam jaki wpływ mają na siebie dwie zmienne. Zmienne to jakieś dane, np. czas i kwota zakupu i nazywamy je danymi wejściowymi. Aby wytłumaczyć regresję liniową, wrócimy do naszego internetowego sklepu odzieżowego.
Chcemy sprawdzić, czy czas spędzony na stronie sklepu ma wpływ na ilość wydanych w nim pieniędzy. Na poniższym wykresie umieściliśmy te informacje o ośmiu osobach, które u nas dokonały zakupów. Wprowadziliśmy kwoty i dokładny czas potrzebny im na zakupy w minutach (jedna kropka to jeden klient):
Można zauważyć, że klient, który był na stronie przez 5 minut nic nie kupił. Z kolei klienci, którzy przeglądali naszą stronę od 20 do 25 minut dokonali zakupów w kwocie od 250 do 350 zł.
Drugą, ważną rzeczą, którą możemy zauważyć na tym wykresie to trend. Trend pokazuje nam pewną zasadę. Przedstawia go linia, którą przeprowadzimy tak, żeby przebiegała w pobliżu kropek:
Możemy na tej podstawie wyciągnąć wniosek, że im dłużej klienci oglądają zawartość naszego sklepu, tym chętniej kupują. Można nawet pójść dalej: jeśli będą oglądali jeszcze dłużej, to ich zakupy będą na jeszcze wyższe kwoty.
Regresja liniowa pozwala na przewidywanie wielu związków między pewnymi danymi. Linia trendu pomaga przewidzieć, co się będzie działo dalej, jednak nie można ufać jej w 100%. Dane na wykresach wymyśliliśmy na potrzeby wytłumaczenia tego algorytmu i nie są prawdziwe. W rzeczywistości nie tylko czas spędzony na stronie sklepu ma wpływ na kwoty zakupów naszych klientów. Wpływ na to ma także ich nastrój, dostępne finanse, potrzeby zakupu nowych ubrań i wiele innych. Te, które znamy, możemy umieścić w regresji, bo regresja może sprawdzać powiązania wielu zmiennych. Ale nie znamy wszystkich zmiennych, np. nastroju kupującego albo jego stanu pieniędzy na koncie.
Regresja liniowa – przypadek 2
Prowadząc butik internetowy dzięki regresji liniowej możemy przewidywać inne, ważne dla nas rzeczy. Załóżmy, że chcemy wykupić reklamę naszego sklepu. Zanim to zrobimy, chcemy trafić w dobrą grupę odbiorców. Przygotowaliśmy dla klientek ankietę, która dała nam informacje na temat ich wieku i wielkości miast, w których mieszkają. Następnie wprowadziliśmy te informacje na wykres:
Najwięcej klientek sklepu jest w przedziale wiekowym 18 – 25 lat. Wszystkie klientki w tym wieku mieszkają w mieście, które ma więcej niż milion mieszkańców. Pozostałe klientki, w wieku około 32 lat także mieszkają w dużym mieście.
Choć w tym przypadku ciężko narysować linię trendu, to można wyciągnąć taki wniosek: musimy skierować reklamę naszego sklepu do pań w wieku 18-32, mieszkających w dużych miastach. Możemy oczywiście do pozostałych grup, co pozwoli nam pozyskać nowe klientki. Wiemy jednak, że te grupy kupują nasze produkty najchętniej.
Regresję liniową stosuje się np. do przewidywania liczby kliknięć w reklamę internetową, dzięki temu możemy przygotować się na jej koszty. Regresja pozwala także przewidzieć zapotrzebowanie na towary w sklepie albo nasze zarobki ze sprzedaży w sieci, a nawet ceny mieszkań czy domów w danym mieście.
Uczenie maszynowe jest bardzo pomocnym narzędziem. Pozwala zaoszczędzić nam czas i pieniądze. Opisane przez nas metody i algorytmy są kroplą w morzu, obecnie istnieją tysiące innych technik uczenia maszynowego. Wszystkie jednak pozwalają odkryć pewne zależności między danymi i cechy wspólne przedmiotów albo zjawisk. Pamiętajmy też, że pewnych rzeczy maszyna będzie uczyła się szybciej i lepiej niż ludzie, ale są takie problemy, z którymi nie radzi sobie tak dobrze, jak my. Np. pismo odręczne (jeśli uważamy, że maszyna kompletnie tego nie potrafi, spróbujmy przeczytać receptę od swojego lekarza).