PQStat
Statystyczne Oprogramowanie Obliczeniowe
Strona glowna



Liniowa regresja wieloraka

Polecenie:    

Statystyka
Modele wielowymiarowe
Regresja wieloraka

okno_regr_wielowym

Budowany model regresji wielorakiej pozwala na zbadanie wpływu wielu zmiennych niezależnych (X1,X2, . . . ,Xk) na jedną zmienną zależną (Y). Najczęściej wykorzystywaną odmianą regresji wielorakiej jest Liniowa Regresja Wieloraka. Jest ona rozszerzeniem modeli regresji liniowej opartej o współczynnik korelacji liniowej Pearsona. Zakłada ona występowanie liniowego związku pomiędzy badanymi zmiennymi. Liniowy model regresji wielorakiej przyjmuje postać:
wzor_model_reg_lin
gdzie:
Y - zmienna zależna, objaśniana przez model,
X1,X2, . . .Xk - zmienne niezależne, objaśniające,
β12, . . .βk - parametry,
ε - składnik losowy (reszta modelu).

Jeśli model został stworzony w oparciu o próbę o liczności n powyższe równanie można przedstawić w postaci macierzowej:
wzor_model_reg_lin1
gdzie:
wzor_model_reg_lin2
Rozwiązaniem równania jest wówczas wektor ocen parametrów β12, . . .βk nazywanych współczynnikami regresji:
wzor_model_reg_lin3
Współczynniki te szacowane są poprzez klasyczną metodę najmniejszych kwadratów. Na podstawie tych wartości możemy wnioskować o wielkości wpływu zmiennej niezależnej (dla której ten współczynnik został oszacowany) na zmienną zależną. Podają o ile jednostek zmieni się zmienna zależna, gdy zmienną niezależną zmienimy o 1 jednostkę. Wielkość tego błędu wyliczana jest ze wzoru:
wzor_model_reg_lin4
gdzie:
wzor_model_reg_lin5 to wektor reszt modelu (różnica pomiędzy rzeczywistymi wartościami zmiennej zależnej Y a wartościami przewidywanymi wzor_model_reg_lin6 na podstawie modelu)

Zmienne fikcyjne i interakcje w modelu
Omówienie przygotowania zmiennych fikcyjnych i interakcji przedstawiono w rozdziale: Przygotowanie zmiennych do analizy w modelach wielowymiarowych.
Uwaga!
Budując model należy pamiętać, że liczba obserwacji musi być większa lub równa liczbie szacowanych parametrów modelu (n>=k + 1).

Weryfikacja modelu

  • Istotność statystyczna poszczególnych zmiennych w modelu

    Na podstawie współczynnika oraz jego błędu szacunku możemy wnioskować czy zmienna niezależna, dla której ten współczynnik został oszacowany wywiera istotny wpływ na zmienną zależną. W tym celu posługujemy się testem t-Studenta.
    wzor_model_reg_lin7
    Statystyka testowa ma rozkład t-Studenta z n - k stopniami swobody. Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z poziomem istotności α

    • jeżeli p ≤α ⇒ odrzucamy H0 przyjmując H1,
    • jeżeli p >α ⇒ nie ma podstaw odrzucić H0.


  • Jakość zbudowanego modelu liniowej regresji wielorakiej możemy ocenić kilkoma miarami
    • Błąd standardowy estymacji (SEe) – jest miarą dopasowania modelu. Miara ta opiera się na resztach modelu, czyli rozbieżności pomiędzy rzeczywistymi wartościami zmiennej zależnej w próbie a wartościami zmiennej zależnej wyliczonej na podstawie zbudowanego modelu. Najlepiej byłoby, gdyby różnica ta była jak najbliższa zeru dla wszystkich badanych obiektów próby. Zatem, aby model był dobrze dopasowany, błąd standardowy estymacji (wyrażony jako wariancja reszt modelu) powinien być jak najmniejszy.

    • Współczynnik korelacji wielorakiej ∈ <0; 1> - określa siłę oddziaływania zespołu zmiennych X1,X2, . . .Xk na zmienną zależną Y.

    • Współczynnik determinacji wielorakiej (R2) - jest miarą dopasowania modelu. Wartość tego współczynnika mieści się w przedziale < 0; 1 >, gdzie 1 oznacza doskonałe dopasowanie modelu, 0 – zupełny bark dopasowania. Wyraża on procent zmienności zmiennej zależnej tłumaczony przez model. Ponieważ wartość współczynnika R2 zależy od dopasowania modelu, ale jest również wrażliwa na ilość zmiennych w modelu i liczność próby, bywają sytuacje, w których może być obarczona pewnym błędem. Dalego też wyznacza się poprawianą wartość tego parametru: R2adj

    • Istotność statystyczna wszystkich zmiennych w modelu
      Podstawowym narzędziem szacującym istotność wszystkich zmiennych w modelu jest test analizy wariancji (test F). Test ten weryfikuje jednocześnie 3 równoważne hipotezy:
      wzor_model_reg_lin8

      Statystyka ta podlega rozkładowi F-Snedecora z k i n - (k + 1) stopniami swobody. Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z α

      • jeżeli p ≤α ⇒ odrzucamy H0 przyjmując H1,
      • jeżeli p >α ⇒ nie ma podstaw odrzucić H0.

Więcej informacji o zmiennych w modelu

  • Standaryzowane b1, b2, . . . , bk - w odróżnieniu od parametrów surowych (które w zależności od opisywanej zmiennej są wyrażone w różnych jednostkach miary i nie mogą być bezpośrednio porównywane) standaryzowane oceny parametrów modelu pozwalają porównywać wkład poszczególnych zmiennych w wyjaśnienie zmienności zmiennej zależnej Y.

  • Macierz korelacji - zawiera informacje o sile związku pomiędzy poszczególnymi zmiennymi, czyli współczynnik korelacji Pearsona. Wspólczynnikiem tym badamy korelację dla każdej pary zmiennych, nie uwzględniając wpływu pozostałych zmiennych w modelu.

  • Macierz kowariancji – podobnie jak macierz korelacji, zawiera informacje o związku liniowym pomiędzy poszczególnymi zmiennymi. Przy czym wartość ta nie jest wystandaryzowana.

  • Współczynnik korelacji cząstkowej ∈ <-1; 1> - jest miarą korelacji pomiędzy konkretną zmienną niezależną Xi (uwzględniając jej skorelowanie z pozostałymi zmiennymi w modelu) a zmienną zależną Y (uwzględniając jej skorelowanie z pozostałymi zmiennymi w modelu).
    Kwadrat tego współczynnika to współczynnik determinacji cząstkowej ∈ <0; 1> - oznacza stosunek wyłącznej zmienności danej zmiennej niezależnej Xi do tej zmienności zmiennej zależnej Y, która nie została wyjaśniona przez pozostałe zmienne w modelu.
    Im wartość tych współczynników znajduje się bliżej 0, tym bardziej bezużyteczną informację niesie badana zmienna, czyli jest ona nadmiarowa.

  • Współczynnik korelacji semicząstkowej ∈ <-1; 1> - jest miarą korelacji pomiędzy konkretną zmienną niezależną Xi (uwzględniając jej skorelowanie z pozostałymi zmiennymi w modelu) a zmienną zależną Y (NIE uwzględniając jej skorelowanie z pozostałymi zmiennymi w modelu).
    Kwadrat tego współczynnika to współczynnik determinacji semicząstkowej ∈ <0; 1> - oznacza stosunek wyłącznej zmienności danej zmiennej niezależnej Xi do całkowitej zmienności zmiennej zależnej Y. Im wartość tych współczynników znajduje się bliżej zera, tym bardziej bezużyteczną informację niesie badana zmienna, czyli jest ona nadmiarowa.

  • R-kwadrat ∈ <0; 1> - wyraża on procent zmienności danej zmiennej niezależnej Xi tłumaczony przez pozostałe zmienne niezależne. Im bliżej wartości 1 tym silniej badana zmienna związana jest liniowo z pozostałymi zmiennymi niezależnymi, co może oznaczać, że jest ona zmienną nadmiarową.

  • Tolerancja=1-R2 ∈ <0; 1> - wyraża on procent zmienności danej zmiennej niezależnej Xi NIE tłumaczony przez pozostałe zmienne niezależne. Im wartość tolerancji jest bliższa 0 tym silniej badana zmienna związana jest liniowo z pozostałymi zmiennymi niezależnymi, co może oznaczać, że jest ona zmienną nadmiarową.

  • Porównanie modelu pełnego z modelem po usunięciu danej zmiennej - porównanie tych dwóch modeli dokonujemy:

    • testem F, w sytuacji gdy z modelu usuwamy jedną zmienną lub wiecej niż jedną zmienną (patrz porównywanie modeli),
    • testem t-Studenta, gdy z modelu usuwamy tylko jedną zmienną. Jest to ten sam test, którym badamy istotność poszczególnych zmiennych w modelu.

    W przypadku usunięcia tylko jednej zmiennej wyniki obu tych testów są tożsame. Jeśli różnica pomiędzy porównywanymi modelami jest istotna statystycznie (wartość p<=α), wówczas model pełny jest istotnie lepszy niż model zredukowany. To oznacza, że badana zmienna nie jest nadmiarowa, wywiera ona istotny wpływ na dany model i nie powinna być z niego usuwana.

  • Wykresy rozrzutu - wykresy te pozwalają dokonać subiektywnej oceny liniowości związku pomiędzy zmiennymi i zidentyfikować punkty odstające. Dodatkowo wykresami rozrzutu możemy posłużyć się w analizie reszt modelu.


Analiza reszt modelu

By otrzymać poprawny model regresji, powinniśmy sprawdzić podstawowe założenia dotyczące reszt modelu.
  • Obserwacje odstające
    Badając reszty modelu szybko można uzyskać wiedzę na temat wartości odstających. Obserwacje takie mogą bardzo zaburzyć równanie regresji, ponieważ mają duży wpływ na wartości współczynników tego równania. Jeśli dana reszta ei jest oddalona o więcej niż 3 odchylenia standardowe od wartości średniej, wówczas obserwacje taką można uznać za obserwacje odstającą. Usunięcie obserwacji odstającej może w znaczącym stopniu przyczynić się do poprawy modelu.

  • Normalność rozkładu reszt modelu
    Założenie to sprawdzamy przy pomocy testu normalności Lillieforsa. Duża różnica między rozkładem reszt a rozkładem normalnym (wartość p<=α) może zaburzać ocenę istotności współczynników poszczególnych zmiennych modelu.

  • Homoskedastyczność (stałość wariancji)
    By sprawdzić czy istnieją obszary, gdzie wariancja reszt modelu jest zwiększona lub zmniejszona posługujemy się wykresami:

    • reszty względem wartości przewidywanych
    • kwadrat reszty względem wartości przewidywanych
    • reszty względem wartości obserwowanych
    • kwadrat reszty względem wartości obserwowanych

  • Autokorelacja reszt modelu
    Aby zbudowany model można było uznać za poprawny, wartości reszt nie powinny być ze sobą skorelowane (dla wszystkich par ei, ej). Założenie to możemy sprawdzić wyliczając statystykę testu Durbina-Watsona d. Aby sprawdzić dodatnią autokorelację na poziomie istotności α, sprawdzamy położenie statystyki d w stosunku do górnej dU,α i dolnej dL,α wartości krytycznej:

    • Jeżeli d < dL,α – błędy są dodatnio skorelowane;
    • Jeżeli d > dU,α – błędy nie są dodatnio skorelowane;
    • Jeżeli dL,α < d < dU,α – wynik testu jest niejednoznaczny.

    Aby sprawdzić dodatnią autokorelację na poziomie istotności α, sprawdzamy położenie wartości 4-d w stosunku do górnej dU,α i dolnej dL,α wartości krytycznej:

    • Jeżeli 4-d < dL,α – błędy są ujemnie skorelowane;
    • Jeżeli 4-d > dU,α – błędy nie są ujemnie skorelowane;
    • Jeżeli dL,α < 4-d < dU,α – wynik testu jest niejednoznaczny.

    Wartości krytyczne testu Durbina-Watsona dla poziomu istotności α=0.05 odczytujemy z tablic.


Predykcja na podstawie modelu

Najczęściej ostatnim etapem analizy regresji jest wykorzystanie zbudowanego i uprzednio zweryfikowanego modelu do predykcji. Przewidywanie wartości zmiennej zależnej jest możliwe dla zadanych wartości zmiennych niezależnych. Oszacowana wartość wyliczana jest z pewnym błędem. Dlatego też dodatkowo dla wyliczonej wartości wyznaczane są granice wynikające z błędu:

  • dla wartości oczekiwanej wyznaczane są granice ufności,
  • dla pojedynczego punktu wyznaczane są granice predykcji.

Przykład (plik PL_wydawca.pqs) -> Zobacz film

Pewien wydawca książek chciał się dowiedzieć, jaki wpływ na zysk brutto ze sprzedaży mają takie zmienne jak: koszty produkcji, koszty reklamy, koszty promocji bezpośredniej, suma udzielonych rabatów, popularność autora. W tym celu przeanalizował 40 pozycji wydanych w ciągu ostatniego roku. Fragment danych przedstawia poniższy rysunek:

dane_regr_wielowym

Pięć pierwszych zmiennych wyrażonych jest w tysiącach dolarów - są to więc zmienne zebrane na skali interwałowej. Natomiast ostatnia zmienna: popularność autora – to zmienna dychotomiczna, gdzie 1 oznacza autora znanego, 0 oznacza autora nieznanego.

Na podstawie uzyskanej wiedzy wydawca planuje przewidzieć zysk brutto z kolejnej wydawanej książki znanego autora. Koszty, jakie zamierza ponieść to: koszty produkcji ≈ 11, koszty reklamy ≈ 13, koszty promocji bezpośredniej ≈ 0.5, suma udzielonych rabatów ≈ 0.5.

Budujemy model liniowej regresji wielorakiej wybierając: zysk brutto – jako zmienną zależną Y , koszty produkcji, koszty reklamy, koszty promocji bezpośredniej, suma udzielonych rabatów, popularność autora – jako zmienne niezależne X1,X2,X3,X4,Xk. W rezultacie wyliczone zostaną współczynniki równania regresji oraz miary pozwalające ocenić jakość modelu.

raport_regr_wielowym_ogolne

raport_regr_wielowym_model

Na podstawie oszacowanej wartości współczynnika b, związek pomiędzy zyskiem brutto a wszystkimi zmiennymi niezależnymi możemy opisać równaniem:

zyskbrutto = 4.18+2.56(kprod)+2(krekl)+4.67(kprom)+1.42(rabaty)+10.15(populautora)+[8.09]

Uzyskane współczynniki interpretujemy następująco:
  • Jeśli koszt produkcji wzrośnie o 1 tysiąc dolarów, to zysk brutto wzrośnie o około 2.56 tysiące dolarów, przy złożeniu, że pozostałe zmienne się nie zmienią;
  • Jeśli koszt reklamy wzrośnie o 1 tysiąc dolarów, to zysk brutto wzrośnie o około 2 tysiące dolarów, przy złożeniu, że pozostałe zmienne się nie zmienią;
  • Jeśli koszt promocji bezpośrenidej wzrośnie o 1 tysiąc dolarów, to zysk brutto wzrośnie o około 4.67 tysiące dolarów, przy złożeniu, że pozostałe zmienne się nie zmienią;
  • Jeśli suma udzielonych rabatów wzrośnie o 1 tysiąc dolarów, to zysk brutto wzrośnie o około 1.42 tysiące dolarów, przy złożeniu, że pozostałe zmienne się nie zmienią;
  • Jeśli książka została napisana przez autora znanego (oznaczonego przez 1), to w modelu popularność autora przyjmujemy jako wartość 1 i otrzymujemy równanie:

    zyskbrutto = 14.33 + 2.56(kprod) + 2(krekl) + 4.67(kprom) + 1.42(rabaty)

    Jeśli natomiast książka została napisana przez autora nieznanego (oznaczonego przez 0), to w modelu popularność autora przyjmujemy jako wartość 0 i otrzymujemy równanie:

    zyskbrutto = 4.18 + 2.56(kprod) + 2(krekl) + 4.67(kprom) + 1.42(rabaty)

Wynik testu t-Studenta uzyskany dla każdej zmiennej wskazuje, że tylko koszt produkcji, koszt reklamy oraz popularność autora wywiera istotny wpływ na otrzymany zysk. Jednocześnie, dla tych zmiennych standaryzowane współczynniki b są największe.

Dodatkowo, model jest dobrze dopasowany o czym świadczy: mały błąd standardowy estymacji SEe = 8.086501, wysoka wartość współczynnika determinacji wielorakiej R2 = 0.850974 i poprawionego współczynnika determinacji wielorakiej R2adj = 0.829059 oraz wynik testu F analizy wariancji: p < 0.000001.

Na podstawie interpretacji dotychczasowych wyników możemy przypuszczać, że część zmiennych nie wywiera istotnego wpływu na zysk i może być zbyteczna.

Aby model był dobrze sformułowany interwałowe zmienne niezależne powinny być silnie skorelowane ze zmienną zależną i stosunkowo słabo pomiędzy sobą. Możemy to sprawdzić wyliczając macierz korelacji i macierz kowariancji:

raport_regr_wielowym_m_korel

raport_regr_wielowym_m_kow

Najbardziej spójną informację, pozwalającą znaleźć te zmienne w modelu, które są zbędne (nadmiarowe) niesie analiza korelacji cząstkowej i semicząstkowej i nadmiarowości:

raport_regr_wielowym_nadmiar

Wartości współczynników korelacji cząstkowej i semicząstkowej wskazują, że najmniejszy wkład w budowany model mają: koszt promocji bezpośredniej i suma udzielonych rabatów. Jednak, są to zmienne najmniej skorelowane z pozostałymi w modelu, o czym świadczy niska wartość R2 i wysoka wartość tolerancji. Ostatecznie, ze statystycznego punktu widzenia, modele bez tych zmiennych nie były by modelami gorszymi niż model obecny (patrz wynik testu t-Studenta dla porównywania modeli). To od decyzji badacza zależy, czy pozostawi ten model, czy zbuduje nowy model pozbawiony kosztów promocji bezpośredniej i sumy udzielonych rabatów. My pozostawiamy model obecny.

Na koniec przeprowadzimy analizę reszt. Fragment tej analizy znajduje się poniżej:

raport_regr_wielowym_reszty

Możemy zauważyć, że jedna z reszt modelu jest obserwacją odstającą – jest oddalona o więcej niż 3 odchylenia standardowe od wartości średniej. Jest to obserwacja o numerze 16. Obserwację te możemy łatwo znaleźć kreśląc wykres resz względem obserwowanych lub przewidywanych wartości zmiennej Y.

wykres_homoscedastycznosc

wykres_homoscedastycznosc1

Ten odstający punkt zaburza założenie dotyczące homoskedastyczności. Założenie homoskedastyczności było by spełnione (tzn. wariancja reszt opisana na osi Y byłaby podobna, gdy przechodzimy wzdłuż osi X), gdybyśmy ten punkt odrzucili. Dodatkowo, rozkład reszt nieco odbiega od rozkładu normalnego (wartość p testu Lilieforsa wynosi p = 0.016415):

raport_regr_wielowym_norm_reszt

Przyglądając się dokładniej punktowi odstającemu (pozycja 16 w danych do zadania) widzimy, że książka ta jako jedyna wykazuje wyższe koszty niż zysk brutto (zysk brutto=4 tysiące dolarów, suma kosztów = (8+6+0.33+1.6) = 15.93 tysiące dolarów).

Uzyskany model możemy poprawić usuwając z niego punkt odstający. Wymaga to ponownego przeprowadzenia analizy z włączonym filtrem wykluczającym punkt odstający.

okno_regr_wielowym_filtr

W rezultacie uzyskaliśmy bardzo podobny model, ale obarczony mniejszym błędem i lepiej dopasowany:

raport_regr_wielowym_ogolne2

raport_regr_wielowym_model2

zyskbrutto = 6.89+2.68(kprod)+2.08(krekl)+1.92(kprom)+1.33(rabaty)+7.38(populautora)+[4.86]

Ostatecznie zbudowany model wykorzystamy do predykcji. Na podstawie przewidywanych nakładów wysokości:
koszty produkcji ≈ 11 tysięcy dolarów,
koszty reklamy ≈ 13 tysięcy dolarów,
koszty promocji bezpośredniej ≈ 0.5 tysiąca dolarów,
suma udzielonych rabatów ≈ 0.5 tysiąca dolarów,
oraz faktu, że jest to autor znany (popularność autora ≈ 1) wyliczamy przewidywany zysk brutto wraz z przedziałem ufności:

raport_regr_wielowym_predykcja

Przewidziany zysk wynosi 72 tysiące dolarów.

RSS

Valid HTML 4.01 Transitional Poprawny CSS!

FAQ  |  Polityka prywatności  |  Kontakt
 
 Copyright© 2010-2020 PQStat Software. Wszelkie prawa zastrzeżone.