Funkcje przeżycia mogą być budowane oddzielnie dla różnych podgrup np. oddzielnie dla kobiet i mężczyzn, a następnie porównane między sobą. Takie porównanie może dotyczyć zarówno dwóch, jak i kilku krzywych.
Porównania k krzywych przeżycia S1, S2, ..., Sk w poszczególnych punktach czasu przeżycia t w programie możemy dokonać przy pomocy trzech testów:
Testu log-rank najbardziej znanego i szeroko stosowanego, nawiązującego do procedury Mantela-Heanszela dla wielu tabel 2x2 (Mantel-Heanszel 1959, Mantel 1966[58], Cox 1972),
Uogólnienia Gehana testu Wilcoxona wywodzącego się od testu Wilcoxona (Breslow 1970,Gehan 1965),
Testu Taro-Ware wywodzącego się od testu Wilcoxona (Tarone i Ware 1977).
Wszystkie trzy testy działają w oparciu o tę samą statystykę testową, inne są tylko wagi wj w poszczególnych punktach osi czasu, na których bazuje statystyka testowa.
Test log-rank:wj = 1 - wszystkie punkty osi czasu posiadają tę samą wagę, co daje większy wpływ na uzyskany wynik późniejszym wartościom osi czasu; Uogólnienie Gehana testu Wilcoxona:wj = nj momenty czasowe są ważone liczbą obserwacji w każdym z nich, a zatem przypisywane są większe wagi początkowym wartościom osi czasu; Test Taro-Warewj =√nj - momenty czasowe są ważone pierwiastkiem z liczby obserwacji w każdym z nich co powoduje, usytuowanie tego testu pomiędzy dwoma omówionymi wcześniej.
Ważnym warunkiem stosowania powyższych testów jest proporcjonalność hazardu. Hazard definiowany jako nachylenie krzywej przeżycia jest miarą tego, jak szybko następuje niepożądane zdarzenie. Złamanie założenia proporcjonalności hazardu choć nie dyskwalifikuje całkowicie powyższych testów, to niesie kilka niebezpieczeństw. Przede wszystkim położenie punktu przecięcia krzywych względem osi czasu ma decydujący wpływ na obniżenie mocy poszczególnych testów.
Różnice w krzywych przeżycia
Hipotezy:
:
S1(t)=S2(t)= ...=Sk(t), dla wszystkich t,
:
nie wszystkie Si(t) są sobie równe.
Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z poziomem istotności α:
jeżeli p ≤α ⇒ odrzucamy H0 przyjmując H1,
jeżeli p >α ⇒ nie ma podstaw odrzucić H0.
Iloraz Hazardów
Miarą opisującą wielkość obserwowanej różnicy między parą krzywych przeżycia jest Iloraz Hazardów
Trend w krzywych przeżycia
Hipotezy:
:
W badanej populacji nie istnieje trend w położeniu krzywych S1, S2, ...,Sk,
:
W badanej populacji istnieje trend w położeniu krzywych S1, S2, ...,Sk.
Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z poziomem istotności α:
jeżeli p ≤α ⇒ odrzucamy H0 przyjmując H1,
jeżeli p >α ⇒ nie ma podstaw odrzucić H0.
Uwaga!
By można było przeprowadzić analizę trendu w krzywych przeżycia, zmienna grupująca musi być zmienną liczbową, w której wartości liczb informują o naturalnym porządku grup.
Krzywe przeżycia dla warstw
Często chcąc porównać czasy przeżycia dla dwóch lub więcej grup nie możemy zapomnieć o innych czynnikach, które mogą mieć wpływ na wynik tego porównania. Dostosowanie (korekcja) analizy o takie czynniki może być przydatna. Na przykład w badaniach domu opieki porównujących długość pobytu osób poniżej i powyżej 80 roku życia uzyskano istotną różnicę. Wiadomo jednak, że płeć ma silny związek z długością pobytu, a także wiekiem. Dlatego próbując ocenić wpływ wieku dobrym pomysłem byłaby stratyfikacja analizy ze względu na płeć.
Hipotezy dla różnic w krzywych przeżycia:
:
S*1(t)=S*2(t)= ...=S*k(t), dla wszystkich t,
:
nie wszystkie S*i(t) są sobie równe.
Hipotezy dla analizy trendu w krzywych przeżycia:
:
W badanej populacji nie istnieje trend w położeniu krzywych S*1, S*2, ...,S*k,
:
W badanej populacji istnieje trend w położeniu krzywych S*1, S*2, ...,S*k.
gdzie S*1, S*2, ...,S*k - to krzywe przeżycia po korekcji o zmienną wyznaczającą warstwy.
Wyznaczoną na podstawie statystyki testowej wartość p porównujemy z poziomem istotności α:
Przeszczepy wątroby dokonywane były w dwóch różnych szpitalach. Sprawdzimy, czy długość życia pacjentów po przeszczepie zależały od szpitala, w którym dokonywano przeszczepu. Porównania krzywych przeżycia dla tych szpitali dokonamy w oparciu o wszystkie zaproponowane w programie testy służące temu porównaniu.
Na podstawie przyjętego poziomu α = 0.05, w oparciu o uzyskaną wartość p=0.6004 dla testu log-rank (p=0.6959 dla Gehana i 0.6465 dla Tarona) wnioskujemy, że nie ma podstaw by odrzucić hipotezę H0 Długość życia wyliczona dla pacjentów obu tych szpitali jest podobna.
Do tego samego wniosku dojdziemy porównując ryzyko zgonu dla tych szpitali poprzez wyznaczenie ilorazu tego ryzyka. Uzyskana oszacowana wartość HR = 1.1499, a 95% przedział ufności dla tej wartości zawiera jedynkę: <0.6570, 2.0126.>
Różnice dla wielu krzywych przeżycia
Przeszczepy wątroby dokonywane były u ludzi w różnym wieku. Wyróżniono 3 grupy wiekowe: <45 lat; 50 lat), <50 lat; 55 lat), <55 lat; 60 lat). Sprawdzimy, czy długość życia pacjentów po przeszczepie zależy od ich wieku w chwili dokonania przeszczepu.
Hipotezy:
:
krzywe przeżycia pacjentów w wieku <45 lat; 50 lat), <50 lat; 55 lat), <55 lat; 60 lat) są podobne,,
:
przynajmniej jedna krzywa przeżycia, spośród powyższych 3 krzywych, różni się od pozostałych..
Na podstawie przyjętego poziomu α = 0.05, w oparciu o uzyskaną wartość p=0.0692 w teście log-rank (p=0.09279 dla Gehana, p=0.0779 dla Tarona) wnioskujemy, że nie ma podstaw by odrzucić hipotezę H0. Długość życia wyliczona dla pacjentów należących do porównywanych trzech grup wiekowych jest podobna. Choć należy zauważyć że wartości p są dość bliskie standardowemu poziomowi istotności 0.05.
Przeglądając wartości hazardu (ilorazu wartości obserwowanych i oczekiwanych niepożądanych zdarzeń) zauważamy, że z każdą kategorią wiekową są one nieco wyższe <0.68, 0.93, 1.43>. Chociaż nie wykryto istotnych statystycznie różnic między nimi, to możliwe jest, że znaleziony zostanie trend wzrostu wartości hazardu (trend w położeniu krzywych przeżycia).
Trend dla kilku krzywych przeżycia
Jeśli do testu wprowadzimy informację dotyczącą uporządkowania porównywanych kategorii (wykorzystamy zmienną wiek, w której przedziały wiekowe ponumerujemy odpowiednio 1, 2 i 3), wówczas będziemy mogli sprawdzić, czy istnieje trend w porównywanych krzywych. Będziemy badać hipotezy:
:
brak trendu w krzywych czasu przeżycia pacjentów po przeszczepie, (trendu zależnego od wieku pacjentów w chwili przeszczepu),,
:
czym starsi są pacjenci w momencie dokonania przeszczepu, tym większe/mniejsze jest prawdopodobieństwo ich przeżycia określonego odcinka czasu..
Na podstawie przyjętego poziomu α = 0.05, w oparciu o uzyskaną wartość p=0.0237 w teście log-rank (p=0.0317 dla Gehana, p=0.0241 dla Tarona) wnioskujemy, że krzywe przeżycia ułożone są w pewnym trendzie. Najniżej na wykresie Kaplana-Meiera znajduje się krzywa dla osób w wieku <55 lat; 60 lat). Nad nią jest krzywa dla pcjentów w wieku <50 lat; 55 lat). Najwyżej zaś krzywa dla pacjentów w wieku <45 lat; 50 lat). Zatem czym starszy pacjent w chwili przeszczepu, tym mniejsze prawdopodobieństwo przeżycia określonego odcinka czasu.
Krzywe przeżycia dla warstw
Sprawdzimy teraz, czy obserwowany wcześniej trend jest niezależny od szpitala w którym dokonano przeszczepu. W tym celu jako zmienną warstwa wybierzemy szpital.
W raporcie najpierw przedstawiona jest analiza poszczególnych warstw, zarówno wyniki testów jak i wartości hazardu. W warstwie pierwszej trend wzrostu hazardu jest widoczny, choć nieistotny, trend o tym samym kierunku (wynik na pograniczu istotności statystycznej) obserwowany jest w warstwie drugiej. Kumulacja tych trendów we wspólnej analizie warstw pozwoliła uzyskać istotność trendu krzywych przeżycia. Zatem: czym starszy pacjent w chwili przeszczepu, tym mniejsze prawdopodobieństwo przeżycia określonego odcinka czasu niezależnie od szpitala dokonującego przeszczepu.
Analiza porównawcza krzywych przeżycia w korekcji o warstwy daje wynik istotny dla testu log-rank i Tarona a nieistotny dla Gehana, co może wskazywać na to, że pojawiające się różnice w krzywych nie są tak widoczne w początkowych okresach czasu przeżycia co w okresach późniejszych. Przyglądając się ilorazowi hazardu dla porównywanych parami krzywych
możemy zlokalizować istotne różnice. Najmniejszy iloraz hazardu mamy dla porównania krzywej dla najmłodszej grupy z krzywą dla grupy najstarszej 0.53, 95% przedział ufności dla tego ilorazu <0.26 ; 1.05> zawiera co prawda wartość 1, ale jest na pograniczu tej wartości, co może sugerować wystąpienie między odpowiadającymi im krzywymi istotnych różnic. By potwierdzić to przypuszczenie dociekliwy badacz, używając filtru danych w oknie analizy, może porównać krzywe parami.
Należy jednak pamiętać by zastosować jedną z poprawek używanych przy wielokrotnych porównaniach i zmodyfikować poziom istotności. W tym przypadku dla poprawki Bonferroniego przy trzech porównaniach poziom istotności wyniesie 0.017. Dla uproszczenia rozważań posłużymy się tylko testem log-rank.
<45 lat; 50 lat) vs <50 lat; 55 lat)
<45 lat; 50 lat) vs <55 lat; 60 lat)
<50 lat; 55 lat) vs <55 lat; 60 lat)
Zgodnie z oczekiwaniem istotne statystycznie różnice dotyczą tylko krzywych przeżycia dla najmłodszej i najstarszej grupy wiekowej.