Gwarantujemy:
- Ciekawą i angażującą prezentację
- Przystępne wyjaśnienia
Wprowadzenie do ANOVA, 06.03.2024 (12:15-13:15)
- Podstawowe pojęcia i zastosowania analizy wariancji (ANOVA)
- Nieparametryczne odpowiedniki stosowanych powszechnie testów
- Testy post-hoc
Identyfikator spotkania: 314 633 679 179
Kod dostępu: d9LLNV
Wprowadzenie do analizy przeżycia i regresji Coxa, 03.04.2024 (12:15-13:15)
- Testy porównania krzywych Kaplana-Meiera
- Budowa i wybór modelu regresji Coxa
- Sprawdzanie założeń stosowania regresji Coxa
Identyfikator spotkania: 392 532 822 554
Kod dostępu: Ls2wD9
Webinaria są realizowane w ramach projektu pt. „Rozwój Uniwersyteckiego Centrum Badań Sportowo-Medycznych w Poznaniu”, który jest dofinansowany ze środków budżetu państwa w ramach programu Ministra Edukacji i Nauki pod nazwą: „Nauka dla Społeczeństwa” (nr projektu NdS/544750/2021/2022).
19-02-2024
Warsztaty stacjonarne, Poznań
Trwają zapisy na nieodpłatne, stacjonarne warsztaty z analizy danych! Zapraszamy wszystkich studentów, doktorantów i naukowców z uczelni wyższych i innych jednostek naukowych.
Warsztaty odbywają się na Uniwersytecie Medycznym w Poznaniu, w Katedrze i Zakładzie Informatyki i Statystyki, przy ul. Rokietnickiej 7, I piętro, Budynek Centrum Symulacji Medycznej.
Oto precyzyjny adres what3words, złożony z trzech przypadkowych wyrazów. Każdy trzymetrowy kwadrat na świecie ma swój własny, niepowtarzalny adres what3words
///mech.foliowy.szata https://w3w.co/mech.foliowy.szata
- Porównanie dwóch badanych grup
- Porównanie dwukrotnych pomiarów w tej samej grupie
- Przygotowanie tabel, wykresów oraz opisu wyników do wymogów czasopism
pakiet podstawowy plus (8h), 05.03.24 (15:00-19:00) oraz 06.03.24 (15:15-19:15):
- Porównanie więcej niż dwóch badanych grup
- Porównanie wielokrotnych (więcej niż dwóch) pomiarów w tej samej grupie
- Szukanie związków (korelacja i regresja liniowa)
Oferowane są również analizy wielowymiarowe:
Zgodność i Rzetelność Skali (4h), 11.03.24 (15:00-19:00)
Warsztaty są realizowane w ramach projektu pt. „Rozwój Uniwersyteckiego Centrum Badań Sportowo-Medycznych w Poznaniu”, który jest dofinansowany ze środków budżetu państwa w ramach programu Ministra Edukacji i Nauki pod nazwą: „Nauka dla Społeczeństwa” (nr projektu NdS/544750/2021/2022).
20-07-2023
Konferencja ISCB : Nowoczesne metody statystyczne w badaniach medycznych
Serdecznie zapraszamy do udziału w IV konferencji naukowo-szkoleniowej "Nowoczesne metody statystyczne w badaniach medycznych" Polskiej Grupy Narodowej Międzynarodowego Towarzystwa Biostatystyki Klinicznej ISCB i Katedry Biostatystyki i Teorii Układów Biomedycznych Wydziału Farmaceutycznego CM UMK.
Konferencja skierowana jest do osób, których badania wymagają stosowania metod statystycznych oraz zajmujących się analizą danych biomedycznych.
Zapraszamy pracowników naukowych, doktorantów, studentów oraz biostatystyków i bioinformatyków.
Pragniemy stworzyć przestrzeń do wymiany doświadczeń i nawiązywania kontaktów pomiędzy przedstawicielami nauk medycznych
oraz statystykami.
Jest to Konferencja Polskiej Grupy Narodowej Międzynarodowego Towarzystwa Biostatystyki Klinicznej
(Polish National Group of The International Society for Clinical Biostatistics)
oraz
Katedry Biostatystyki i Teorii Układów Biomedycznych Wydziału Farmaceutycznego
Collegium Medicum w Bydgoszczy, UMK w Toruniu
01-04-2023
Zestawienia testów
Automatyczny dobór testów statystycznych to narzędzie, które pomaga wybrać najlepszy test do podstawowej analizy danych na podstawie charakterystyk próby i zmiennych. Dzięki temu narzędziu, badacze mogą skupić się na analizie wyników, a nie na dobieraniu odpowiedniego testu statystycznego, co minimalizuje błędy oraz przyspiesza i ułatwia proces analizy danych.
Predykcja na podstawie modelu i walidacja zbioru testowego
Walidacja modelu to sprawdzenie jego jakości. W pierwszej kolejności wykonywana jest na danych, na których model był zbudowany a w kolejnych etapach na zbiorze danych testowych.
Modele zwalidowane o dobrej jakości mogą zostać wykorzystane do predykcji. Prognoza dla nowych danych może się odbywać dla modelu zbudowanego w programie PQStat ale również dla zupełnie innego modelu np. opisanego w ramach przeczytanej przez nas pracy naukowej. Oszacowana wartość predykcji podana jest wraz z przedziałem określającym jej precyzję.
Walidacja i predykcja dla regresji wielorakiej tzn. dla regresji liniowej wielu zmiennych.
Analiza kowariancji (ANCOVA) to potężne narzędzie statystyczne wykorzystywane w badaniach naukowych i marketingu, które pozwala na badanie zależności między zmiennymi niezależnymi a zmiennymi zależnymi, jednocześnie kontrolując wpływ zmiennych zakłócających. Dzięki ANCOVA możemy lepiej zrozumieć wpływ czynników na wyniki badania oraz ujawnić ukryte związki między zmiennymi.
Metody oparte na macierzach podobieństwa oraz klasyczna metoda propensity score matching (PSM) są powszechnie stosowanymi metodami statystycznymi, które pozwalają na usunięcie czynników zakłócających, gdy nie jest możliwa randomizacja. W związku z tym ustanawia się nową grupę kontrolną lepiej dopasowaną do celów eksperymentu niż grupa pierwotna. Ta nowa grupa kontrolna redukuje niepożądane wpływy współzmiennych.
Zaproponowaliśmy jedno miejsce na podsumowanie wszystkich zmiennych (bez względu na skalę statystyczną). Takie podejście pozwala na zbudowanie raportu z wynikami podsumowania w sposób zaprojektowany przez użytkownika tak, by szybko uzyskać tabelę gotową do umieszczenia w pracy naukowej.
W modelach wielowymiarowych może badaczom zależeć na wyjaśnieniu efektu mediacji czyli sytuacji, kiedy jedna zmienna pośredniczy w związku pomiędzy dwiema innymi. W badaniu tego typu efektów na licznych próbach można posłużyć się trzema prostymi testami: Sobela, Aroiana i Goodmana
Wszystkie analizy wykonywane w wersji programu 1.8.4 i wyższej są zapamiętywane wraz z plikiem. Oznacza to możliwość powrotu do okna ustawień każdej z nich. Daje to możliwość sprawdzenia ustawień każdej wykonanej uprzednio analizy oraz przeprowadzenia analiz z takimi samymi ustawieniami ponownie na tym samym lub zmienionym zestawie danych.
Budując model regresji logistycznej w oparciu o zmienną ciągłą wyznaczamy z reguły jednostkowy iloraz szans i sprawdzamy występowanie zależności liniowej. Jednak w wielu sytuacjach zmienną ciągłą korzystniej jest podzielić na kategorie. Jest to potrzebne głównie wtedy, gdy zależność nie jest liniowa. To znaczy, może być tak, że ze wzrostem BMI rośnie ryzyko badanej przez nas choroby (zależność typu liniowego) ale może być również tak, że to zbyt niskie i zbyt wysokie BMI związane jest ze zwiększonym ryzykiem choroby. By móc zdecydować jaki jest kształt badanej zależności i jak przygotować BMI do analizy w ramach regresji logistycznej możemy się posłużyć wykresem profili lub wykresem jednostkowych zmian ryzyka.
Typowym sposobem wstępnej analizy danych jest budowa macierzy korelacji, czyli macierzy przedstawiającej oddziaływanie pomiędzy wieloma zmiennymi. Dodatkowa możliwość dostosowania tej analizy do skali zebranych danych i uruchomienie dedykowanych wykresów macierzowych, to główne zalety tej analizy.
Przyjazny i prosty filtr danych, czyli wybór tych wierszy które zostaną poddane analizie został obecnie rozszerzony. Dodano możliwość budowy filtru zaawansowanego z możliwością zapisu użytych wyrażeń filtrujących.
Jednym z najczęściej stosowanych testów w statystyce jest test chi-kwadrat Pearsona (2x2). Obliczanie mocy statystycznej dedykowanej temu testowi zostało teraz dodane do Analizy mocy testu.
Kryteria informacyjne Akaikego i Schwartza, stosowane powszechnie do oceny jakości modeli regresji logistycznej i regresji Coxa zostały dodane również do oceny regresji wielorakiej.
Opis zebranych danych przy wykorzystaniu średniej arytmetycznej może prowadzić do błędnych wniosków, gdy dane zawierają odstające pomiary. Obok mediany, innym możliwym sposobem opisu takich danych jest średnia Winsora i średnia przycięta.
Stosowanie poprawek dla analizy statystycznej tabel 2x2 jest potrzebne nie tylko w przypadku zmiennych niezależnych. Takie poprawki można znaleźć również w teście McNemary i ilorazie szans opartym na tabeli zmiennych zależnych.
Porównanie wielu grup poprzez dedykowane testy post-hoc można przedstawić w tabeli różnic, ale również jako grupy jednorodne – zarówno w tabeli jak i na wykresie.
Serdecznie zapraszamy do udziału w II Konferencji "Nowoczesne metody statystyczne w badaniach medycznych" Polskiej Grupy Narodowej Międzynarodowego Towarzystwa Biostatystyki Klinicznej ISCB i Katedry i Zakładu Informatyki i Statystyki Uniwersytetu Medycznego w Poznaniu. Spotkanie będzie złożone z dwu sesji - szkoleniowej w czwartek 15 października oraz naukowej w piątek 16 października 2020 roku.
Aktywny udział w konferencji i przygotowanie plakatu pozwala na uczestniczenia w konkursie, w którym zostanie nagrodzonych trójka młodych naukowców. Nagrodą jest roczna licencja programu PQStat. Termin zgłaszania abstraktów mija 15 sierpnia.
41 Konferencja Międzynarodowego Towarzystwa Biostatystyki Klinicznej (konferencja zdalna)
W dniach 23-27.08.2020 roku po raz pierwszy w Polsce, w Krakowie, odbędzie się 41. Konferencja Międzynarodowego Towarzystwa Biostatystyki Klinicznej (International Society for Clinical Biostatistics).
Recenzent pracy naukowej często zastawia się, czy test miał wystarczającą moc by udowodnić to, co chcieliśmy przy jego pomocy udowodnić. Czy liczność próby była wystarczająca? To są częste problemy z jakimi badacze muszą się zmierzyć publikując wyniki swoich analiz. O tym jak możemy to zrobić można poczytać w pomocy do programu lub pooglądać na filmie.
Wiele metod analizy wielowymiarowej, w tym MANOVA, testy Hotellinga czy też modele regresji opierają się na założeniu normalności wielowymiarowej. Jeśli zbiór zmiennych charakteryzuje wielowymiarowy rozkład normalny, to można założyć, że każda zmienna posiada rozkład normalny. Jednak gdy wszystkie pojedyncze zmienne charakteryzowane są rozkładem normalnym, ich zestaw nie musi mieć wielowymiarowego rozkładu normalnego. Dlatego testowanie jednowymiarowej normalności każdej zmiennej może być przydatne, ale nie można założyć, że jest wystarczające.
Eksperymenty, w których efekty więcej niż jednego czynnika są rozpatrywane łącznie, są nazywane "doświadczeniami czynnikowymi" i gdy wielkość efektu jest zmienną ilościową mogą być analizowane przy użyciu ANOVA czynnikowej. Na przykład osiągnięcia akademickie studenta zależą od jego motywacji tzn. nastawienia co do potrzeby przyswojenia danej partii materiału (czynnika A), a także od tego czy uczył się dodatkowo samodzielnie tego przedmiotu (czynnik B). Możemy mieć dwa proste, jednoczynnikowe eksperymenty, jeden do badania wpływu motywacji, a drugi do samodzielnej pracy. Jednak samodzielna praca studenta zmoże mieć związek z motywacją i oba te czynniki rozpatrywane łącznie dadzą dużo większe szanse trafnego przewidywania osiągnięć akademickich w badanym zakresie. W takich przypadkach odwołujemy się do ANOVA czynnikowa, która nie tylko pomaga nam badać wpływ dwóch lub więcej czynników (efektów głównych), ale także daje informacje o ich zależności lub niezależności w tym samym eksperymencie. Stosując ANOVA czynnikowa mamy również możliwość rozpatrywania efektu interakcji czyli sprawdzenia, czy czynnik A (tutaj samodzielna praca studenta) wpływa na osiągnięcia studenta jednakowo dla wszystkich poziomów czynnika B (czyli motywacji).
NRI, IDI, ROC - wskaźniki przydatności nowych czynników w modelach regresji logistycznej
Badając wpływ wielu czynników na ryzyko wystąpienia zdarzenia, możemy stosować model regresji logistycznej. Gdy znanych jest już wiele czynników zwiększających ryzyko wystąpienia zdarzenia np. choroby, wówczas trudno jest wskazać na ile nowe, nieznane dotąd czynniki (a więc nieco mniej istotne) poprawiają jakość prognostyczną modelu. By odpowiedzieć na to pytanie powinno się spojrzeć pod wieloma różnymi kontami na efekt oddziaływania takich czynników. Do klasycznych sposobów porównania predykcji modeli wzbogaconych o nowe czynniki należy analiza wielkości pola pod krzywą ROC, jednak znacznie łatwiejszą i praktyczniejszą interpretację mają nowsze wskaźniki takie jak współczynnik reklasyfikacji netto (NRI) i zintegrowana poprawka dyskryminacji (IDI).
Częstość występowania chorób może być porównywalna jeśli dotyczy porównywalnych populacji np. populacji w podobnym wieku i o podobnej strukturze płci. Dlatego ważne jest, by zamiast współczynników surowych porównywać współczynniki standaryzowane bezpośrednio lub pośrednio na jednolitą populację.
Mapy administracyjnego podziału np. na gminy, powiaty, województwa, czy państwa można przeszukiwać w celu lokalizacji geograficznych skupień zwiększonej częstości występowania chorób zadając punkt odcięcia, tzn. częstość powyżej której należy oczekiwać takich skupień. Metodą pozwalającą na szybkie przeprowadzanie takich analiz i proste przedstawianie ich wyników na mapach jest nowa metoda CutL.
Praca w programie PQStat może być znacznie szybsza, gdy wiele analiz wykonywanych jest jednocześnie. W rezultacie jednocześnie generowanych jest wiele oddzielnych raportów dla każdej analizy. Jednak bywają sytuacje, w których wygodnie jest umieścić wyniki wszystkich analiz w jednym raporcie np. w celu łatwiejszego porównania wyników wielu analiz. Dlatego w oknie każdej analizy dodano możliwość zwrócenia wszystkich wyników do jednego raportu.
Praca na dużych zbiorach danych bywa trudna ze względu na konieczność wyszukiwania zmiennych (kolumn) arkusza danych, dla których chcemy przeprowadzać danego typu analizy. Gdy takich zmiennych jest bardzo dużo, każdorazowy ich wybór w oknie analizy zajmuje pewien czas. Zdefiniowanie w programie zestawów zmiennych i dowolne aktywowanie wybranego zestawu w dowolnym czasie pracy z programem pozwala na szybsze wykonywanie zaplanowanych analiz.
Testy chi-kwadrat Pearsona dla tabel 2x2 działa w oparciu o asymptotyczny rozkład statystyki testowej. Z tego względu, przy małych licznościach oczekiwanych lub obserwowanych wymaga stosowania korekt. Najszerzej stosowanym kryterium oceny konieczności stosowania korekty jest warunek Cochrana. Zarówno warunek Cochrana, jak i wyniki innych testów polecanych przy braku spełnienia tego warunku mogą zostać zwrócone obok wyników testu chi-kwadrat w toku tej samej analizy.
Podobnie jak testy statystyczne, tak miary wyznaczane dla tabel 2x2 takie jak relatywne ryzyko i iloraz szans, a właściwie przedziały ufności dla tych miar, mogą wymagać korekty, gdy są wyliczane w oparciu o mało liczne grupy. W oknie testu chi-kwadrat dla tabel 2x2 zebrano wszystkie oferowane w programie sposoby wyznaczania tych miar wraz z ich przedziałami, co umożliwia ich jednoczesne wykonywanie w toku jednej analizy. Ponadto zapewniono możliwość wyznaczenia ilorazu szans i relatywnego ryzyka również wtedy, gdy w tabelach występują wartości zerowe, poprzez zastosowanie korekty takich wartości.
Liczba pojawiających się prac naukowych w ostatniej dekadzie bardzo wzrosła. Jest to związane z szeregiem korzyści, ale utrudnia nadążenie za wciąż pojawiającymi się nowymi informacjami. Jeśli na przykład lekarz zastosował by nowy sposób leczenia dla swoich pacjentów na podstawie przeczytanej pracy naukowej mógłby popełnić błąd. Błąd może wynikać z faktu opublikowania całego szeregu innych prac,które przeczą skuteczności tego leczenia. Aby decyzja podjęta przez lekarza obarczona była jak najmniejszym błędem, powinien on przeczytać większość prac naukowych, jakie ukazały się w tym temacie. W rezultacie ciągła konieczność przeglądania coraz to większych zbiorów literatury zajęłaby lekarzowi tak dużo czasu, że mogłoby go zabraknąć na leczenie pacjentów. Meta-analiza pozwala na szybkie dokonanie takiego przeglądu ponieważ jest rezultatem przeprowadzonego przez jej autora szerokiego przeglądu literatury i wykonaniu statystycznego podsumowania opisanych tam wyników.
Meta-analiza w programie PQStat daje:
możliwość przygotowania danych pochodzących z różnych prac naukowych do poddania meta-analizie;
możliwość porównania prac należących do różnych grup np. przeprowadzanych w różnych warunkach, w celu sprawdzenia czy różne warunki mają wpływ na uzyskany efekt, dokonania korekcji o różne warunki eksperymentu;
możliwość wykonania meta-regresji czyli sprawdzenia jaki wybrany czynnik, grupa czynnków lub interakcja czynników wpływa na zmiany efektu podsumowującego.
Przygotowując raporty lub wyniki opracowań naukowych, najczęściej w pierwszym etapie prezentujemy dane w tabelach, gdzie wskazujemy liczności i procentowy udział poszczególnych wartości. Jednoczesne uzyskanie setek podsumowań tabelarycznych, dotyczących wielu cech znacznie przyspiesza pracę na tym etapie.
Zestawy raportów i przesyłanie do Word i Excel (Office 2003-2016)
Organizacja raportów w zestawy otwiera możliwość utrzymania porządku, gdy wynikiem wykonywanych analiz statystycznych jest duża liczba raportów. Każdy raport może się znaleźć w przygotowanym zestawie na dwa sposoby: automatycznie w chwili wykonywania analizy lub może zostać przeniesiony już po przeprowadzonej analizie. W rezultacie zarządzanie raportami (jak usuwanie, eksportowanie do plików o innych formatach, czy zmiana kolejności) może się odbywać przez szybkie zarządzanie zestawami.
Każdy raport lub zestaw raportów bez kłopotu można przesłać do plików programu Word lub Excel (dla wersji pakiety Excel 2003-2016) w dowolnym momencie pracy.
Szacowanie poziomu zgodności wyników z przyjętymi założeniami czy poziomu zgodności ocen jakie wystawia wielu jurorów obserwujących tą samą sytuację, to tylko kilka z bardzo wielu aspektów, którymi zajmuje się w statystyce analiza zgodności.
Jeśli jesteśmy zainteresowani badaniem zgodności wielokrotnych pomiarów takiej cechy, która jest ze swej natury ciągła np. natężenie dźwięku - mamy do wyboru:
współczynnik ICC w modelu I
współczynnik ICC w modelu II badający bezwzględną zgodność
Jeśli jesteśmy zainteresowani badaniem zgodności wielokrotnych pomiarów takiej cechy, która ma zaledwie kilka kategorii np. diagnozy postawionej przez lekarzy - mamy do wyboru:
Rozkład normalny (krzywa Gaussa) występuje w naturze stosunkowo często. Statystyka opiera wiele swoich procedur na założeniu zgodności analizowanych danych z tym rozkładem. Część z procedur statystycznych pozwala na niewielkie odstępstwa od rozkładu normalnego, a część nie wymaga tego rozkładu w ogóle. W praktyce istnieje wiele metod badania normalności rozkładu, każda z nich zwraca uwagę na nieco inne jego aspekty. Brak zgodności z rozkładem normalnym, w zależności od zastosowanej metody, może podlegać nieco innej interpretacji i wskazywać na odstępstwo od rozkładu normalnego tylko w pewnym zakresie np. dotyczącym skośności czy kurtozy. W programie PQStat mamy do wykorzystania:
test Kołmogorova-Smirnova
test Lillieforsa
test Shapiro-Wilka
test D'Agostino-Pearson ( w tym test skośności i kurtozy)
Menu programu może być wyświetlone w formie klasycznej lub jako menu wstążkowe. Dodatkowo, według własnego uznania, można organizować menu Ulubione - co w rezultacie umożliwia szybki dostęp do często wykonywanych statystyk i innych operacji
Analiza skupień
Analiza skupień jest metodą, która wykorzystując informacje o pewnych cechach obiektów stara się je podzielić na grupy obiektów podobnych np. mając informację o cechach charakterystycznych wyglądu i zachowania psów może podzielić je na grupy w ten sposób, by psy znajdujące się wewnątrz danej grupy były do siebie podobne, a utworzone grupy (np. rasy psów) różniły się znacznie miedzy sobą.
Analiza skupień może być przeprowadzona w programie przy użyciu:
Pobieranie wielu prób losowych można imitować na kilka sposobów. Jednym z nich jest bardzo elastyczna metoda wykorzystująca rozkład wielomianowy. Naśladuje ona wrzucanie wylosowanej liczby obiektów do szufladek, przy kontrolowanym przez badacza współczynniku związanym z każdą z szufladek. W rezultacie liczba obiektów w poszczególnych szufladkach może zostać rozłożona równomiernie ale losowo, lub losowo ale nierównomiernie - według wskazań badacza.
Metody wygładzania danych przestrzennych mają za zadanie uzyskać takie wartości w obiektach przestrzennych (miastach, gminach, powiatach itp.), które przedstawią informację zawartą w danym obiekcie z niewielka domieszką informacji płynącej z obiektów sąsiednich. W ten sposób przekazywany obraz obiektu jest pełniejszy a wyznaczane dla niego wartości bardziej stabilne.
Podstawowym zadaniem stojącym przed badaczem na samym początku długiej drogi rozwiązywania problemów naukowych, jest wyznaczenie liczby obiektów jaką należy zebrać w toku badań. Liczba taka determinuje jakość badań ale związana jest nierozerwalnie z ich kosztem i czasem poświęconym na ich przeprowadzenie. By moc zaplanować zarówno koszty jak i efektywnie zarządzać czasem, już na początku należy określić wielkość grupy, jaka będzie konieczna do dobrego odzwierciedlenia populacji badanej.
Dobór próby, który pozwoli na odzwierciedlenie struktury procentowej populacji lub wartości średniej jej cech ilościowych obarczony powinien być niewielkim błędem. Zdefiniowanie przez badacza dopuszczalnego marginesu błędu pozwoli na ustalenie niezbędnej (w celu odzwierciedlenia struktury procentowej lub średniej) liczności próby.
Interakcje i zmienne fikcyjne w modelowaniu wielowymiarowym
W rzeczywistych relacjach zachodzących w otaczającym nas świecie zawsze istnieje wiele wymiarów. Na wzrost naszych dochodów ma wpływ nie tylko wzrost efektywności naszej pracy, ale również sytuacja firmy, sytuacja w jakiej znajduje się nasza polska gospodarka, a nawet sytuacja w jakiej znajduje się gospodarka światowa. W jakim zatem stopniu to wzrost efektywności naszej pracy a w jakim inne czynniki modelują nasz dochód. Czy te czynniki wzajemnie na siebie oddziaływują i przez to wpływają na nasz dochód? Wiemy że przepisany nam lek powinien wyleczyć dolegliwości związane z aktualnie występującym złym samopoczuciem, ale czy stosowanie tego leku z innymi, które przyjmujemy już w tym samym celu, nie spowoduje że dostarczymy organizmowi zbyt dużej dawki substancji czynnej? Czy nie odwrócimy oczekiwanego działania, czy zachodząca interakcja miedzy przyjmowanymi lekami nie zmieni ich wpływu na nasz organizm?
Każda z zależności którą chcemy opisać posiada wiele wymiarów. Proste zależności pomiędzy efektywnością pracy a dochodem są wikłane przez inne czynniki, proste zależności pomiędzy lekiem a oczekiwanym efektem leczenia są wikłane przez inne leki czy inną dietę oraz interakcje (ich wzajemne oddziaływanie). Zachodząca interakcja może dać zupełnie inny wynik działania leku jednej osobie (o innej diecie, innym stylu życia, przyjmującej inne dodatkowe leki) niż drugiej osobie. Dlatego chcąc wnikliwiej zobrazować rzeczywiste relacje należy uwzględniać różne czynniki wikłające i możliwe interakcje tych czynników.
W budowie modeli wielowymiarowych: regresji wielorakiej , regresji logistycznej oraz regresji PH Cox'a uwzględniono potrzebę badania zmiennych wikłających (również fikcyjnych) oraz interakcyjnego wpływu tych zmiennych na badaną relację. W każdym z tych modeli istnieje możliwość dowolnego kształtowania wielowymiarowej przestrzeni zmiennych niezależnych poprzez: wybór zmiennych wikłających, ich wzajemnej interakcji, definiowania zmiennych fikcyjnych i sposobu kodowania efektów binarnych w tych zmiennych.
Urządzenie dzielące masę czekoladową na tabliczki czekolady ma pewien dopuszczalny błąd, tzn. może wyprodukować odrobinę zbyt ciężką lub zbyt lekką czekoladę. W trakcie jego eksploatacji należy regularnie sprawdzać, czy ów błąd jest zgodny z oczekiwaniami (wielkością dozwoloną). W tego typu przypadkach zastosowanie może mieć test porównujący uzyskaną zmienność ze zmienności zakładaną czyli test chi-kwadrat wariancji.
Jak rzeczywiście rozkładają się nasze dane? Oczywiście mogą mieć rozkład normalny (rozkład Gaussa). Ale czy istnieje możliwość dopasowania dowolnej krzywej do posiadanej próby z dowolną precyzją? Taką krzywą dopasowaną (zastępującą histogram) może być estymator jądrowy o jednym wymiarze.
Dla przypadku dwuwymiarowego możemy dopasować płaszczyznę, a dla trójwymiarowego pewne warstwy płaszczyzn. Mowa jest oczywiście o jądrowym estymatorze gęstości dwu i trójwymiarowym.
Do porównania wielu grup (np. kilku grup ludzi pod względem masy ciała, kilku marek samochodów pod względem osiągów, kilku sytuacji w których obserwujemy zachowanie pewnych obiektów) mamy do dyspozycji całą gamę testów statystycznych typu ANOVA. Testy najlepiej znane to testy parametryczne, natomiast te, które powinny być stosowane najczęściej to testy nieparametryczne. Zarówno jedne jak i drugie mają swoje założenia, których weryfikacja powinna być zawsze możliwa do przeprowadzenia przed ich użyciem. Dlatego w programie PQStat rozbudowano standardowe typy analiz typu ANOVA.
Korekty wielokrotnych porównań powinny być stosowane wszędzie tam, gdzie występują rodziny hipotez a stosowane testy nie mają wbudowanych korekt. Dla takich testów można skorygować uzyskane wartości p korzystając z zaproponowanych korekt:
Analiza Hotellinga, to cała grupa testów. Najogólniej rozumiana jest jako analiza porównawcza wielu parametrów jednocześnie (np. wieku, wzrostu, masy ciała itp.). Zatem jest to rozszerzenie najbardziej znanych testów t-Studenta na dziedzinę wielowymiarową.
Analogicznie jak testy Hotellinga jest to analiza porównawcza wielu parametrów jednocześnie (np. wieku, wzrostu, masy ciała itp.) ale dla wielu grup. Zatem jest to rozszerzenie jednoczynnikowej ANOVA niezależnej na dziedzinę wielowymiarową.
Właściwości każdej kolumny danych są kompatybilne z właściwościami zmiennych w pakiecie SPSS, co pozwala na swobodne importowanie plików tego programu. Podstawowe korzyści, to możliwość ustawienia:
Długich opisów dla zmiennych (etykiety zmiennej)
Obowiązujących wartości np. zamiast słów definiujących wykształcenie we wszystkich analizach mogą obowiązywać zdefiniowane tu wartości liczbowe segregujące odpowiednią kolejność wykształcenia
Tekstów (etykiet) mających występować zamiast analizowanych danych w opisach i na wykresach np. zamiast wartości krótkiego opisu płci typu "k" i "m" można we wszystkich analizach i na wykresach wyświetlać napis "kobiety" i "mężczyźni"
Analiza przeżycia jest typową analizą stosowaną w medycynie - stąd jej nazwa. Jest użyteczna wtedy, gdy interesuje nas CZAS jaki upływa DO momentu wystąpienia pewnego ZDARZENIA. Ten czas nazywany jest czasem przeżycia.
Na przykład:
czas jaki upływa od wystąpienia choroby do zgonu;
czas jaki upływa od rozpoczęcia do zakończenia pisania pracy doktorskiej;
czas jaki upływa od pozyskania klienta do jego utraty;
czas jaki upływa od wyprodukowania produktu do jego pierwszej awarii.
W takich i podobnych sytuacjach przy pomocy PQStat możemy:
W badaniach bardzo często napotykamy na braki danych, jest to naturalne szczególnie dla danych ankietowych. Bywają sytuacje, w których braki danych wnoszą wartościową informację. Przykładowo: ilość braków danych w odpowiedzi na pytanie dotyczące sympatii do partii politycznych daje pogląd o ilości niezdecydowanych osób, które nie darzą sympatią (lub nie przyznają się że darzą sympatią) określonych ugrupowań politycznych. Niewielkie liczności braków danych nie stanowią problemu w analizach statystycznych. Duża ich ilość może jednak poddawać pod wątpliwość rzetelność przeprowadzonych badań. Warto już na początku pracy zadbać by było ich jak najmniej. Oczywiście najlepiej jest dotrzeć do informacji o rzeczywistej wartości, która powinna być wpisana w miejsce braku danych, jednak nie zawsze jest to możliwe.
Wstępne przygotowanie danych do analizy statystycznej ma na celu m.in. ich ujednolicenie. Przez to odpowiednie zmienne stają się porównywalne. Takie przekształcanie danych odbywa się na zasadzie wybranego sposobu skalowania.
Wzajemne relacje między obiektami mogą być wyrażone przez ich odległości lub bardziej ogólnie poprzez niepodobieństwo. Czym dalej od siebie znajdują się obiekty, tym bardziej są do siebie niepodobne, im bliżej natomiast, tym podobieństwo między nimi jest większe. Badać można odległość obiektów pod względem wielu cech np. gdy porównywane obiekty to miasta ich podobieństwo możemy definiować między innymi w oparciu o: długość drogi je łączącej, gęstości zaludnienia, PKB przypadającym na mieszkańca, emisję zanieczyszczeń, przeciętne ceny nieruchomości itd. Mając tak wiele różnych cech badacz tak musi dobrać miarę odległości, by najlepiej obrazowała rzeczywiste podobieństwo obiektów.
Wraz ze wzrostem ilości zmiennych poddawanych analizie statystycznej rośnie ich dokładność, ale rośnie też stopień komplikacji i trudności w interpretacji uzyskanych wyników. Zbyt duża ilość zmiennych niesie za sobą ryzyko wzajemnej ich korelacji. A więc informacja wnoszona przez niektóre zmienne może być redundantna, tzn. część zmiennych może nie wnosić nowej informacji do analizy, ale powtarzać informacje wniesione już przez inne zmienne. Potrzeba redukcji wymiarowości (redukcji ilości zmiennych) zrodziła całą grupę analiz poświęconych tej kwestii - jedną z nich jest analiza składowych głównych.
Analiza składowych głównych polega na wyznaczeniu zupełnie nowych zmiennych (składowych głównych) będących kombinacją liniową zmiennych obserwowanych (pierwotnych). Liczba składowych głównych, które będą reprezentowały zmienne pierwotne jest często znacznie mniejsza niż liczba zmiennych pierwotnych. Przy niewielkiej utracie informacji możemy więc zbiór p zmiennych pierwotnych zredukować do zbioru k składowych głównych gdzie k < p.
W analizie lokalnej lokalizujemy klastery czyli miejsca o zwiększonej lub zmniejszonej intensywności badanej cechy. Np. miejsca o istotnie wyższych cenach nieruchomości, o większym bądź mniejszym zanieczyszczeniu powietrza, o zwiększonej zachorowalności itp.
Lokalna wersja statystyki Morana jest najbardziej popularną analizą określaną jako LISA (Local Indicators of Spatial Association). W rezultacie działania tej analizy na mapie można wyróżnić kolorem obszary typu: High-High - obszary o wysokich wartościach otoczone przez obszary o wysokich wartościach Low-Low - obszary o niskich wartościach otoczone przez obszary o niskich wartościach Low-High - obszary o niskich wartościach otoczone przez obszary o wysokich wartościach High-Low - obszary o wysokich wartościach otoczone przez obszary o niskich wartościach
Jest jedną ze statystyk lokalnych służących lokalizowaniu klasterów. Umożliwia wykrywanie lokalnej koncentracji wartości wysokich i niskich w sąsiadujących obiektach oraz bada istotność statystyczną tej zależności.
Getis i Ord zdefiniował statystykę Gi oraz bliźniaczą statystykę Gi*, która różni się od Gi jedynie tym, że obiekt dla którego wykonuje się badanie również bierze udział w analizie. W macierzy wag jest więc zdefiniowane dla niego sąsiedztwo z samym sobą tzw. potencjał
W rezultacie na mapie można wyróżnić kolorem obszary typu: High-High - obszary o wysokich wartościach otoczone przez obszary o wysokich wartościach Low-Low - obszary o niskich wartościach otoczone przez obszary o niskich wartościach
Jest jedną z możliwych alternatyw dla statystyki globalnej Morana. Podobnie jak analiza Morana sprawdza ona czy stopień intensywności danej cechy w obiektach przestrzennych jest podobny.
Podstawową zasadą w geografii jest idea nazywana pierwszym prawem geografii Toblera (Tobler W. 1970): "wszystko jest związane z wszystkim innym, ale rzeczy w pobliżu są bardziej związane niż rzeczy odległe". Jeżeli bowiem jakiś czynnik oddziałuje w jednym miejscu to nie pozostaje to bez wpływu na pobliskie lokalizacje. Zjawisko to nosi nazwę autokorelacji przestrzennej i powoduje tworzenie się klasterów przestrzennych o wartościach podobnych.
Statystyka Morana jest jedną z szeregu Globalnych Statystyk Przestrzennych, które pozwalają odpowiedzieć na pytanie, czy badana cecha jest proporcjonalnie rozłożona na terenie objętym analizą czy też są miejsca o zwiększonym lub zmniejszonym jej nasileniu. np. czy ceny nieruchomości zależą od ich lokalizacji tzn. czy ceny te są podobne w każdej lokalizacji, czy też można wskazać lokalizacje (skupiska) o istotnie wyższych lub niższych cenach.
Budowa macierzy wag, to po prostu definiowanie wzajemnych relacji przestrzennych między obiektami przestrzennymi np. miedzy krajami, gminami, miastami. Im dokładniej w macierzy wag odzwierciedlone zostaną relacje przestrzenne, tym dokładniejsze analizy geostatystyczne możemy w przeprowadzić.
Bywają sytuacje, w których nie mamy dostępu do szczegółowych informacji na temat badanej grupy a posiadamy jedynie dane uśrednione takie jak: średnia arytmetyczna, odchylenie standardowe i liczność próby. W takich sytuacjach, dla wybranych testów statystycznych również istnieje możliwość przeprowadzenia obliczeń.
W PQStat testami pozwalającymi na obliczenia na podstawie danych uśrednionych są:
Wykresy prezentujące wyniki analiz statystycznych dostępne są w oknie wybranej analizy statystycznej. Od wersji 1.4.4 PQStat oferuje również duży wybór wykresów w oddzielnym menu (wykonywanych niezależnie od analizy statystycznej). Proponowane wykresy podzielone są na grupy:
Analiza wpływu wielu różnych czynników na wystąpienie (bądź brak) pewnego zjawiska pozwala na zbudowanie modelu regresji logistycznej. Model taki, jeśli jest dostatecznie dobry, może być następnie wykorzystany do prognozy. Np. jeśli zjawiskiem badanym jest niewypłacalność klienta (wypłacalny/niewypłacalny), to używając regresji logistycznej możemy zbudować model, który na podstawie kilku prostych informacji o kliencie będzie potrafił trafnie oszacować prawdopodobieństwo jego wypłacalności. Jak dobry jest zbudowany model? Jakie informacje o kliencie są rzeczywiście ważne (jakie zmienne są w modelu istotne statystycznie)? Na to pytanie odpowiedź znajdziemy przeprowadzając analizę regresji logistycznej.
Gdy zbudowaliśmy kilka modeli regresji logistycznej, możemy je porównać i wybrać model o optymalnej wielkości (ilości zmiennych - czynników wpływających na zaistnienie badanego zjawiska).
Statystyczna analiza przestrzenna definiowana jest jako zbiór technik badania danych, które są zlokalizowane w przestrzeni odniesionej do powierzchni ziemi. Poszczególne techniki analizy przestrzennej stosowane są w różnorodnych dziedzinach - od medycyny (epidemiologia i rozprzestrzenianie się chorób) po logistykę, fizykę i ekonomię (wyszukiwanie najkorzystniejszych lokalizacji dla fabryk, sklepów itp.).
Menadżer Map - Narzędzie służące do zarządzania mapą
PQStat Software udostępnia nieodpłatnie (do zastosowań niekomercyjnych) narzedzie do:
edytowania (kolorowania) map w formacie PQS i zarządzania ich warstwami
Zaproponowane w PQStat obliczenia dla poszczególnych obiektów (wielokątów) mapy to: centroidy, centra, pola powierzchni i obwody. Jeśli dysponujemy mapą np. mapa Polski przedstawiająca powiaty, to dzięki obliczeniom geometrycznym można wyliczyć środek każdego powiatu (centroid lub centrum), jego pole i długość granicy.
Przy pomocy statystyk opisowych można opisać wzajemne położenie obiektów na mapie (macierz wag), wyliczyć centrum tych obiektów oraz obszar odchyleń standardowych (prostokąt, okrąg lub elipsa), wyznaczyć granicę badanego obszaru - obwiednię obiektów (m.in. otoczkę wypukłą).
Wynik przestrzennej statystyki opisowej w postaci warstw może być naniesiony na mapę w Menadżerze Map.
Czy obiekty prezentowane za pomocą mapy tworzą skupiska czy też są rozłożone równomiernie? Jeną z metod pozwalającą na uzyskanie odpowiedzi na to pytanie jest analiza najbliższego sąsiedztwa. W analizie tej nie analizuje się bezpośrednio odległości pomiędzy wszystkimi obiektami, ale dla każdego obiektu szukany jest obiekt, który jest położony najbliżej tzw. najbliższe sąsiedztwo.
Wynik Analizy Najblizszego Sąsiedztwa w postaci warstw może być naniesiony na mapę w Menadżerze Map.
Porównania dwóch zależnych proporcji możemy dokonać, gdy wyliczmy proporcje obiektów spełniających określony warunek dwukrotnie (dla tych samych obektów), ale w innej sytuacji. Na przykład w grupie osób, które będa zdawały teoretyczny egzamin na prawo jazdy możemy wyliczyć proporcję błędnie rozwiązanych testów przed kursem i proporcje błędnie rozwiązanych testów po kursie, a następnie sprawdzić czy te proporcje są pobobne.
Podział badanych obiektów na dwie grupy dokonywany na podstawie pewnych obserwacji może być mniej lub bardziej precyzyjny. Zależy to od cechy na podstawie której dokonujemy podziału. By sprawdzić na ile obserwowana cecha, nazywana zwykle zmienną diagnostyczną, będzie przydatna w klasyfikowaniu obiektów do dwóch grup wykorzystuje się krzywe ROC. By móc je stosować musimy mieć informację o rzeczywistej przynależności obiektów do grup: np. w medycynie do grupy osób chorych i grupy osób zdrowych, oraz zmienną diagnostyczną, której jakość klasyfikacji będzie sprawdzana np. poziom jednego ze wskaźników morfologii.
W programie PQStat możemy:
sprawdzić na ile zmienna diagnostyczna jest przydatna w klasyfikacji obiektów do znanych dwóch grup
gdy dysponujemy dwiema zmiennymi diagnostycznymi uzyskanymi od tych samych obiektów, możemy sprawdzić czy obie zmienne diagnostyczne tak samo dobrze klasyfikują obiekty, czy też jedna z nich jest lepsza
gdy dysponujemy jedną zmienną diagnostyczną, ale pomiarów dokonujemy w dwóch różnych grupach, możemy sprawdzić czy w obu grupach zminna diagnostyczna tak samo dobrze klasyfikuje obiekty, czy też w jednej grupie klasyfikacja jest lepsza
PQStat_Linux_x86_64/AMD64: 64-bitowa wersja PQStat dla systemów linuksowych wykorzystująca środowisko GTK+ 2.
Dzięki zastosowaniu niezależnego od dystrybucji instalatora aplikacja może być zainstalowana na większości dostępnych
dystrybucji Linuksa.
Aplikacja została przetestowana i dostosowana w następujących dystrybucjach:
Gentoo 10.1 AMD64
Unubtu 8.04 Hardy Heron AMD64
Ubuntu 9.10 Karmic Koala AMD64
Ubuntu 10.10 Maverick Meerkat AMD64
Kubuntu 10.10 Maverick Meerkat AMD64
Fedora 14 x86_64
SUSE Linux Enterprise 10 (SP2) AMD64
CentOS 5.5 x86_64
Wymagana zależność "GTK+2" (libgtk2,libpango1,libcairo2,libatk) instalowana jest domyślnie podczas instalacji każdej z w/w dystrybucji niezależnie od wybranego środowiska (Gnome,KDE,XFCE,...).
Wielokrotne wykonywanie analiz
Wielokrotne wykonywanie analiz pozwala na szybkie generowanie raportów wtedy, gdy przeprowadzamy tę samą analizę dla różnych zmiennych lub dla różnych podzbiorów danych.
Zamiana danych surowych na tabelę kontyngencji i odwrotnie
Forma organizacji danych zależy od procedur statystycznych, jakie użytkownik planuje wykonać.
Analiza statystyczna danych może dotyczyć danych zebranych w postaci tabeli kontyngencji lub danych w postaci surowej. Przy czym istnieje możliwość zamiany danych: