Ćwiczenie Statystyka opisowa I estymacja




Pobierz 137.2 Kb.
NazwaĆwiczenie Statystyka opisowa I estymacja
Data konwersji11.10.2012
Rozmiar137.2 Kb.
TypDokumentacja
Ćwiczenie 1. Statystyka opisowa i estymacja


Korzystając ze skryptu do ćwiczeń z informatyki zorganizuj sobie środowisko pracy (chodzi o podłączenie dysku H:\ do folderu ‘Moje dokumenty’; przyda się też skrót do folderu F:\CWICZENIA\Statystyka).


Poznajemy narzędzia pracy. Histogramy i statystyka opisowa.


Otwórz pusty dokument programem MS Word. Będziesz w nim tworzyć raport ze swych obliczeń.


Excel

Otwórz plik dane1.xls (F:\CWICZENIA\Statystyka) programem MS Excel. Zapisz go pod inną nazwą w swoim katalogu roboczym. Jest tam 16 kolumn pomiarów. Twoim zadaniem będzie analiza jednej kolumny, wskazanej przez asystenta. Wpisz nazwę tej kolumny w tytule raportu.

Sprawdź, czy w menu Narzędzia figuruje punkt ‘Analiza danych’. Jeśli go nie ma, wykonaj ‘Narzędzia/Dodatki’ i na liście dodatków wybierz: Analysis Toolpak, Analysis Toolpak VBA oraz Solver.

Wyznacz podstawowe statystyki opisowe: ‘Narzędzia/Analiza danych/Statystyka opisowa’. Wskaż odpowiednią kolumnę danych, zaznacz kratkę ‘Statystyki podsumowujące’ (a także ‘Tytuły w pierwszym wierszu’) i wciśnij OK. Umieść w raporcie średnią, odchylenie standardowe (a raczej jego estymatę) i pozostałe parametry. Zwróć uwagę na dziwaczne niekiedy nazewnictwo używane przez polskie wydanie Excela: jaki parametr statystyczny kryje się pod nazwą tryb? Powtórz obliczenia dla pierwszych 40 danych z Twojej kolumny. Dla których parametrów estymaty z małej i dużej próbki różnią się znacznie? Zanotuj uwagi w raporcie.


Sporządź histogram pierwszych 40 wyników (‘Narzędzia/Analiza danych/Histogram’, nie zapomnij zaznaczyć kratki ‘Wykres wyjściowy’), a potem drugi dla wszystkich danych. Przenieś wykresy do raportu.

Zamknij Excela.


Statistica

Uruchom program Statistica, pozamykaj wewnętrzne okienka, które się ukażą i wczytaj plik, którego używałeś w Excelu: Plik/Otwórz/, jako typ wskaż pliki Excela (.xls). Wybierz ‘Import wybranego arkusza’ i wskaż odpowiedni arkusz. Pamiętaj zaznaczyć, że pierwszy wiersz zawiera nazwy zmiennych.


Wykonaj histogram (Wykresy/Histogramy) o 30 przedziałach (kategoriach) z wszystkich danych z Twojej kolumny (przycisk Zmienne pozwala wskazać odpowiednią kolumnę danych do analizy). Statistica wrysowuje krzywą Gaussa. Jeśli nie pasuje ona dobrze do Twego wykresu, spróbuj znaleźć lepsze dopasowanie (karta ‘Więcej’, punkt ‘Dopasuj’).

Wywołaj ‘Statystyka/Statystyki podstawowe/Statystyki opisowe’. Zaznacz na karcie ‘Więcej’ wszystkie ważniejsze parametry opisowe i wciśnij ‘Podsumowanie: statystyki opisowe’.


Zrób wykres „ramka z wąsami” (ramka-wąsy, karta podstawowe) dla tych danych w układzie mediana/kwartyle/rozstęp (układ ustawia się na karcie ‘Opcje’).


Przenieś histogramy, wartości parametrów i wykres ‘z wąsami’ do raportu (zaznaczając jakim programem zostały wykonane). Zamknij program Statistica. Radzę też od czasu do czasu zapisywać aktualny stan raportu z programu MS Word.


SAS

Uruchom program SAS (w polskiej wersji językowej). Pobierz dane: Plik/Importuj dane. Zaznacz kratkę ‘Standard data source’ i upewnij się, że wybrano ‘Skoroszyt Microsoft Excela’. Wciśnij ‘Dalej >’, odszukaj plik (przez Browse1). Po zatwierdzeniu nazwy pliku i wybraniu właściwego arkusza pojawi się pytanie o bibliotekę i element (library/member). Jako bibliotekę wybierz SASUSER, a w polu Member wpisz jakąś nazwę (np. histogramy). Można już teraz od razu wcisnąć ‘Koniec’ (operacja dostępna na dalszych stronach nie jest nam na razie potrzebna). W lewej części okienka kliknij na ‘Biblioteki’ i sprawdź, że w folderze ‘Sasuser’ znajduje się tabela ‘Histogramy’.


Z głównego menu wybierz ‘Rozwiązania/Raportowanie/Graph-N-Go’.

Wciśnij przycisk i w polu ‘SAS data set’ wskaż przygotowaną tabelę (przycisk ). Ikonka pojawi się w górnej części okienka. Wciśnij przycisk (piąty od góry, nie pierwszy!) i ustaw na środku okienka ramkę, która się ukaże. Przenieś teraz ikonkę symbolizującą Twe dane do tej ramki. Otrzymasz wykres danych z kolumny X1. Kliknij teraz prawym guzikiem myszy na wykresie, wybierz ‘Properties’, wybierz kartę ‘Data’ i w polu Category wybierz interesującą Cię kolumnę danych.

Ponownie klikając prawym guzikiem masz możliwość dopracowania wykresu, nadania mu tytułów, podtytułów itp. W końcu zapisz rysunek do pliku: ‘Eksportuj/external file/’, przejdź do swojego folderu, wybierz typ .WMF (lub inny, jeśli wiesz co robisz) i podaj sensowną nazwę pliku (zamiast proponowanego ‘gng’).

Wciągnij ten plik do raportu (MSWord: ‘Wstaw/Rysunek/Z pliku’).


Wykres ramka-wąsy uzyskasz wpisując w edytorze systemu SAS taki „program” (zamiast X2 podaj swoją kolumnę)

.

data d2;

set Sasuser.Histogramy;

x0=1;

run;


proc boxplot data=d2;

plot x2*x0 / boxwidth=20;

inset mean stddev nobs / cfill=yellow font=Times;

run;

Po wpisaniu naciskasz ikonkę..


W celu uzyskania wybranych statystyk opisowych (powiedzmy dla x2) piszemy:

proc means data=d2 n mean min max std median skew kurt q1 q3;

var x2;

run;

Jednak najprostszy sposób to:

proc univariate data=d2;

var x2;

run;


Przekopiuj uzyskane wyniki do raportu.


Wróć do oryginalnego pliku Excela (dane1.xls). Zapisz go (u siebie) w formacie CSV (jako dane1.csv).


R

Uruchom program R. Ustaw swój folder jako bieżący: ‘File/Change dir/Browse’ i odszukaj ‘Moje dokumenty’.

Pobierz dane wpisując:

> X<-read.csv2("dane1.csv")

Sprawdź, czy pobrałeś co chciałeś:

> fix(X)



Wycofujesz się zamykając okienko ‘Data Editor’.

Histogram wykonasz poleceniem:

> hist(X$X1,breaks=30)

X to nazwa całej tabeli, X1 oznacza konkretną kolumnę. Jednak Twoje życzenie podziału na 30 części jest traktowane jako sugestia a nie żądanie. Możesz dowiedzieć się na ile przedziałów w rzeczywistości zdecydował się R:

> h<-hist(X$X1,breaks=30)

> summary(h)

Length Class Mode

breaks 43 -none- numeric

counts 42 -none- numeric

intensities 42 -none- numeric

density 42 -none- numeric

mids 42 -none- numeric

xname 1 -none- character

equidist 1 -none- logical

Wygląd wykresu można dopracować, np.:

> hist(X$X1,70,main="Histogram probki 1",ylab="czestosc na szerokosc przedzialu",xlab=”Wartosci pomiarowe”,col="green", freq=FALSE,xlim=c(0,14))

„Polskich liter” lepiej nie stosować, niestety.

Pstryknij prawym guzikiem myszki w obszarze rysunku, wybierz ‘Copy as metafile’ i wklej rysunek do raportu.

Najprostsze statystyki opisowe uzyskasz poleceniem:

> summary(X$X1)

Liczbę cyfr znaczących możesz dopasować dodając parametr ‘digits’, np.:

> summary(X$X1,digits=7)

W R też możesz zrobić ‘ramkę z wąsami’:

> boxplot(X$X1,col=”blue”)


Trudne histogramy.

Spróbuj powtórzyć czynności dla zmiennej X15 lub X16. Otrzymane histogramy nie wyglądają imponująco, bez względu na program, którym je wykonano. Powodem są nieliczne dane bardzo odstające od pozostałych. Trzeba więc najpierw ustalić przedział, w którym skupiona jest większość danych i do niego ograniczyć zakres tworzonego histogramu.

Może w tym pomóc obejrzenie tabelki, którą Excel tworzy wraz z histogramem, a także wyznaczenie kwartyli. W Excelu, w wolnym miejscu (np. w komórkach R1-R4 oryginalnego arkusza) oblicz dla wybranej zmiennej pierwszy i trzeci fraktyl oraz percentyle 0.01 i 0.99.

Jako przedział wybierz, wg swego uznania, zakres między kwartylami lub między percentylami. W innej kolumnie (np. S) zbuduj listę punktów podziału dla histogramu: w S1 wpisz fromułę =R1 (lub =R3, jeśli korzystasz z percentyli), w S2:

=S1+0.05*($R$2-$R$1) i powiel to aż do komórki S21. Następnie wykonaj: Narzędzia/Analiza danych/Histogram’. Oprócz podania zakresu komórek (jak poprzednio) w polu zakres zbioru wskaż utworzoną przez siebie listę S1:S21. Jeśli efekt nadal jest mierny, spróbuj zmienić wartości percentyli.

Przenieś wyniki (histogram i dane o granicach przedziału) do raportu.

Znając już przedział, w którym warto robić histogramy, dość łatwo uzyskasz je w SAS-ie lub R.


SAS

Wpisz taki ‘program’:


proc univariate data=Sasuser.Histogramy;

var x15;

histogram x15 / cfill=yellow normal(color=green);

run;


Uzyskany histogram nie jest zbyt udany. Zmieniamy więc program na taki:


data d2;

set Sasuser.Histogramy;

if(... < x15 < ...);

run;


proc univariate data=d2;

var x15;

histogram x15 / cfill=yellow normal(color=green);

run;


W miejsce ... wpisujesz oczywiście ustalone wcześniej granice przedziału.


R

Muisz ponownie pobrać dane i spróbować:

>hist(X$X15,100,main="Histogram probki 15",freq=FALSE,xlim=

c(...,...))

Zamiast ... dajesz zakres. Liczbę słupków zwiększasz, aż uzyskasz zadowalający wynik.


Może uda Ci się taka sztuka również w Statistica?


Estymacja przedziałowa

Wyznacz przedziały ufności na poziomie ufności 95% dla wartości oczekiwanej, wariancji i odchylenia standardowego dla wskazanego zbioru danych.

Statistica

Statystyka/Statystyki podstawowe i tabele, statystyki opisowe’, na karcie ‘Więcej’ zaznaczasz przedział ufności średniej.


Przedział ufności dla wariancji i odchylenia standardowego. Excel.

Wyznacz jak poprzednio statystyki opisowe. Przypuśćmy, że otrzymasz coś takiego:




W polu B8 jest wariancja, a w polu B15 liczba pomiarów (n). Zgodnie ze wzorem:



wpisujemy (np. w D8) =B8*(B15-1)/ROZKŁAD.CHI.ODW(0,025;B15-1). Podobnie w E8 wpisujesz prawą stronę nierówności – jedyna różnica, to wartość prawdopodobieństwa zamiast , czyli 0.975 zamiast 0.025.

Wyznacz też przedział ufności dla odchylenia standardowego – w polach D7 i E7 umieść pierwiastki pól D8 i E8.


SAS

Potrzebne przedziały uzyskasz poleceniem PROC TTEST:

data doUfnosci;

input x;

datalines; /* tu skopiuj swoje dane */


8.816932896

7.551397997

7.43552

1.96038924

9.899302986

3.794073622

;

run;

proc ttest data=doUfnosci;

var x;

run;

Ćwiczenie 2. Testowanie hipotez


Przygotuj nowy plik raportu. Zatytułuj go zgodnie z tematem ćwiczenia.


Test t-Studenta dla zmiennych połączonych.


Excel

Dane są w pliku ‘dane2.xls’, w arkuszu ‘powiązane’. Prowadzący poda Ci kolumny z danymi, które masz porównywać.

Przypuśćmy, że dane umieszczono parami w kolumnach A i B. Wybierasz Narzędzia/Analiza danych/test t: par skojarzonych... , w polach ‘Zakres zmiennej’ wskazujesz odpowiednie kolumny danych, pole ‘Różnica średnich wg hipotezy’ zostawiasz puste i wykonujesz obliczenia.

W uzyskanych wynikach ustalasz, czy można odrzucić hipotezę równości wartości oczekiwanych:

  • jednostronnego testu dla hipotezy alternatywnej :

    • sprawdzasz, czy średnie spełniają taką nierówność jak w wartości oczekiwane. Jeśli nie, test na pewno nie wyszedł.

    • odczytujesz w polu ‘P(T<=t) jednostronny’ wartość poziomu istotności. Różnice są istotne, jeśli ten poziom jest mniejszy od 0,05 (zwykle przyjmowany poziom istotności).

    • Równoważne postępowanie: jeśli statystyka t (‘t Stat’) jest ujemna i jej wartość bezwzględna przewyższa wartość krytyczną (‘Test t jednostronny’) różnice są istotne.

  • dwustronnego testu dla hipotezy alternatywnej .

    • potrzebny poziom istotności masz teraz w polu ‘P(T<=t) jednostronny’.

    • można tez porównać wartość bezwzględną ‘t Stat’ z wartością krytyczną dla test dwustronnego.

W raporcie powinny się znaleźć jasno sformułowane wnioski (nie wystarczy wklejenie tabelek wyników).


Test t-Studenta dla zmiennych niepołączonych.

Wykorzystujesz wskazane przez prowadzącego kolumny danych arkusza ‘niepowiązane’.

Wykonaj kolejno obydwie analizy: z założeniem równych wariancji oraz test Satterthwaite’a (nierówne wariancje). Przetestuj hipotezę równości wartości oczekiwanej względem dwóch alternatyw:





Podobnie jak poprzednio sformułuj końcowe wnioski.


Test F Fishera (równość wariancji)

Ustal, która z analiz w punkcie poprzednim była bardziej uzasadniona. W tym celu na tych samych danych wykonaj Narzędzia/Analiza danych/test F: z dwiema próbami...

Przez analogię do testu Studenta spróbuj samodzielnie zinterpretować wynki.


Statistica

Wprowadź (jak w poprzednich ćwiczeniach z użyciem Statistiki) potrzebne arkusze danych.

Powtórz testy, które robiłeś w Excelu:

Statystyka/Statystyki podstawowe i tabele, wskaż potrzebny arkusz, potem wybierz odpowiedni rodzaj testu: w przypadku zmiennych niepowiązanych (niezależnych) powinien to być test względem zmiennych.

Używając przycisku ‘Zmienne’ wskazujesz obie porównywane zmienne. Przy zmiennych niepowiązanych możesz w ‘Opcjach’ zaznaczyć test Levene’a. Zaznaczenie kratki ‘Test t z oddzielną oceną wariancji’ powoduje wykonanie testu Satterthwaite’a.

Wykonaj analizę ‘Podsumowanie: testy t’. Poziomy istotności odczytasz w polach oznaczonych ‘p’. Poziomy te i statystyki testowe są czerwone, gdy wyniki są istotne na poziomie 0,05 (albo innym, ustawionym „do podświetlania” w ‘Opcjach’).

Zinterpretuj wyniki i porównaj z otrzymanymi w Excelu.

Zrób też wykres ‘ramka-wąsy’ i umieść w raporcie.


SAS

Test t-Studenta dla zmiennych niepołączonych.

Dane możesz przygotować podobnie, jak przy wyznaczaniu przedziałów ufności:

data doStudenta;

input x grupa;

datalines;

/* tu przekopiuj swoje dane, a potem dopisz w drugiej kolumnie numery grup */

16.64500296 1

16.20996891 1

17.78741016 1

19.52171197 1


7.799598527 2

7.863905487 2

8.489042122 2

9.264951379 2

;

run;


Następnie wpisz:


proc ttest data=doStudenta alpha=0.05;

var x;

class grupa;

run;

i wykonaj obliczenia.

SAS podaje tylko wyniki dla testu dwustronnego (hipoteza alternatywna ). Nie uniemożliwia to jednak również testu jednostronnego. Czy masz pomysł, jak sobie poradzić w takiej sytuacji?


Obliczanie mocy i niezbędnej liczebności próby.

Wykonane obliczenia traktujemy jako pilotażowe dla oszacowania niezbędnej liczebności próby, która zapewni moc testu 80%.


proc power;

twosamplemeans test=diff_satt

groupmeans = 3.56 | 5.27 /* tu wpisać obliczone średnie w grupach */

groupstddevs = 0.51 | 2.62 /* a tu uzyskane odchylenia standardowe */

power = 0.80

sides = 1 /* test jedno- czy dwustronny? */

npergroup = .;

run;


Oceniamy też moc wykonanego testu:


proc power;

twosamplemeans test=diff_satt

groupmeans = 3.56 | 5.27

groupstddevs = 0.51 | 2.62

power = .

sides = 2

groupns = 8 | 6; /* liczebności grup */

run;

Ćwiczenie 3. Testy nieparametryczne.


Porównaj, przy pomocy odpowiednich testów nieparametrycznych, te same pary danych, które analizowałeś testem t-Studenta.

Statistica.

Pobierz dane, jak poprzednio.

Dla prób niepowiązanych wykonaj następujące czynności:

utwórz dwie nowe zmienne (kolumny danych): Dane/Zmienne/Dodaj i podaj, że będą dwie zmienne po ostatniej kolumnie; w rubryce nazwa możesz wpisać np. ‘X’. Skopiuj do pierwszej z nich obydwie porównywane kolumny, jedną pod drugą. W drugiej kolumnie wpisz 1 obok danych z pierwszej grupy i 2 obok danych z drugiej grupy:


Kolumnę tę możesz przemianować: pstryknij w jej nagłówku prawym guzikiem myszy i wybierz Specyfikacja zmiennej. Zmień nazwę na ‘Grupa’.

Wywołaj: Statystyka/Statystyki nieparametryczne. Wskaż właściwy arkusz i wybierz porównanie dwóch prób niezależnych. W rubryce ‘zmienne zależne’ wykaż nowoutworzoną kolumnę danych, a jako zmienną grupującą podaj zmienną z jedynkami i dwójkami.

Wykonaj test U Manna Whitney’a i zinterpretuj wyniki: ‘poziom p’ porównaj z poziomem istotności 0,05.

Zapisz przekształcony arkusz w postaci nowego pliku Excela: kliknij prawym guzikiem myszy na nazwie arkusza w lewej części okienka i ‘Zapisz jako...’, jako typ wybierz ‘Skoroszyt Excela’, nadaj plikowi sensowną nazwę i zapisz w swoim folderze. W podobny sposób zapisz ten arkusz również jako plik tekstowy; jako separator wybierz średnik. Dobrze by było, gdybyś zapisał w postaci tekstowej również drugi arkusz (ze zmiennymi powiązanymi).


Porównanie prób powiązanych (zależnych) nie wymaga tworzenia dodatkowych kolumn i przebiega podobnie jak test t-Studenta dla zmiennych połączonych. Potrzebny test nazywa się teraz testem kolejności par Wilcoxona.


SAS

Zaimportuj zapisany w sesji Statistiki skoroszyt wg procedury z pierwszego ćwiczenia i zapisz w bibliotece ‘Sasuser’ pod roztropnie wybraną nazwą, np. ‘nieparametryczne’. Obliczenia wykonujesz następującym programikiem:

proc npar1way data=Sasuser.nieparametryczne wilcoxon;

exact wilcoxon;

var X1; /* nazwa kolumny z danymi */

class Grupa; /* nazwa zmiennej grupującej */

run;


Zauważ, że masz teraz możliwość wykonania zarówno jedno-, jak i dwustronnego testu zgodności. Najdokładniejszy test podany jest pod hasłem ‘Exact test’. Jednak gdybyś kiedyś porównywał tym testem duże próby, usunięcie wiersza ‘exact wilcoxon;’ może być konieczne ze względu na czas obliczeń lub brak pamięci komputera.

Oprócz wklejania wyników do raportu nie zapomnij krótko sformułować wyników testu, zarówno jedno- jak i dwustronnego.


R

Pobierz plik tekstowy utworzony podczas ostatniej sesji Statistiki (wcześniej, jak zwykle ustaw folder roboczy):

> dane<-read.csv2("nazwa.txt")

> fix(dane)

Wykonamy zarówno testy parametryczne jak i nieparametryczne:

  • test t-Studenta:

dla zmiennych niepołączonych (zamiast A i B podajesz swoje zmienne).

    • test dwustronny

> t.test(x=dane$A,y=dane$B)

    • test jednostronny: w zależności od swojej hipotezy w miejsce ... wpisujesz less lub greater.

> t.test(x=dane$A,y=dane$B2,alternative="...")

  • test Wilcoxona: postępujesz jak wyżej używając wilcox.test zamiast t.test. (test rang Wilcoxona jest równoważny z testem U-Manna-Whitney’a, ale oblicza się w nim inną statystykę. Dokładny test uzyskasz dodając parametr exact=TRUE.

Porównaj wyniki uzyskane w R, SAS i Statistica. Jakie niezgodności widzisz?

Odpowiednie testy dla zmiennych połączonych wykonuje się dodając parametr paired=TRUE. Dla ich wykonania trzeba pobrać dane z arkusza dla tego przypadku, np. tak:

> danepol<-read.csv2("inna nazwa.txt")

> fix(danepol)

> t.test(x=danepol$A,y=danepol$B,paired=TRUE)

itd. Pamiętaj zamiast A i B podawać nazwy swoich kolumn danych.


W R możesz też oszacować moc testu t-Studenta lub niezbędną liczebność próby, musisz jednak wcześniej ocenić różnicę średnich w obu grupach (delta) oraz odchylenie standardowe (sd) pomiarów:

> power.t.test(delta=..., sd=..., n=...) (n to liczba przypadków na 1 grupę).

Dla liczebności próby:

> power.t.test(delta=..., sd=..., power=0.80) (zamiast 0.80 można wpisać inną moc, którą chcemy osiągnąć)

Ćwiczenie 4. Analiza wariancji



W podkatalogu 1anova (katalog F:\CWICZENIA\Statystyka) znajdują się pliki tekstowe. Pobierz wskazany przez prowadzącego np. do programu MS Excel: Plik/Otwórz/Pliki tekstowe (*.prn; *.txt; *csv). Podczas importowania wybierasz następujące cechy

Z separatorami / Separatory: Spacja, Kolejne separatory traktuj jako jeden, Kwalifikator tekstu: brak.

Ponieważ liczby zapisane są z kropkami dziesiętnymi, przerób je na przecinki (Edycja/Zamień...).

Przekształć dane tak, aby w jednej kolumnie otrzymać pomiary (zmienna zależna, liczby), a w drugiej poziomy czynnika (w naszym przykładzie nazwy kolorów). Zaczniemy od transpozycji (zamiany wierszy na kolumny): zaznacz obszar danych, wykonaj Edycja/Kopiuj, Wstaw/Arkusz, w tym nowym arkuszu Edycja/Wklej specjalnie, zaznacz kratkę Transpozycja i OK. Przed dalszą analizą zapisz to jako skoroszyt programu MS Excel. Następnie: Analiza danych/Analiza wariancji jednoczynnikowa. Grupowanie masz teraz wg kolumn i tytuły w pierwszym wierszu. Przenieś wyniki do (nowego) raportu i zapisz wniosek.

Wróć do arkusza z przetransponowanymi danymi. Teraz rób co chcesz, byle uzyskać analogiczną strukturę pliku jak w ćwiczeniu 3 (rys. obok). Zapisz pod inną nazwą.


Statistica.

Otwórz przygotowany w Excelu plik i wybierz odpowiedni arkusz. Następnie: Statystyka/ANOVA/Jednoczynnikowa Anova i OK. Teraz przycisk Zmienne i wskazujemy, która kolumna jest zmienną zależną, a która niezależną. Znów OK. Przycisk Wszystkie efekty da tabelę analizy wariancji. Nie zaszkodzi Średnie, Wykresy i zrobienie po kolei wykresu i tabeli ze średnimi. Powinno się to zgadzać z wynikami z Excela. Teraz przycisk Więcej wyników, karta Post-hoc i Test Tukeya dla różnych N. Oprócz przeniesienia tabeli do raportu napisz wyraźnie, między którymi grupami różnice okazały się istotne.

Następnie wykonaj test Dunneta (prowadzący powie Ci, którą grupę przyjąć jako kontrolną i określi, czy test ma być jedno, czy dwustronny).

Zweryfikuj też poprawność założeń analizy wariancji (karta Założenia, przycisk Test Levene’a). Istotna wartość wskazywałaby na znaczące odstępstwo od jednorodności wariancji (zakładanej w tej analizie).


SAS

Zaimportuj arkusz danych do katalogu Sasuser (jak w ćwiczeniu 1) i nadaj mu odpowiednią nazwę (np. kolorki). Programik, który policzy wszystko co zrobiłeś w Statistice jest całkiem prosty: Zamiast Zal i Nzal wpisujesz odpowiednio nazwę kolumny ze zmienną zależną i niezależną.

Porównaj wyniki z uzyskanymi poprzednio.

proc glm data=Sasuser.kolorki;

class Nzal;

model Zal=Nzal;

means Nzal / hovtest=levene; /* wypisujemy średnie, "przy okazji" test Levene'a */

means Nzal / tukey; /* test Tukey'a */

means Nzal / dunnett ('Kontrola'); /* zamiast Kontrola */

/* wpisz odpowiedni poziom czynnika */

run;


R

Pobierz dane do zmiennej dane (jak zwykle). Następnie:

> wyn<-aov(V1~V2,data=dane)

> anova(wyn)

> TukeyHSD(wyn)

(istotne różnice będą w tych porównaniach, których przedział ufności nie zawiera zera)

> bartlett.test(V1~V2,data=dane) (poprzednik testu Levene’a)

Wielokrotne porównania nieparametryczne.


Wykonaj obliczenia dla tych samych danych, które opracowywałeś analizą wariancji.


Statistica

Otwórz odpowiedni zbiór danych. Potem: Statystyka/Statystyki nieparametryczne/Porównanie wielu prób niezależnych. Po wskazaniu zmiennej zależnej i niezależnej wykonaj ‘Wielokrotne porównanie średnich rang dla wszystkich prób’. Przyda się też wykres ramka-wąsy zmiennej zależnej, wykorzystujący wskaźniki nieparametryczne (mediana, kwartyle, rozstęp). Porównaj z wynikami parametrycznej analizy wariancji.


R

Tylko test: pobranie danych (jak w poprzednim ćwiczeniu) do zmiennej dane, następnie:

> bartlett.test(V1~V2,data=dane)


Ćwiczenie 5. Korelacja i regresja


W podkatalogu korreg (katalog F:\CWICZENIA\Statystyka) znajdują się pliki tekstowe. Pobierz wskazany przez prowadzącego do programu MS Excel w taki sam sposób jak w ćwiczeniu 4. Dane będą już w postaci kolumnowej, nie trzeba ich więc transponować. Zapisz arkusz u siebie, jako skoroszyt programu Excel.

Wyznacz parametry dwuwymiarowego rozkładu normalnego, przyjmując że pierwsza kolumna to X, a druga – Y. W tym celu wykonaj Narzędzia/Analiza danych/Korelacja. Jako zakres wejściowy wskaż obie kolumny danych, grupowanie wg kolumn. Do raportu przenieś samą wartość współczynnika korelacji. Musisz jeszcze użyć Narzędzia/Analiza danych/Statystyki opisowe aby uzyskać pozostałe parametry.

Wykonaj również dostępną w Excelu analizę regresji: Nrzędzia/Analiza danych/Regresja. Nie pomyl X z Y. Zaznacz kratkę ‘poziom ufności’, wszystkie kratki w polu Składniki resztowe i kratkę ‘Rozkład prawdopodobieństwa normalnego’.

Doprowadź wykresy do sensownego wyglądu i umieść je w raporcie. Odnajdź współczynniki linii prostej wiążącej Y z X, oraz odchylenia standardowe i przedziały ufności dla tych współczynników i tylko te dane przenieś do raportu. Czy wśród wyników widzisz współczynnik korelacji?


Statistica.

Otwórz plik utworzony w Excelu. Warto zacząć od wykresu: Wykresy/Wykres rozrzutu, wskazać kolumny zmiennych, wybrać Pas regresji/Ufność; na karcie ‘Więcej’ w punkcie ‘Statystyki’ wszystkie kratki.

Z wykresu możesz m.in. odczytać wynik testu istnienia korelacji (dwustronnego).

Oblicz współczynniki korelacji Spearmana i Kendalla i ustal czy korelacja jest istotna statystycznie. Do tego celu służy Statystyka/Statystyki nieparametryczne/Korelacje...

Wykonaj jeszcze Statystyka/Regresja wieloraka. Ustaw zmienne, zaznacz ‘Przeglądaj statystyki opisowe’ i 2 razy przycisk ‘OK’. W ‘podsumowaniu wyników regresji’ znajdziesz w kolumnie B współczynniki linii prostej wraz z ich odchyleniami standardowymi i testami tego, czy są różne od zera. Streść te wyniki w raporcie. Na karcie ‘Reszty, założenia, predykcja’ ‘Wykonaj analizę reszt’ robiąc wykres normalności. Dla trzech, dowolnie przez siebie wybranych wartości X, leżących w obserwowanym zakresie wykonaj ‘Predykcję zmiennej zależnej’. Zanotuj wynik, jego odchylenie standardowe i przedział ufności.


1 Jak widać producent niezbyt głęboko zaszedł z polonizacją pakietu. W przyszłości radzę wybierać angielską wersję językową. Polskie komunikaty, jeśli nawet są, bywają błędnie tłumaczone.




Dodaj dokument na swoim blogu lub stronie

Powiązany:

Ćwiczenie Statystyka opisowa I estymacja iconĆwiczenie 4: Opis zmiennej (statystyka opisowa ) Strona | Ćwiczenie Analiza pojedynczej zmiennej

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa – teoria

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa analiza struktury

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa – zadania powtórzeniowe

Ćwiczenie Statystyka opisowa I estymacja iconLista zadań nr 2 Statystyka opisowa – ćwiczenia

Ćwiczenie Statystyka opisowa I estymacja iconĆwiczenie 5 Estymacja metodą największej wiarygodności (mnw)

Ćwiczenie Statystyka opisowa I estymacja iconStatystyka opisowa (Zestaw przykładowy) (jedna odpowiedź prawdziwa)

Umieść przycisk na swojej stronie:
Rozprawki


Baza danych jest chroniona prawami autorskimi ©pldocs.org 2014
stosuje się do zarządzania
Rozprawki
Dom