statistiske Tests-Hvornår skal du bruge hvilken ?

For en person, der fra en ikke-statistisk baggrund af de mest forvirrende aspekter af statistik, er altid de grundlæggende statistiske tests, og hvornår man skal bruge hvilken. Dette blogindlæg er et forsøg på at markere forskellen mellem de mest almindelige tests, brugen af nulværdihypotese i disse tests og skitsere de betingelser, under hvilke en bestemt test skal bruges.,

før vi vove os om forskellen mellem forskellige tests, skal vi formulere en klar forståelse af, hvad en nulhypotese er. En nulhypotese foreslår, at der ikke findes nogen signifikant forskel i et sæt givne observationer. For formålet med disse prøver generelt

Null: Givet to eksempler på midler er lig

Suppleant: Givet to eksempler på midler er ikke lig med

For at afvise en null-hypotese, en teststørrelsen beregnes. Denne teststatistik sammenlignes derefter med en kritisk værdi, og hvis den viser sig at være større end den kritiske værdi, afvises hypotesen., “I de teoretiske grundlag er hypotesetest baseret på begrebet kritiske regioner: nullhypotesen afvises, hvis teststatistikken falder i den kritiske region. De kritiske værdier er grænserne for den kritiske region. Hvis testen er ensidig (som en22-test eller en ensidig t-test), vil der kun være en kritisk værdi, men i andre tilfælde (som en tosidet t-test) vil der være to”.,

kritisk værdi

en kritisk værdi er et punkt (eller punkter) på skalaen af teststatistikken, ud over hvilken vi afviser nulhypotesen, og er afledt af niveauet af betydning α af testen. Kritisk værdi kan fortælle os, hvad er sandsynligheden for to prøve midler, der tilhører den samme fordeling. Højere betyder den kritiske værdi lavere sandsynligheden for to prøver, der tilhører samme distribution. Den generelle kritiske værdi for en to-tailed test er 1,96, hvilket er baseret på det faktum, at 95% af arealet af en normal fordeling er inden for 1.,96 standardafvigelser af middelværdien.

kritiske værdier kan bruges til at udføre hypotesetest på følgende måde

1. Beregn teststatistik

2. Beregn kritiske værdier baseret på signifikansniveau alpha

3. Sammenlign teststatistik med kritiske værdier.

Hvis teststatistikken er lavere end den kritiske værdi, skal du acceptere hypotesen eller afvise hypotesen., For at tjekke, hvordan til at beregne en kritisk værdi i detaljer tjek

Før vi bevæger os fremad med forskellige statistiske tests, er det vigtigt at forstå forskellen mellem en prøve, og en befolkning.

i statistikker refererer “befolkning” til det samlede sæt observationer, der kan foretages. For eksempel, hvis vi ønsker at beregne den gennemsnitlige højde af mennesker, der er til stede på jorden, vil “befolkning” være det “samlede antal mennesker, der faktisk er til stede på jorden”.,

en prøve er på den anden side et sæt data indsamlet / udvalgt fra en foruddefineret procedure. For vores eksempel ovenfor vil det være en lille gruppe mennesker udvalgt tilfældigt fra nogle dele af jorden.

for at drage konklusioner fra en prøve ved at validere en hypotese er det nødvendigt, at prøven er tilfældig.

For eksempel i vores eksempel ovenfor, hvis vi vælger folk tilfældigt fra alle regioner(Asien, Amerika, Europa, Afrika osv.,) på jorden vil vores estimat være tæt på det faktiske estimat og kan antages som en prøvemiddelværdi, mens hvis vi foretager valg, lad os kun sige fra USA, så vil vores gennemsnitlige højdeestimat ikke være nøjagtigt, men vil kun repræsentere dataene fra en bestemt region (USA). En sådan prøve kaldes derefter en partisk prøve og er ikke en repræsentant for “befolkning”.

et andet vigtigt aspekt at forstå i statistikker er “distribution”., Når “population” er uendeligt stor, er det usandsynligt at validere enhver hypotese ved at beregne middelværdien eller testparametrene for hele populationen. I sådanne tilfælde antages en befolkning at være af en eller anden type fordeling.

de mest almindelige former for distributioner er Binomial, Poisson og diskret., Der er dog mange andre typer, som er nævnt i detaljer i

bestemmelse af fordelingen type, der er nødvendige for at bestemme den kritiske værdi, og prøve at blive valgt til at validere enhver hypotese

Nu, når vi er klar på befolkningen, prøve, og distribution vi kan komme frem til at forstå de forskellige former for test og distribution typer, som de er brugt.,

forholdet mellem p-værdi, kritisk værdi og teststatistik

som vi ved, er kritisk værdi et punkt, ud over hvilket vi afviser nulhypotesen. P-værdi på den anden side er defineret som sandsynligheden til højre for respektive statistik (,, T eller chi). Fordelen ved at bruge p-værdi er, at den beregner et sandsynlighedsestimat, vi kan teste på ethvert ønsket signifikansniveau ved at sammenligne denne sandsynlighed direkte med signifikansniveauet.

for eksempel antager, at Z-værdien for et bestemt eksperiment kommer ud til at være 1,67, hvilket er større end den kritiske værdi ved 5%, som er 1.,64. For nu at kontrollere et andet signifikansniveau på 1% skal en ny kritisk værdi beregnes.

men hvis vi beregner p-værdi for 1,67 det kommer til at være 0,047. Vi kan bruge denne p-værdi til at afvise hypotesen på 5% signifikansniveau siden 0.047 < 0.05. Men med et strengere signifikansniveau på 1% accepteres hypotesen siden 0.047 > 0.01. Vigtigt punkt at bemærke her er, at der ikke er behov for dobbelt beregning.

test-test

i en sample-test antages prøven at være normalt fordelt., En z-score beregnes med populationsparametre som “populationsmiddelværdi” og “populationsstandardafvigelse” og bruges til at validere en hypotese om, at den udtagne prøve tilhører den samme population.,

Null: Stikprøve middelværdien er den samme som populationsmiddelværdien

Suppleant: Prøven betyder er ikke samme som at populationsmiddelværdien

De statistikker, der anvendes for denne hypotese test kaldes z-statistik, er den score, som er beregnet som

z = (x — μ) / (σ / √n), hvor

x= sample mean

μ = populationsmiddelværdi

σ / √n = populationens standardafvigelse

Hvis teststørrelsen er mindre end den kritiske værdi, acceptere hypotesen eller andet afvise hypotesen

T-test

En t-test bruges til at sammenligne gennemsnit af to prøver., Ligesom en test-test antager en t-test også en normal fordeling af prøven. En t-test anvendes, når populationsparametrene (middel-og standardafvigelse) ikke er kendt.

Der er tre versioner af T-test

1. Uafhængige prøver t-test, der sammenligner middelværdi for to grupper

2. Parret prøve t-test, der sammenligner midler fra den samme gruppe på forskellige tidspunkter

3. En prøve t-test, der tester gennemsnittet af en enkelt gruppe mod et kendt middelværdi.,

statistik for denne hypotese test kaldes t-statistik, er den score, som er beregnet som

t = (x1 — x2) / (σ / √n1 + σ / √n2), hvor

x1 = middelværdi for stikprøve 1

x2 = middelværdi for stikprøve 2

n1 = størrelse af stikprøve 1

n2 = størrelse af stikprøve 2

Der er flere variationer af t-test, som er forklaret i detaljer her

ANOVA

ANOVA, også kendt som analyse af varians, bruges til at sammenligne flere (tre eller flere) prøver med en enkelt test. Der er 2 store smag af ANOVA

1., Envejs ANOVA: det bruges til at sammenligne forskellen mellem de tre eller flere prøver/grupper af en enkelt uafhængig variabel.

2. MANOVA: MANOVA giver os mulighed for at teste effekten af en eller flere uafhængige variabler på to eller flere afhængige variabler. Derudover kan MANOVA også registrere forskellen i samforhold mellem afhængige variabler i betragtning af grupperne af uafhængige variabler.

hypotesen, der testes i ANOVA, er

Null: alle par prøver er ens, dvs., alle prøvemidler er ens

Alternative: mindst et par prøver er signifikant forskellige

de statistikker, der bruges til at måle betydningen, kaldes i dette tilfælde F-statistik. F-værdi beregnes ved hjælp af formlen

F= ((SSE1 — SSE2)/m)/ SSE2/n-k, hvor

SSE = residual sum af kvadrater

m = antallet af begrænsninger

k = antallet af uafhængige variable

Der er flere værktøjer til rådighed, såsom SPSS, R-pakker, Excel osv. at udføre ANOVA på en given prøve.,

Chi-s .uare Test

Chi-s .uare test bruges til at sammenligne kategoriske variabler. Der er to typer chi-s .uare test

1. Godhed af fit test, som afgør, om en prøve matcher befolkningen.

2. En chi-square fit test for to uafhængige variabler bruges til at sammenligne to variabler i en kontingenstabel for at kontrollere, om oplysningerne passer.

a. en lille chi-s .uare værdi betyder, at data passer

b. en høj chi-s .uare værdi betyder, at data ikke passer.,

den hypotese, der testes for chi-kvadrat, er

Null: variabel A og variabel B er uafhængige

alternativ: variabel A og variabel B er ikke uafhængige.

den statistik, der bruges til at måle betydning, kaldes i dette tilfælde CHI-s .uare statistik., Formlen anvendes til at beregne statistik

Χ2 = Σ, hvor

, Eller, c = observeret frekvens tæller på niveau f af En Variabel og niveau c i Variabel B

Er c = forventet frekvens tæller på niveau f af En Variabel og niveau c i Variabel B

Bemærk: Som man kan se fra ovenstående eksempler, vil i alle tests et statistik er ved at blive sammenlignet med en kritisk værdi for at acceptere eller afvise en hypotese., Statistikken og måden at beregne den varierer dog afhængigt af typen af variabel, Antallet af prøver, der analyseres, og hvis populationsparametrene er kendt. Afhængig af sådanne faktorer vælges således en passende test og nulhypotese.

Dette er det vigtigste punkt, som jeg har bemærket, i mine bestræbelser på at lære om disse tests og finde det medvirkende til min forståelse af disse grundlæggende statistiske begreber.

ansvarsfraskrivelse

dette indlæg fokuserer stærkt på normalt distribuerede data., Z-test og t-test kan anvendes til data, som ikke er normalt fordelt samt hvis stikprøvestørrelsen er større end 20, men der er andre foretrukne metoder til at anvende i en sådan situation. Besøg http://www.statisticshowto.com/probability-and-statistics/non-normal-distributions/ for mere information om test for ikke-normale distributioner.

Reference

2. http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test

3. http://www.statisticshowto.com/p-value/

4. http://www.statisticshowto.com/probability-and-statistics/chi-square/

5. http://stattrek.com/chi-square-test/independence.aspx?Tutorial=AP

6. https://www.investopedia.com/terms/n/null_hypothesis.asp

7. https://math.stackexchange.com/questions/1732178/help-understanding-difference-in-p-value-critical-value-results

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *