zanim przejdziemy do różnych testów statystycznych, konieczne jest zrozumienie różnicy między próbką a populacją.
w statystyce „populacja” odnosi się do całkowitego zestawu obserwacji, które można wykonać. Przykładowo, jeśli chcemy obliczyć średnią wysokość ludzi obecnych na ziemi, „populacja” będzie „całkowitą liczbą ludzi faktycznie obecnych na ziemi”.,
z drugiej strony próbka jest zbiorem danych zebranych / wybranych z predefiniowanej procedury. Dla naszego przykładu powyżej, będzie to niewielka grupa ludzi wybranych losowo z niektórych części ziemi.
aby wyciągnąć wnioski z próbki przez walidację hipotezy, konieczne jest, aby próbka była losowa.
na przykład, w naszym powyższym przykładzie, jeśli wybieramy ludzi losowo ze wszystkich regionów(Azja, Ameryka, Europa, Afryka itp.,) na Ziemi, nasze oszacowanie będzie zbliżony do rzeczywistego oszacowania i można założyć jako średnią próbki, natomiast jeśli dokonamy wyboru powiedzmy tylko ze Stanów Zjednoczonych, to nasz średni szacunek wysokości nie będzie dokładny, ale będzie reprezentować tylko dane z określonego regionu (Stany Zjednoczone). Taka próbka jest następnie nazywana próbką stronniczą i nie jest przedstawicielem „populacji”.
kolejnym ważnym aspektem do zrozumienia w statystykach jest „dystrybucja”., Gdy „populacja” jest nieskończenie duża, jest nieprawdopodobne, aby potwierdzić jakąkolwiek hipotezę, obliczając średnią wartość lub parametry testu na całej populacji. W takich przypadkach przyjmuje się, że populacja jest pewnego rodzaju dystrybucji.
najczęstszymi formami rozkładów są dwumianowe, Poissona i dyskretne., Jednak istnieje wiele innych typów, które są wymienione szczegółowo w
określenie typu dystrybucji jest konieczne do określenia wartości krytycznej i testu, który ma być wybrany do walidacji dowolnej hipotezy
teraz, gdy jesteśmy jasne na populacji, próbki i dystrybucji możemy iść do przodu, aby zrozumieć różne rodzaje testów i typów dystrybucji, dla których są one używane.,
relacja między p-wartość, wartość krytyczna i statystyki badania
jak wiemy wartość krytyczna jest punktem, poza którym odrzucamy hipotezę zerową. Wartość P z drugiej strony jest zdefiniowana jako Prawdopodobieństwo na prawo od odpowiedniej statystyki(z, T lub chi). Zaletą stosowania wartości p jest to, że oblicza oszacowanie prawdopodobieństwa, możemy przetestować na dowolnym pożądanym poziomie istotności, porównując to prawdopodobieństwo bezpośrednio z poziomem istotności.
Dla np. Załóżmy, że wartość Z dla danego eksperymentu wynosi 1.67, która jest większa niż wartość krytyczna przy 5%, która wynosi 1.,64. Teraz, aby sprawdzić inny poziom istotności 1%, należy obliczyć nową wartość krytyczną.
Jeśli jednak obliczymy wartość p dla 1,67, to będzie to 0,047. Możemy użyć tej wartości p, aby odrzucić hipotezę na poziomie istotności 5% od 0,047 < 0,05. Ale przy bardziej rygorystycznym poziomie istotności 1% hipoteza zostanie zaakceptowana od 0.047 > 0.01. Ważne jest, aby pamiętać, że nie jest wymagane podwójne obliczenia.
Z-test
W teście z zakłada się, że próbka jest rozkładana normalnie., Z-score jest obliczany z parametrów populacji, takich jak „średnia populacji” i „odchylenie standardowe populacji” i jest używany do potwierdzenia hipotezy, że pobrana próbka należy do tej samej populacji.,
Null: Średnia próbki jest taka sama jak średnia populacji
alternatywnie: Średnia próbki nie jest taka sama jak średnia populacji
statystyki używane do tego badania hipotezy nazywa się z-statystyki, wynik dla którego jest obliczana jako
Z = (X — μ) / (σ / √n), gdzie
x= średnia próbki
μ = średnia populacji
σ / √n = odchylenie standardowe populacji
p>
Jeśli Statystyka badania jest niższa niż wartość krytyczna, przyjmij hipotezę lub odrzuć hipotezę
t-Test
t-Test jest używany do porównania średniej z dwóch podanych próbek., Podobnie jak test z, test t zakłada również normalny rozkład próbki. Badanie t stosuje się, gdy parametry populacji (średnie i odchylenie standardowe) nie są znane.
istnieją trzy wersje t-test
1. Niezależne próbki t-test porównujący średnią dla dwóch grup
2. Sparowana próbka t-test, który porównuje środki z tej samej grupy w różnych okresach
3. Jedna próbka t-test, który sprawdza średnią z jednej grupy w stosunku do znanej średniej.,
Statystyka dla tego badania hipotezy nazywa t-statystyka, wynik, dla którego jest obliczana jako
t = (x1 — x2) / (σ / √N1 + σ / √N2), gdzie
x1 = średnia z próbki 1
x2 = średnia z próbki 2
N1 = Rozmiar próbki 1
/p>
N2 = rozmiar próbki 2
istnieje wiele odmian testu T, które są szczegółowo wyjaśnione tutaj
ANOVA
ANOVA, znany również jako analiza wariancji, jest używany do porównania wielu (trzech lub więcej) próbek z jednym testem. Są 2 główne smaki ANOVA
1., Jednokierunkowa ANOVA: służy do porównania różnicy między trzema lub więcej próbkami / grupami pojedynczej zmiennej niezależnej.
2. MANOVA: MANOVA pozwala nam przetestować wpływ jednej lub więcej zmiennych niezależnych na dwie lub więcej zmiennych zależnych. Ponadto MANOVA może również wykryć różnicę w współzależności między zmiennymi zależnymi, biorąc pod uwagę grupy zmiennych niezależnych.
hipoteza badana w ANOVA jest
Null: wszystkie pary próbek są takie same, tzn., wszystkie środki próbki są równe
alternatywnie: co najmniej jedna para próbek różni się znacznie
statystyki używane do pomiaru znaczenia, w tym przypadku nazywa się F-statystyki. Wartość F jest obliczana za pomocą wzoru
F= ((SSE1 — SSE2)/m)/ SSE2/n-k, gdzie
SSE = suma resztkowa kwadratów
m = liczba ograniczeń
k = liczba niezależnych zmiennych
dostępnych jest wiele narzędzi, takich jak SPSS, Pakiety R, Excel itp. przeprowadzenie ANOVA na danej próbce.,
Test Chi-kwadrat
Test Chi-kwadrat służy do porównywania zmiennych kategorycznych. Istnieją dwa rodzaje testu chi-kwadrat
1. Goodness of fit test, który określa, czy próbka pasuje do populacji.
2. Test dopasowania chi-kwadrat dla dwóch niezależnych zmiennych jest używany do porównania dwóch zmiennych w tabeli awaryjnej, aby sprawdzić, czy dane pasują.
a. mała wartość chi-kwadrat oznacza, że dane pasują
b. wysoka wartość chi-kwadrat oznacza, że dane nie pasują.,
hipoteza badana dla kwadratu chi jest
Null: zmienna A i zmienna B są niezależne
Alternate: zmienna a i zmienna B nie są niezależne.
statystyka używana do pomiaru znaczenia, w tym przypadku, nazywa się statystyka chi-kwadrat., Wzór używany do obliczania statystyki TO
Χ2 = Σ,gdzie
Or,c = obserwowana liczba częstotliwości na poziomie R zmiennej A i poziomie C zmiennej B
Er, C = oczekiwana liczba częstotliwości na poziomie R zmiennej A i poziomie C zmiennej B
Uwaga: Jak widać z powyższych przykładów, we wszystkich testach statystyka jest porównywana z krytyczną liczbą wartości.wartość do przyjęcia lub odrzucenia hipotezy., Jednak statystyka i sposób jej obliczania różnią się w zależności od rodzaju zmiennej, liczby analizowanych próbek i czy znane są parametry populacji. Tak więc w zależności od takich czynników wybiera się odpowiedni test i hipotezę zerową.
jest to najważniejszy punkt, który zauważyłem, w moich wysiłkach, aby dowiedzieć się o tych testach i znaleźć to instrumentalne w moim zrozumieniu tych podstawowych pojęć statystycznych.
Disclaimer
Ten post koncentruje się głównie na normalnie dystrybuowanych danych., Z-test i t-test mogą być stosowane do danych, które nie są normalnie rozłożone, jak również, Jeśli wielkość próby jest większa niż 20, jednak istnieją inne preferowane metody do wykorzystania w takiej sytuacji. Proszę odwiedzić http://www.statisticshowto.com/probability-and-statistics/non-normal-distributions/ aby uzyskać więcej informacji na temat testów dla rozkładów innych niż normalne.
2. http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test
3. http://www.statisticshowto.com/p-value/
4. http://www.statisticshowto.com/probability-and-statistics/chi-square/
5. http://stattrek.com/chi-square-test/independence.aspx?Tutorial=AP
6. https://www.investopedia.com/terms/n/null_hypothesis.asp
7. https://math.stackexchange.com/questions/1732178/help-understanding-difference-in-p-value-critical-value-results