mielőtt továbblépnénk a különböző statisztikai tesztekkel, feltétlenül meg kell érteni a minta és a populáció közötti különbséget.
a statisztikákban a “népesség” a megfigyelések teljes készletére utal. Például, ha azt akarjuk, hogy kiszámítja az átlagos magassága az emberek jelen vannak a földön,” populáció “lesz a”teljes számú ember ténylegesen jelen van a földön”.,
a minta viszont egy előre meghatározott eljárásból összegyűjtött/kiválasztott adatkészlet. A fenti példánkban egy kis embercsoport lesz, amelyet véletlenszerűen választanak ki a Föld egyes részeiből.
következtetések levonása egy mintából egy hipotézis validálásával szükséges, hogy a minta véletlenszerű legyen.
például a fenti példánkban, ha véletlenszerűen választunk ki embereket minden régióból(Ázsia, Amerika, Európa, Afrika stb.,) a földön becslésünk közel lesz a tényleges becsléshez, és mintaértékként feltételezhető, míg ha csak az Egyesült Államokból választunk, akkor az átlagos magasságbecslésünk nem lesz pontos, hanem csak egy adott régió (Egyesült Államok) adatait reprezentálja. Az ilyen mintát ezután elfogult mintának nevezik, és nem a “népesség” képviselője.
egy másik fontos szempont, amelyet meg kell érteni a statisztikákban, az”elosztás”., Ha a” populáció ” végtelenül nagy, valószínűtlen, hogy bármilyen hipotézist érvényesítsen a teljes populáció átlagértékének vagy tesztparamétereinek kiszámításával. Ilyen esetekben, a lakosság feltételezhető, hogy valamilyen típusú Eloszlás.
a disztribúciók leggyakoribb formái a binomiális, Poisson és a diszkrét., Van azonban sok más típusok, amelyek különböznek részletesen
A meghatározása eloszlás típusát meg kell határozni azt a kritikus értéket, valamint a vizsgálati kell megválasztani, hogy érvényesítse olyan hipotézis
Most, amikor világos, populáció, minta, engedély is léphetünk előre, hogy megértsük, a különböző vizsgálat, illetve a forgalmazás-típusok, amelyek hozzá vannak szokva.,
A P-érték, a kritikus érték és a tesztstatisztika közötti kapcsolat
mivel tudjuk, hogy a kritikus érték egy olyan pont, amelyen túl elutasítjuk a null hipotézist. A p-érték viszont a megfelelő statisztika (Z, T vagy chi) jobb oldalán található valószínűség. A p-érték használatának előnye, hogy kiszámítja a valószínűségi becslést, bármilyen kívánt szignifikanciaszinten tesztelhetjük, ha ezt a valószínűséget közvetlenül összehasonlítjuk a szignifikancia szinttel.
például tegyük fel, hogy egy adott kísérlet Z-értéke 1, 67, ami nagyobb, mint az 5% – os kritikus érték, ami 1.,64. Most, hogy ellenőrizzük az 1% – os eltérő szignifikanciaszintet, új kritikus értéket kell kiszámítani.
Ha azonban kiszámítjuk a p-értéket 1, 67-re, akkor 0, 047 lesz. Ezt a p-értéket felhasználhatjuk a hipotézis elutasítására 5% – os szignifikancia szinten, mivel 0,047 < 0,05. De szigorúbb 1% – os szignifikanciaszint mellett a hipotézist 0, 047 > 0, 01. Fontos megjegyezni, hogy nincs szükség kettős számításra.
Z-test
egy z-teszt, a minta feltételezzük, hogy általában elosztott., A Z-pontszámot olyan populációs paraméterekkel kell kiszámítani, mint a” populációs átlag “és a” populációs szórás”, és arra a hipotézis érvényesítésére használják, hogy a levont minta ugyanahhoz a populációhoz tartozik.,
Null: a Minta azt jelenti, ugyanaz, mint a népesség jelenti,
Alternatív: a Minta azt jelenti, nem ugyanaz, mint a népesség jelenti,
A statisztikák használni ezt a hipotézist teszteli az úgynevezett z-statisztika, a pontszámot, amely alapján kiszámított
z = (x — μ) / (σ / √n), ahol
x= a minta azt jelenti,
μ = népesség jelenti,
σ / √n = lakosság szórás
Ha a vizsgálati statisztika kisebb, mint a kritikus érték, elfogadni azt a hipotézist, vagy más elutasítja a hipotézis
T-próba
A t-teszt segítségével hasonlítsa össze a két adott mintákat., A z-teszthez hasonlóan a T-teszt a minta normális eloszlását is feltételezi. T-tesztet akkor alkalmaznak, ha a populációs paraméterek (átlag és szórás) nem ismertek.
a T-test
1 három változata létezik. Független minták T-teszt, amely összehasonlítja az átlagos két csoport
2. Páros minta t-teszt, amely összehasonlítja azt jelenti, ugyanabból a csoportból különböző időpontokban
3. Egy minta T-teszt, amely egyetlen csoport átlagát teszteli egy ismert átlaggal szemben.,
A statisztika ez a hipotézis tesztelése az úgynevezett t-statisztika, a pontszámot, amely alapján kiszámított
a t = (x1 — x2) / (σ / √n1 + σ / √n2), ahol
x1 = jelenti a minta 1
x2 = jelenti minta 2
n1 = méret minta 1
n2 = méret minta 2
több változata a t-vizsgálat, amely részletes magyarázata itt
ANOVA
ANOVA, is ismert, mint a varianciaanalízis, használt összehasonlítani több (három vagy több) mintákban egyetlen teszt. Jelenleg 2 fő ízek ANOVA
1., Egyirányú ANOVA: egy független változó három vagy több mintája/csoportja közötti különbség összehasonlítására szolgál.
2. MANOVA: MANOVA lehetővé teszi számunkra, hogy teszteljük egy vagy több független változó hatását két vagy több függő változóra. Ezenkívül a MANOVA a független változók csoportjait figyelembe véve képes kimutatni a függő változók közötti társ-kapcsolat különbségét is.
az ANOVA-ban vizsgált hipotézis
Null: minden mintapár azonos, azaz., minden mintaeszköz egyenlő
alternatív: legalább egy mintapár szignifikánsan különbözik
a szignifikancia mérésére használt statisztikákat ebben az esetben F-statisztikáknak nevezzük. Az F értéket a
F= ((SSE1 — SSE2)/M)/ SSE2/n-k képlettel kell kiszámítani, ahol
SSE = négyzetek maradék összege
m = korlátozások száma
k = független változók száma
Több eszköz áll rendelkezésre, például SPSS, R csomagok, Excel stb. ANOVA elvégzése egy adott mintán.,
Chi-Square Test
Chi-square test összehasonlítására használják kategorikus változók. Kétféle chi-négyzet teszt létezik
1. A fitt teszt jósága, amely meghatározza, hogy egy minta megfelel-e a lakosságnak.
2. A chi-négyzet fit teszt két független változók összehasonlítására használják a két változó egy készenléti táblázatban, hogy ellenőrizze, hogy az adatok illeszkednek.
a. egy kis chi-négyzet érték azt jelenti, hogy az adatok
b. a magas chi-négyzet érték azt jelenti,hogy az adatok nem illeszkednek.,
A chi-négyzetre vizsgált hipotézis
Null: az a változó és a B változó független
Alternatív: az a változó és a B változó nem független.
a szignifikancia mérésére használt statisztikát ebben az esetben chi-négyzet statisztikának nevezik., A kiszámításához használt képlet a statisztika
Χ2 = Σ ahol
Vagy c = a megfigyelt gyakorisági szinten r a Változó, illetve c szint Változó B
Er,c = várható gyakorisági szinten r a Változó, illetve c szint Változó B
Megjegyzés: Mint látható, a fenti példákat a vizsgálatok egy statisztika, hogy ahhoz képest egy kritikus értéket, hogy elfogadja vagy elutasítja a hipotézist., A statisztika és a számítás módja azonban a változó típusától, az elemzett minták számától és a populációs paraméterek ismeretétől függően eltérő. Így az ilyen tényezőktől függően megfelelő teszt És null hipotézis kerül kiválasztásra.
Ez a legfontosabb pont, amit megjegyeztem, az erőfeszítéseim során, hogy megismerjem ezeket a teszteket, és fontosnak tartsam ezeket az alapvető statisztikai fogalmakat.
jogi nyilatkozat
Ez a bejegyzés erősen összpontosít a normálisan elosztott adatokra., A Z-test és a t-test akkor is használható, ha a minta mérete meghaladja a 20-at, de vannak más előnyösebb módszerek is, amelyeket ilyen helyzetben kell alkalmazni. Kérjük, látogasson el a http://www.statisticshowto.com/probability-and-statistics/non-normal-distributions/ További információ a nem normál eloszlások tesztjeiről.
Reference
2. http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test
3. http://www.statisticshowto.com/p-value/
4. http://www.statisticshowto.com/probability-and-statistics/chi-square/
5. http://stattrek.com/chi-square-test/independence.aspx?Tutorial=AP
6. https://www.investopedia.com/terms/n/null_hypothesis.asp
7. https://math.stackexchange.com/questions/1732178/help-understanding-difference-in-p-value-critical-value-results