Tests statistiques-Quand utiliser lequel ?

Pour une personne à partir d’un non-statistique la plus déroutante aspect de la statistique, sont toujours les fondamentaux de tests statistiques, et quand à utiliser. Cet article de blog est une tentative de marquer la différence entre les tests les plus courants, l’utilisation de l’hypothèse de valeur nulle dans ces tests et décrivant les conditions dans lesquelles un test particulier doit être utilisé.,

avant de nous aventurer sur la différence entre les différents tests, nous devons formuler une compréhension claire de ce qu’est une hypothèse nulle. Une hypothèse nulle, propose qu’aucune différence significative existe dans un ensemble d’observations. Pour les besoins de ces tests en général

Null: étant donné que deux moyennes d’échantillon sont égales

Alternate: étant donné que deux moyennes d’échantillon ne sont pas égales

pour rejeter une hypothèse nulle, une statistique de test est calculée. Ce test statistique est ensuite comparée à une valeur critique, et si elle est supérieure à la valeur critique, l’hypothèse est rejetée., « Dans les fondements théoriques, les tests d’hypothèses sont basés sur la notion de régions critiques: l’hypothèse nulle est rejetée si la statistique de test tombe dans la région critique. Les valeurs critiques sont les limites de la région critique. Si le test est unilatéral (comme un test χ2 ou un test T unilatéral), il n’y aura qu’une seule valeur critique, mais dans d’autres cas (comme un test T bilatéral), il y en aura deux”.,

valeur critique

une valeur critique est un point (ou des points) sur l’échelle de la statistique de test au-delà duquel nous rejetons l’hypothèse nulle, et, est dérivée du niveau de signification α du test. La valeur critique peut nous dire, quelle est la probabilité de deux moyens d’échantillon appartenant à la même distribution. Plus élevé, la valeur critique signifie plus faible la probabilité de deux échantillons appartenant à la même distribution. La valeur critique générale pour un test à deux queues est de 1,96, ce qui est basé sur le fait que 95% de la surface d’une distribution normale se trouve dans 1.,96 écarts types de la moyenne.

les valeurs Critiques peut être utilisé pour faire le test d’hypothèse manière suivante

1. Calculer la statistique de test

2. Calculez les valeurs critiques en fonction du niveau de signification alpha

3. Comparer les statistiques de test avec les valeurs critiques.

Si la statistique de test est inférieure à la valeur critique, accepter l’hypothèse ou le rejeter l’hypothèse., Pour vérifier comment calculer une valeur critique en détail, veuillez vérifier

avant d’avancer avec différents tests statistiques, il est impératif de comprendre la différence entre un échantillon et une population.

en statistique, le terme « population” désigne l’ensemble des observations qui peuvent être faites. Par exemple, si nous voulons calculer la hauteur moyenne des humains présents sur la terre, « population” sera le « nombre total de personnes réellement présentes sur la terre”.,

un échantillon, quant à lui, est un ensemble de données collectées / sélectionnées à partir d’une procédure prédéfinie. Pour notre exemple ci-dessus, ce sera un petit groupe de personnes sélectionnées au hasard dans certaines parties de la terre.

pour tirer des inférences d’un échantillon en validant une hypothèse, il est nécessaire que l’échantillon soit aléatoire.

Par exemple, dans notre exemple ci-dessus, si nous sélectionnons des personnes au hasard de toutes les régions(Asie, Amérique, Europe, Afrique, etc.,) sur Terre, notre estimation sera proche de l’estimation réelle et peut être supposée comme une moyenne d’échantillon, alors que si nous faisons une sélection, disons seulement à partir des États-Unis, alors notre estimation de la hauteur moyenne ne sera pas exacte, mais ne représenterait que les données d’une région particulière (États-Unis). Un tel échantillon est alors appelé échantillon biaisé et n’est pas représentatif de la « population”.

un autre aspect important à comprendre en statistique est la « distribution”., Lorsque « population » est infiniment grande, il est improbable de valider une hypothèse en calculant la valeur moyenne ou les paramètres de test sur l’ensemble de la population. Dans de tels cas, une population est supposée être d’un certain type de distribution.

Les formes les plus courantes de distributions sont binomiales, de Poisson et discrètes., Cependant, il existe de nombreux autres types qui sont mentionnés en détail à

la détermination du type de distribution est nécessaire pour déterminer la valeur critique et le test à choisir pour valider toute hypothèse

maintenant, lorsque nous sommes clairs sur la population, l’échantillon et la distribution, nous pouvons avancer pour comprendre différents types de test et les types de distribution pour lesquels ils sont utilisés.,

relation entre la valeur p, la valeur critique et la statistique de test

Comme nous le savons, la valeur critique est un point au-delà duquel nous rejetons l’hypothèse nulle. D’autre part, la valeur P est définie comme la probabilité à droite de la statistique respective (Z, T ou chi). L’avantage de l’utilisation de la valeur p est qu’elle calcule une estimation de probabilité, nous pouvons tester à n’importe quel niveau de signification souhaité en comparant cette probabilité directement avec le niveau de signification.

par exemple, supposons que la valeur Z pour une expérience particulière soit 1,67, ce qui est supérieur à la valeur critique à 5% qui est 1.,64. Maintenant, pour vérifier un niveau de signification différent de 1%, une nouvelle valeur critique doit être calculée.

cependant, si nous calculons la valeur p pour 1,67, elle est de 0,047. Nous pouvons utiliser cette valeur p pour rejeter l’hypothèse au niveau de Signification de 5% depuis 0.047 < 0.05. Mais avec un niveau de signification plus strict de 1%, l’hypothèse sera acceptée puisque 0.047 > 0.01. Point Important à noter ici est qu’il n’y a pas de double calcul nécessaire.

Z-test

Dans un z-test, l’échantillon est supposé être distribués normalement., Un score z est calculé avec des paramètres de population tels que « moyenne de la population” et « écart type de la population” et est utilisé pour valider une hypothèse selon laquelle l’échantillon tiré appartient à la même population.,

Null: moyenne d’Échantillonnage est la même que la moyenne de population

Suppléant: moyenne d’Échantillonnage n’est pas la même que la moyenne de population

Les statistiques utilisées pour ce test d’hypothèse est appelée z-statistique, dont la partition est calculé comme

z = (x — µ) / (σ / √n), où

x= moyenne de l’échantillon

μ = moyenne de population

σ / √n = écart-type de population

Si la statistique de test est inférieure à la valeur critique, accepter l’hypothèse ou le rejeter l’hypothèse

T-test

Un t-test est utilisé pour comparer les moyennes de deux échantillons., Comme un test z, un test t suppose également une distribution normale de l’échantillon. Un test t est utilisé lorsque les paramètres de population (moyenne et écart type) ne sont pas connus.

Il existe trois versions du t-test

1. Échantillons indépendants t-test qui compare la moyenne pour deux groupes

2. Échantillon apparié t-test qui compare les moyennes du même groupe à des moments différents

3. Un échantillon T-test qui teste la moyenne d’un seul groupe par rapport à une moyenne connue.,

La statistique de ce test d’hypothèse est appelée statistique t, dont la partition est calculé comme

t = (x1 — x2) / (σ / √n1 + σ / √n2), où

x1 = moyenne de l’échantillon 1

x2 = moyenne de l’échantillon 2

n1 = taille de l’échantillon 1

n2 = taille de l’échantillon 2

Il y a plusieurs variations de t-test, qui sont expliqué en détail ici

ANOVA

ANOVA, aussi connu comme l’analyse de la variance, est utilisé pour comparer plusieurs (trois ou plus) des échantillons en un seul test. Il existe 2 saveurs majeures D’ANOVA

1., ANOVA unidirectionnelle: elle est utilisée pour comparer la différence entre les trois échantillons/groupes ou plus d’une seule variable indépendante.

2. MANOVA: MANOVA permet de tester l’effet d’une ou plusieurs variables indépendantes sur deux ou plusieurs variables dépendantes. En outre, MANOVA peut également détecter la différence de co-relation entre les variables dépendantes étant donné les groupes de variables indépendantes.

l’hypothèse testée dans ANOVA est

Null: toutes les paires d’échantillons sont identiques, c’est-à-dire, tous les moyens sont égaux

Suppléant: Au moins une paire d’échantillons est significativement différente

Les statistiques utilisées pour mesurer l’importance, dans ce cas, est appelé F-statistiques. La valeur F est calculée en utilisant la formule

F= ((SSE1 — SSE2)/ m)/SSE2/n-k, où

SSE = somme résiduelle des carrés

M = nombre de restrictions

k = nombre de variables indépendantes

Il existe plusieurs outils disponibles tels que SPSS, paquets R, Excel, etc. effectuer une ANOVA sur un échantillon donné.,

Test du Chi-carré

Le test du Chi-carré est utilisé pour comparer des variables catégorielles. Il existe deux types de test du chi carré

1. Test de qualité de l’ajustement, qui détermine si un échantillon correspond à la population.

2. Un test d’ajustement du chi carré pour deux variables indépendantes est utilisé pour comparer deux variables dans un tableau de contingence afin de vérifier si les données correspondent.

A. Une petite valeur du chi carré signifie que les données correspondent

B. une valeur du chi carré élevée signifie que les données ne correspondent pas. ,

l’hypothèse testée pour le chi-carré est

Null: la Variable A et la Variable B sont indépendantes

Alternate: la Variable A et la Variable B ne sont pas indépendantes.

la statistique utilisée pour mesurer la signification, dans ce cas, est appelée statistique du chi carré., La formule utilisée pour le calcul de la statistique est

Χ2 = Σ où

Or,c = nombre de fréquence observé au niveau r de la Variable A et au niveau c de la Variable B

Er,c = nombre de fréquence attendu au niveau r de la Variable A et au niveau c de la Variable b

Note: Comme on peut le voir dans les exemples ci-dessus, dans tous les tests, une statistique est comparée à une statistique critique.valeur pour accepter ou rejeter une hypothèse., Cependant, la statistique et le mode de calcul diffèrent selon le type de variable, le nombre d’échantillons analysés et si la population paramètres sont connus. Ainsi, en fonction de ces facteurs, un test approprié et une hypothèse nulle sont choisis.

c’est le point le plus important que j’ai noté, dans mes efforts pour en apprendre davantage sur ces tests et le trouver instrumental dans ma compréhension de ces concepts statistiques de base.

Avertissement

Ce post se concentre fortement sur la distribution normale des données., Z-test et t-test peuvent également être utilisés pour des données qui ne sont pas normalement distribuées si la taille de l’échantillon est supérieure à 20, mais il existe d’autres méthodes préférables à utiliser dans une telle situation. Veuillez visiter http://www.statisticshowto.com/probability-and-statistics/non-normal-distributions/ pour plus d’informations sur les tests pour les distributions non normales.

Référence

2. http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test

3. http://www.statisticshowto.com/p-value/

4. http://www.statisticshowto.com/probability-and-statistics/chi-square/

5. http://stattrek.com/chi-square-test/independence.aspx?Tutorial=AP

6. https://www.investopedia.com/terms/n/null_hypothesis.asp

7. https://math.stackexchange.com/questions/1732178/help-understanding-difference-in-p-value-critical-value-results

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *