非統計的な背景からの人のために、統計の最も混乱した側面は、常に統計的検定、およびいつ使用するか。 このブログ記事は、最も一般的なテストの違い、これらのテストでのnull値仮説の使用、および特定のテストを使用する条件の概要を示す試みです。,
異なるテストの違いに挑戦する前に、帰無仮説が何であるかを明確に理解する必要があります。 帰無仮説は、与えられた観測値のセットに有意な差が存在しないことを提案します。 一般にこれらの検定の目的のために
Null:Given two sample means are equal
Alternate:Given two sample means are equal
帰無仮説を棄却するために、検定統計量が計算されます。 次に、この検定統計量を臨界値と比較し、臨界値よりも大きいことが判明した場合、仮説は棄却されます。, “理論的な基盤では、仮説検定は臨界領域の概念に基づいています:検定統計量が臨界領域にある場合、帰無仮説は棄却されます。 臨界値は臨界領域の境界です。 テストが片側(σ2テストや片側tテストのように)であれば、臨界値は一つだけですが、他のケース(両側tテストのように)では二つがあります”。,
臨界値
臨界値は、帰無仮説を棄却する検定統計量のスケール上の点(または点)であり、検定の有意性αのレベルから導かれます。 臨界値は、同じ分布に属する二つのサンプル手段の確率は何であるかを教えてくれます。 臨界値が高いほど、同じ分布に属する二つのサンプルの確率が低いことを意味します。 両側検定の一般的な臨界値は1.96であり、これは正規分布の面積の95%が1以内であるという事実に基づいています。,平均の96標準偏差。
臨界値は、次の方法で仮説検定を行うために使用することができます
1. 検定統計量の計算
2. 有意水準アルファに基づいて臨界値を計算する
3. 検定統計量と臨界値を比較します。
検定統計量が臨界値よりも低い場合は、仮説を受け入れるか、そうでなければ仮説を棄却します。, 臨界値の計算方法を詳細に確認するには、
さまざまな統計検定を進める前に、サンプルと母集団の違いを理解することが不可欠です。
統計では、”人口”とは、可能な観測の合計セットを指します。 例えば、地球上に存在する人間の平均身長を計算したい場合、”人口”は”実際に地球上に存在する人々の総数”になります。,
一方、サンプルは、事前に定義された手順から収集/選択されたデータのセットである。 上記の例では、地球の一部からランダムに選択された小さなグループになります。
仮説を検証することによってサンプルから推論を引き出すには、サンプルがランダムであることが必要です。
たとえば、上記の例では、すべての地域(アジア、アメリカ、ヨーロッパ、アフリカなど)からランダムに人を選択した場合,)地球上では、私たちの推定値は実際の推定値に近く、サンプル平均として仮定することができますが、米国からのみ選択した場合、平均身長推定値は正確ではなく、特定の地域(米国)のデータのみを表すことになります。 このようなサンプルは、偏ったサンプルと呼ばれ、”人口”の代表ではありません。
統計で理解すべきもう一つの重要な側面は”分布”です。, “母集団”が無限に大きい場合、母集団全体の平均値またはテストパラメータを計算することによって仮説を検証することは不可能です。 このような場合、母集団は何らかのタイプの分布であると仮定されます。
分布の最も一般的な形式は、二項、ポアソンおよび離散的である。, しかし、
分布タイプの決定は、仮説を検証するために選択される臨界値と検定を決定するために必要である
さて、母集団、標本、分布について明らかになったら、さまざまな種類の検定とそれらが使用される分布タイプを理解するために進むことができる。,
p値、臨界値および検定統計量の関係
臨界値は、帰無仮説を棄却する点であることがわかっています。 一方、P値は、それぞれの統計量(Z、Tまたはchi)の右側の確率として定義されます。 P値を使用する利点は、確率推定値を計算することであり、この確率を有意水準と直接比較することによって任意の有意水準で検定できることです。
例えば、特定の実験のZ値が1.67であり、5%で臨界値よりも大きいと仮定すると、1である。,64. ここで、1%の異なる有意水準をチェックするために、新しい臨界値が計算されます。
ただし、1.67のp値を計算すると、0.047になります。 このp値を使用して、5%の有意水準で仮説を棄却することができます0.047<0.05。 しかし、より厳しい有意水準が1%の場合、0.047>0.01以降、仮説が受け入れられます。 ここで注意すべき重要な点は、二重計算は必要ないということです。
Z検定
z検定では、サンプルは正規分布であると仮定されます。, Zスコアは、”母集団平均”や”母集団標準偏差”などの母集団パラメーターを使用して計算され、抽出されたサンプルが同じ母集団に属するという仮説を検証するために使用されます。,
Nullの場合:サンプルの平均と同じ人口の平均
代替:サンプルの平均ではないとして人口の平均
統計ではこの仮説検証と呼ばれz-統計量のスコアを算出しています
z=(x—μ)/(σ/√n) ここで、
x=サンプルの平均
μ=人口の平均
σ/√n=人口の標準偏差
この試験の統計は以下の臨界値を、仮説をも拒否するとの仮説
T-test
t-試験で比較する際に用いられる意味の与えます。, Z検定と同様に、t検定も標本の正規分布を前提としています。 T検定は、母パラメーター(平均および標準偏差)が不明な場合に使用されます。
t検定には三つのバージョンがあります
1. 二つのグループの平均を比較する独立したサンプルt検定
2. 異なる時間に同じグループからの平均を比較する対のあるサンプルt検定
3. 既知の平均に対して単一のグループの平均をテストする一つのサンプルt検定。,
この仮説検定の統計はt統計と呼ばれ、スコアは
t=(x1-x2)/(λ/λ n1+λ/λ n2)として計算されます。
x1=サンプル1の平均
x2=サンプル2の平均
n1=サンプル1のサイズ
n2=サンプル2のサイズ
ここで詳細に説明されているt検定の複数のバリエーションがあります
anova
分散分析としても知られているanovaは、複数の(三つ以上の)サンプルを単一の検定と比較するために使用されます。 ANOVAには2つの主要なフレーバーがあります
1., 一方向ANOVA:単一の独立変数の三つ以上のサンプル/グループ間の差を比較するために使用されます。
2. MANOVA:MANOVAは、二つ以上の従属変数に対する一つ以上の独立変数の効果をテストすることができます。 さらに、MANOVAは、独立変数のグループが与えられた従属変数の間の共関係の差を検出することもできます。
ANOVAで検定されている仮説は
Null:サンプルのすべてのペアは同じです。, すべての標本平均は等しい
代替:少なくとも一組の標本は有意に異なる
有意性を測定するために使用される統計は、この場合、F統計と呼ばれ F値は、式を使用して計算されます
F=((SSE1—SSE2)/m)/SSE2/n-k、ここで
SSE=残差二乗和
m=制限の数
k=独立変数の数
SPSS、Rパッケージ、Excelなどの複数のツールがあります。 与えられたサンプルに対してANOVAを実行する。,
カイ二乗検定
カイ二乗検定は、カテゴリ変数を比較するために使用されます。 カイ二乗検定には二つのタイプがあります
1. サンプルが母集団と一致するかどうかを決定する適合度検定。
2. 二つの独立変数に対するカイ二乗近似検定は、分割表の二つの変数を比較してデータが適合するかどうかを確認するために使用されます。
a.カイ二乗値が小さいとデータが適合することを意味します
b.カイ二乗値が高いとデータが適合しないことを意味します。,
カイ二乗について検定されている仮説は
Null:変数Aと変数Bは独立しています
代替:変数Aと変数Bは独立していません。
有意性を測定するために使用される統計量は、この場合、カイ二乗統計量と呼ばれます。, 統計量を計算するために使用される式は、
Σ2=Σここで、
Or、C=変数Aのレベルrおよび変数Bのレベルcでの観測頻度カウント
Er、C=変数Aのレベルrおよび変数Bのレベルcでの期待頻度カウント
注:上記の例からわかるように、すべての検定において、統計量は臨界値と比較されており、aを受け入れるか拒否するかは重要な値と比較されている。仮説。, ただし、統計と計算方法は、変数のタイプ、分析されるサンプルの数、および母集団パラメータが既知であるかどうかによって異なります。 これによってどの要素を適切な試験およびnullの場合仮説を選択します。
これは、これらのテストについて学び、これらの基本的な統計的概念の理解に役立つことを見出すための私の努力において、私が指摘した最も重要
免責事項
この投稿は、通常の分散データに大きく焦点を当てています。, サンプルサイズが20より大きい場合、z検定およびt検定は非正規分布のデータにも使用できますが、このような状況で使用する他の好ましい方法が 非正規分布のテストの詳細については、http://www.statisticshowto.com/probability-and-statistics/non-normal-distributions/をご覧ください。
リファレンス
2. http://blog.minitab.com/blog/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test
3. http://www.statisticshowto.com/p-value/
4. http://www.statisticshowto.com/probability-and-statistics/chi-square/
5. http://stattrek.com/chi-square-test/independence.aspx?Tutorial=AP
6. https://www.investopedia.com/terms/n/null_hypothesis.asp
7. https://math.stackexchange.com/questions/1732178/help-understanding-difference-in-p-value-critical-value-results