t - test 란?
모집단의 분산이나 표준편차를 알지 못할 때,
모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로
“두 모집단의 평균간의 차이는 없다”라는 귀무가설과
“두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 채택할 수 있도록 하는 통계적 검정방법 입니다.
(교육평가용어사전, 2004, 학지사)
즉, 독립된 두 집단의 평균 차이가 있는지를 검사하는 방법입니다.
다만, t-test를 하기 위해서는 표본이 아래와 같은 조건을 충족해야 합니다.
1. 표본이 독립적인지 : 측정한 관측치가 다른 표본에 의해 영향을 받지 않는 것을 의미합니다.
2. 정규분포를 따르는지 : 데이터의 분포가 평균을 기준으로 종 모양으로 대칭을 이루는지를 의미합니다.
3. 등분산인지 : 두 표본 데이터의 분산이 동일한지를 의미합니다.
t - value 란?
t-value란, t-test에 이용되는 검정통계량 입니다.
("검정통계량"이란, 가설 검정 과정에서 표본 데이터를 이용하여 계산되는 표준화된 값을 의미합니다.)
검정통계량인 t-value는 표본의 크기와 데이터의 변동성을 모두 포함합니다.
t-value가 0이면 표본결과가 귀무가설과 정확히 일치하는 것을 의미하며, 표본 데이터와 귀무가설의 차이가 클수록 t-value의 절대값도 커지게 됩니다.
즉, 두 집단이 평균적으로 얼마나 차이가 있는지를 표현한 정도이며, t값이 클수록 평균의 차이는 크다고 할 수 있습니다.
그렇다면 "t-value = 2"로 도출되었다면 2를 어떤 의미로 해석할 수 있을까요? (평균 차이가 큰건지? 작은건지?)
t-value가 2라는 것 자체로는 해석할 수 없기 때문에 t-분포를 통해서 맥락을 이해해야 합니다.
t - distribution(t - 분포) 란?
모집단으로부터 무작위로 여러개의 표본을 추출하면, 각 표본에 해당하는 서로 다른 t-value가 나타납니다.
이 t-value들의 분포를 "t-분포"라고 합니다. (이러한 분포 유형을 "표본 분포"라고도 합니다.)
"t-분포"는 표본 크기와 밀접한 연관성을 지니는 자유도에 의해 정해지므로, 표본 크기마다 "t-분포"가 다릅니다.
그러므로 표본의 크기를 고려하여 t-분포를 해석합니다.
위 그래프는 자유도가 20인 t-분포로, 표본 크기가 21인 t-분포입니다.
이 t-분포는 종 모양의 대칭 분포로 정규 분포와 모양이 비슷하며, 확률밀도함수(PDF)로 나타납니다.
그래프의 정점이 0에서 나타나므로 귀무 가설과 가까운 표본값이 도출될 가능성이 가장 높다고 해석할 수 있습니다.
"t-value = 2"는 해당 t-분포에 합리적 확률로 존재하지만 그래프만으로는 얼마나 희귀한 값인지 알 수 없습니다.
"t-value = 2" 가 얼마나 희귀한 값인지 확률 계산을 통해 알아봅시다.
양측검정을 진행할 것이므로 t-값은 +2와 -2를 사용합니다.
(곡선 아래 영역은 확률입니다. 특정 지정값은 곡선 아래의 영역을 생성하지 않아 값이 0이 되므로 주의해야 합니다.)
색칠한 영역은 확률이 각각 0.02963으로, 확률의 합계는 0.05926입니다.
t-value( ± 2)는 거의 6%의 확률로 이러한 영역에 포함됩니다. (이 확률의 이름이 바로 p-value입니다.)
t-value( ± 2)는 일반적인 "유의수준"인 5%보다는 높으므로 귀무 가설 전체를 기각할 정도로 낮은 확률은 아닙니다.
그러므로 귀무가설을 채택하여 해당 두 집단의 평균간의 차이는 없다고도 해석할 수도 있습니다.
'Data Tech > Statistics(통계)' 카테고리의 다른 글
[통계] 4. 통계적 실험과 유의성 검정 (0) | 2024.08.18 |
---|---|
[통계] 3. t분포, 카이제곱분포, F분포 (0) | 2024.08.17 |
[통계] 2. 표본분포 & 신뢰구간 & 정규분포 (1) | 2024.08.16 |
[통계] 1. 탐색적 데이터 분석 (EDA) (0) | 2024.08.15 |
통계적 가설검정과 예시 (0) | 2024.07.20 |