본문 바로가기
Data Tech/Statistics(통계)

t-검정 (t-test)

by SuperDev 2024. 6. 19.

t - test 란?

모집단의 분산이나 표준편차를 알지 못할 때,
모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로
“두 모집단의 평균간의 차이는 없다”라는 귀무가설과

두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 채택할 수 있도록 하는 통계적 검정방법 입니다.

(교육평가용어사전, 2004, 학지사)

 

즉,  독립된 두 집단의 평균 차이가 있는지를 검사하는 방법입니다.

 

다만, t-test를 하기 위해서는 표본이 아래와 같은 조건을 충족해야 합니다.

1. 표본이 독립적인지  :  측정한 관측치가 다른 표본에 의해 영향을 받지 않는 것을 의미합니다.

2. 정규분포를 따르는지  :  데이터의 분포가 평균을 기준으로 종 모양으로 대칭을 이루는지를 의미합니다. 

3. 등분산인지 :  두 표본 데이터의 분산이 동일한지를 의미합니다.


t - value 란?

t-value란, t-test에 이용되는 검정통계량 입니다.

("검정통계량"이란, 가설 검정 과정에서 표본 데이터를 이용하여 계산되는 표준화된 값을 의미합니다.)

 

검정통계량인 t-value는 표본의 크기와 데이터의 변동성을 모두 포함합니다.

t-value가 0이면 표본결과가 귀무가설과 정확히 일치하는 것을 의미하며, 표본 데이터와 귀무가설의 차이가 클수록 t-value의 절대값도 커지게 됩니다.

 

즉, 두 집단이 평균적으로 얼마나 차이가 있는지를 표현한 정도이며, t값이 클수록 평균의 차이는 크다고 할 수 있습니다.

 

그렇다면 "t-value = 2"로 도출되었다면 2를 어떤 의미로 해석할 수 있을까요? (평균 차이가 큰건지? 작은건지?)

t-value가 2라는 것 자체로는 해석할 수 없기 때문에 t-분포를 통해서 맥락을 이해해야 합니다.


t - distribution(t - 분포) 란?

모집단으로부터 무작위로 여러개의 표본을 추출하면, 각 표본에 해당하는 서로 다른 t-value가 나타납니다.

이 t-value들의 분포를 "t-분포"라고 합니다. (이러한 분포 유형을 "표본 분포"라고도 합니다.)

 

"t-분포"는 표본 크기와 밀접한 연관성을 지니는 자유도에 의해 정해지므로, 표본 크기마다 "t-분포"가 다릅니다.

그러므로 표본의 크기를 고려하여 t-분포를 해석합니다.

 

 

위 그래프는 자유도가 20인 t-분포로, 표본 크기가 21인 t-분포입니다. 

이 t-분포는 종 모양의 대칭 분포로 정규 분포와 모양이 비슷하며, 확률밀도함수(PDF)로 나타납니다.

그래프의 정점이 0에서 나타나므로 귀무 가설과 가까운 표본값이 도출될 가능성이 가장 높다고 해석할 수 있습니다.

 

"t-value = 2"는 해당 t-분포에 합리적 확률로 존재하지만 그래프만으로는 얼마나 희귀한 값인지 알 수 없습니다.

"t-value = 2" 가 얼마나 희귀한 값인지 확률 계산을 통해 알아봅시다.

 

양측검정을 진행할 것이므로 t-값은 +2와 -2를 사용합니다.

(곡선 아래 영역은 확률입니다. 특정 지정값은 곡선 아래의 영역을 생성하지 않아 값이 0이 되므로 주의해야 합니다.)

 

 

색칠한 영역은 확률이 각각 0.02963으로, 확률의 합계는 0.05926입니다.

t-value( ± 2)는 거의 6%의 확률로 이러한 영역에 포함됩니다.  (이 확률의 이름이 바로 p-value입니다.)

 

t-value( ± 2)는 일반적인 "유의수준"인 5%보다는 높으므로 귀무 가설 전체를 기각할 정도로 낮은 확률은 아닙니다.

그러므로 귀무가설을 채택하여 해당 두 집단의 평균간의 차이는 없다고도 해석할 수도 있습니다.

 

728x90