본문 바로가기
Data Tech/Statistics(통계)

[통계] 3. t분포, 카이제곱분포, F분포

by SuperDev 2024. 8. 17.

8. Student의 t 분포

t분포는 정규분포와 생김새가 비슷하지만, 정규분포보다 꼬리 부분이 약간 더 두껍고 길게 나타납니다. 표본평균의 분포를 보면 일반적으로 t분포의 모양이며, 표본크기(n)가 클수록 정규분포에 가까운 t분포가 형성됩니다. 이와 같이 t분포는 보통 표본평균의 분포를 설명하는데 주로 사용됩니다.

구분 영문 상세
n n 표본의 크기
자유도 Degrees of freedom 『1. EDA  -->  4번 참고』 (https://data-mine.tistory.com/23)

 

 

z분포와 t분포의 차이

  • z분포는 표준정규분포로 평균이 0이고 표준편차가 1인 분포입니다. 주로 표본 크기가 크거나, 모집단의 분산을 알고있을 때 표본통계량을 설명하는데 사용됩니다. 현실에서 모집단의 분산을 아는 경우는 없을 것 같지만.....
  • t분포는 정규분포와 유사하지만, 꼬리가 더 두꺼운 분포입니다. 주로 표본 크기가 작거나, 모집단의 분산을 모를 때 표본평균을 해석하는데 사용됩니다. 현실에서 모집단의 분산을 알 수 없으므로, 대개 t분포를 통해 표본평균, 두 표본평균의 차이, 회귀 파라미터 등의 분포를 설명합니다. (자유도 n-1 사용)

추후 가설검정에도 활용되는 분포이므로 알아두면 좋습니다. (일표본, 이표본, 대응표본 검정 등)

 

 


9. 이항분포

이항은 [예/아니오], [성공/실패], [구매/미구매] 등 의사결정 사항들을 나타내는 중요한 개념입니다.

"동전던지기"처럼 2가지 결과를 가져오는 이항시행을 통해 얻은 n번의 시행 결과에 대한 분포를 이항분포라고 합니다.

구분 영문 상세
시행 Trial 독립된 결과를 가져오는 하나의 사건 (동전 던지기)
성공 Success 시행에 대한 결과
이항식 Binomial 두 가지 결과를 갖는 식
이항시행 Binomial trial 두 가지 결과를 가져오는 시행
이항분포 Binomial distribution n번 시행에서 성공한 횟수에 대한 분포 (베르누이 분포)

 

표본크기(n)가 크고 확률(p)이 0 또는 1에 너무 가깝지 않은 경우, 이항분포는 정규분포로 근사할 수 있습니다.

 


 10. 카이제곱분포

t분포가 표본평균에 대한 분포를 나타낸다면, 카이제곱분포는 표본분산에 대한 분포를 나타냅니다.

여기서 표본분산에 대한 이해가 선행되어야 하는데, 표본분산은 [표본평균과 각 표본들의 편차를 제곱한 값을 더한 값]에서 n-1을 나눈 값 입니다. (자유도 개념 필요 : n-1)

표본분산을 구하기 위해 값을 제곱하면서 재밌는 일이 벌어지는데, 음의 편차들도 모두 양수가 된다는 점 입니다.

그러다 보니, 표본분산의 분포는 t분포처럼 정규분포를 띄지않고, 아래 오른쪽 그래프와 같이 편향된 분포를 그리게 됩니다. 음수도 양수가 되니까요. 그리고 자유도(n-1)가 증가할수록 분포의 높이가 낮아지는 경향을 보입니다.

 

카이제곱분포도 정규분포, t분포와 같이 신뢰구간을 통해 모분산을 추정할 수 있습니다.

카이제곱분포의 자유도에 따른 상대도수는 인터넷에 표로 정리되어 있으므로 참고하시면 좋을 것 같고, 가장 중요한 것은 정규분포와 카이제곱분포의 형태가 다른 이유는 바로 이 제곱의 성질 때문입니다.

 


11. F분포

(F분포를 정확하게 이해하기 위해서는 위의 카이제곱분포 이해가 선행되어야 하므로, 참고하시면 좋을 것 같습니다.)

 

F분포는 주로 두 모집단의 분산이 동일한지 비교할 때 사용되는 확률 분포로 F-분포 통계량은 주로 분산 분석(ANOVA) 및 F-검정에서 사용됩니다.

 

ANOVA는 분산분석에서 중요한 핵심인데, 집단 내 분포와 집단 간 분포를 비교하는 것 입니다.

즉, F-value = [표본 간 분산 / 표본 내 분산]이며, F-value가 1이라는 것은 표본 간의 분산표본 내 분산이 같다는 것을 의미 합니다. 반면 F-value가 1이상이면 표본 간의 분산이 상대적으로 크다는 것을 의미하므로 집단 간 분산이 다르다고 결론을 낼 수 있게 됩니다.

 

예를 들어 서로 다른 치료 방법의 효과를 비교할 때, 두 그룹이 동일한 분산을 가지고 있는지를 검정하는데 사용할 수 있습니다. 즉 [귀무가설(H0)은 두 모집단의 분산이 같다.], [대립가설(H1) 두 모집단의 분산이 다르다.]로 가설을 설정하여 검정할 수 있도록 만들어진 것이 F분포 입니다.

 

 

F-value 이해에 도움이 되는 영상은 아래와 같으므로 참고하시면 좋을 것 같습니다.

https://www.youtube.com/watch?v=xmDs5s-1beo

https://www.youtube.com/watch?v=-og9lzo8e2c


12. 푸아송 분포와 그 외 관련 분포들

구분 영문 상세
람다 Lambda 단위 시간이나, 단위 면적당 사건이 발생하는 비율
푸아송 분포 Poisson distribution 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포
지수분포 Exponential distribution 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포
베이불 분포 Weibull distribution 사건 발생률이 시간에 따라 변화하는 지수분포의 일반화된 버전

 

일정 비율로 발생하는 사건의 경우에는 시간 단위 또는 공간 단위당 발생하는 사건의 수를 푸아송 분포로 모델링을 할 수 있습니다. 또한 한 사건과 다음 사건 간의 시간/거리를 지수분포로 모델링할 수도 있습니다.

시간에 따라 변화하는 사건 발생률은 베이불 분포로 모델링할 수 있습니다.


 

무작위로 주어진 데이터를 분석을 할 때, 데이터의 편향성을 최소화하고 질적으로 좋은 데이터를 가지고 있다면 좋은 결과를 얻을 수 있겠지만, 그렇지 못한 경우도 있기 때문에, 데이터 분포에 대한 지식을 가지고 데이터의 잠재적 오차를 정량화하는 방법을 알아보았습니다.

 

데이터를 분석하는 EDA과정도 중요하지만, 못지 않게 데이터의 질에 대해서도 고민해보면 좋은 결과가 있을 것 같습니다.

해당 내용은 아래 책과 여러 지식 유튜브를 학습하면서 작성하였습니다.

감사합니다.

 

728x90