8. Student의 t 분포
t분포는 정규분포와 생김새가 비슷하지만, 정규분포보다 꼬리 부분이 약간 더 두껍고 길게 나타납니다. 표본평균의 분포를 보면 일반적으로 t분포의 모양이며, 표본크기(n)가 클수록 정규분포에 가까운 t분포가 형성됩니다. 이와 같이 t분포는 보통 표본평균의 분포를 설명하는데 주로 사용됩니다.
| 구분 | 영문 | 상세 |
| n | n | 표본의 크기 |
| 자유도 | Degrees of freedom | 『1. EDA --> 4번 참고』 (https://data-mine.tistory.com/23) |
z분포와 t분포의 차이
- z분포는 표준정규분포로 평균이 0이고 표준편차가 1인 분포입니다. 주로 표본 크기가 크거나, 모집단의 분산을 알고있을 때 표본통계량을 설명하는데 사용됩니다. 현실에서 모집단의 분산을 아는 경우는 없을 것 같지만.....
- t분포는 정규분포와 유사하지만, 꼬리가 더 두꺼운 분포입니다. 주로 표본 크기가 작거나, 모집단의 분산을 모를 때 표본평균을 해석하는데 사용됩니다. 현실에서 모집단의 분산을 알 수 없으므로, 대개 t분포를 통해 표본평균, 두 표본평균의 차이, 회귀 파라미터 등의 분포를 설명합니다. (자유도 n-1 사용)
추후 가설검정에도 활용되는 분포이므로 알아두면 좋습니다. (일표본, 이표본, 대응표본 검정 등)


9. 이항분포
이항은 [예/아니오], [성공/실패], [구매/미구매] 등 의사결정 사항들을 나타내는 중요한 개념입니다.
"동전던지기"처럼 2가지 결과를 가져오는 이항시행을 통해 얻은 n번의 시행 결과에 대한 분포를 이항분포라고 합니다.
| 구분 | 영문 | 상세 |
| 시행 | Trial | 독립된 결과를 가져오는 하나의 사건 (동전 던지기) |
| 성공 | Success | 시행에 대한 결과 |
| 이항식 | Binomial | 두 가지 결과를 갖는 식 |
| 이항시행 | Binomial trial | 두 가지 결과를 가져오는 시행 |
| 이항분포 | Binomial distribution | n번 시행에서 성공한 횟수에 대한 분포 (베르누이 분포) |
표본크기(n)가 크고 확률(p)이 0 또는 1에 너무 가깝지 않은 경우, 이항분포는 정규분포로 근사할 수 있습니다.
10. 카이제곱분포
t분포가 표본평균에 대한 분포를 나타낸다면, 카이제곱분포는 표본분산에 대한 분포를 나타냅니다.
여기서 표본분산에 대한 이해가 선행되어야 하는데, 표본분산은 [표본평균과 각 표본들의 편차를 제곱한 값을 더한 값]에서 n-1을 나눈 값 입니다. (자유도 개념 필요 : n-1)
표본분산을 구하기 위해 값을 제곱하면서 재밌는 일이 벌어지는데, 음의 편차들도 모두 양수가 된다는 점 입니다.
그러다 보니, 표본분산의 분포는 t분포처럼 정규분포를 띄지않고, 아래 오른쪽 그래프와 같이 편향된 분포를 그리게 됩니다. 음수도 양수가 되니까요. 그리고 자유도(n-1)가 증가할수록 분포의 높이가 낮아지는 경향을 보입니다.
카이제곱분포도 정규분포, t분포와 같이 신뢰구간을 통해 모분산을 추정할 수 있습니다.
카이제곱분포의 자유도에 따른 상대도수는 인터넷에 표로 정리되어 있으므로 참고하시면 좋을 것 같고, 가장 중요한 것은 정규분포와 카이제곱분포의 형태가 다른 이유는 바로 이 제곱의 성질 때문입니다.


11. F분포
(F분포를 정확하게 이해하기 위해서는 위의 카이제곱분포 이해가 선행되어야 하므로, 참고하시면 좋을 것 같습니다.)
F분포는 주로 두 모집단의 분산이 동일한지 비교할 때 사용되는 확률 분포로 F-분포 통계량은 주로 분산 분석(ANOVA) 및 F-검정에서 사용됩니다.
ANOVA는 분산분석에서 중요한 핵심인데, 집단 내 분포와 집단 간 분포를 비교하는 것 입니다.
즉, F-value = [표본 간 분산 / 표본 내 분산]이며, F-value가 1이라는 것은 표본 간의 분산과 표본 내 분산이 같다는 것을 의미 합니다. 반면 F-value가 1이상이면 표본 간의 분산이 상대적으로 크다는 것을 의미하므로 집단 간 분산이 다르다고 결론을 낼 수 있게 됩니다.
예를 들어 서로 다른 치료 방법의 효과를 비교할 때, 두 그룹이 동일한 분산을 가지고 있는지를 검정하는데 사용할 수 있습니다. 즉 [귀무가설(H0)은 두 모집단의 분산이 같다.], [대립가설(H1) 두 모집단의 분산이 다르다.]로 가설을 설정하여 검정할 수 있도록 만들어진 것이 F분포 입니다.
F-value 이해에 도움이 되는 영상은 아래와 같으므로 참고하시면 좋을 것 같습니다.
https://www.youtube.com/watch?v=xmDs5s-1beo
https://www.youtube.com/watch?v=-og9lzo8e2c
12. 푸아송 분포와 그 외 관련 분포들
| 구분 | 영문 | 상세 |
| 람다 | Lambda | 단위 시간이나, 단위 면적당 사건이 발생하는 비율 |
| 푸아송 분포 | Poisson distribution | 표집된 단위 시간 혹은 단위 공간에서 발생한 사건의 도수분포 |
| 지수분포 | Exponential distribution | 한 사건에서 그 다음 사건까지의 시간이나 거리에 대한 도수분포 |
| 베이불 분포 | Weibull distribution | 사건 발생률이 시간에 따라 변화하는 지수분포의 일반화된 버전 |
일정 비율로 발생하는 사건의 경우에는 시간 단위 또는 공간 단위당 발생하는 사건의 수를 푸아송 분포로 모델링을 할 수 있습니다. 또한 한 사건과 다음 사건 간의 시간/거리를 지수분포로 모델링할 수도 있습니다.
시간에 따라 변화하는 사건 발생률은 베이불 분포로 모델링할 수 있습니다.
무작위로 주어진 데이터를 분석을 할 때, 데이터의 편향성을 최소화하고 질적으로 좋은 데이터를 가지고 있다면 좋은 결과를 얻을 수 있겠지만, 그렇지 못한 경우도 있기 때문에, 데이터 분포에 대한 지식을 가지고 데이터의 잠재적 오차를 정량화하는 방법을 알아보았습니다.
데이터를 분석하는 EDA과정도 중요하지만, 못지 않게 데이터의 질에 대해서도 고민해보면 좋은 결과가 있을 것 같습니다.
해당 내용은 아래 책과 여러 지식 유튜브를 학습하면서 작성하였습니다.
감사합니다.

'Data Tech > Statistics(통계)' 카테고리의 다른 글
| [통계] 5. t검정 & ANOVA & 카이제곱검정 & 표본크기 (0) | 2024.08.20 |
|---|---|
| [통계] 4. 통계적 실험과 유의성 검정 (0) | 2024.08.18 |
| [통계] 2. 표본분포 & 신뢰구간 & 정규분포 (1) | 2024.08.16 |
| [통계] 1. 탐색적 데이터 분석 (EDA) (0) | 2024.08.15 |
| 통계적 가설검정과 예시 (0) | 2024.07.20 |