Data Tech/Statistics(통계)7 [통계] 5. t검정 & ANOVA & 카이제곱검정 & 표본크기 1. t검정 (t-test)t검정은 단일 표본평균을 근사화하기 위해 개발한 t분포를 활용한 유의성 검정 방법입니다. 보통 수치형 데이터인 2개의 표본을 비교하는 A/B 검정에 사용되는데, t분포를 사용하려면 표준화된 형태의 검정통계량을 사용해야 합니다.구분영문상세검정통계량Test statistic관심의 차이 또는 효과에 대한 측정 지표t 통계량t-statistic평균과 같이 표준화된 형태의 일반적인 검정통계량(표본집단 평균 - 모집단 평균) / 표본오차t 분포t-distribution관측된 t통계량을 비교할 수 있는 (귀무가설에서 파생된) 기준분포. t검정을 진행할 때, 고려해야할 사항표본 크기를 충분히 확보해야하고, 이상치가 확인되면 적절히 처리하는 것이 필요합니다.데이터의 극단적인 값이 오류로 인한 .. 2024. 8. 20. [통계] 4. 통계적 실험과 유의성 검정 1. A/B 검정A/B 검정은 실험군을 2개의 그룹으로 나누어 비교하는 실험입니다. 대개 2개의 그룹은 "기존의 방법 혹은 실험의 기준이 되는 그룹(대조군)"과 "특정한 처리가 이루어진 그룹(처리군)"으로 나뉩니다. 통계학적 측면에서 특정 용어로 통용되는 경우가 있으므로 용어 정리를 하자면 아래와 같습니다.구분영문상세처리Treatment어떤 대상에 주어지는 특별한 환경이나 조건처리군Treatment Group특정 처리에 노출된 대상들의 집단대조군Control Group어떤 처리도 하지 않은 대상들의 집단임의화Randomization처리를 적용할 대상을 임의로 결정하는 과정대상Subject처리를 적용할 개체 대상검정통계량Test Statistic처리 효과를 측정하기 위한 지표 A/B 검정은 언제 쓰는 걸까.. 2024. 8. 18. [통계] 3. t분포, 카이제곱분포, F분포 8. Student의 t 분포t분포는 정규분포와 생김새가 비슷하지만, 정규분포보다 꼬리 부분이 약간 더 두껍고 길게 나타납니다. 표본평균의 분포를 보면 일반적으로 t분포의 모양이며, 표본크기(n)가 클수록 정규분포에 가까운 t분포가 형성됩니다. 이와 같이 t분포는 보통 표본평균의 분포를 설명하는데 주로 사용됩니다.구분영문상세nn표본의 크기자유도Degrees of freedom『1. EDA --> 4번 참고』 (https://data-mine.tistory.com/23) z분포와 t분포의 차이z분포는 표준정규분포로 평균이 0이고 표준편차가 1인 분포입니다. 주로 표본 크기가 크거나, 모집단의 분산을 알고있을 때 표본통계량을 설명하는데 사용됩니다. 현실에서 모집단의 분산을 아는 경우는 없을 것 같지만... 2024. 8. 17. [통계] 2. 표본분포 & 신뢰구간 & 정규분포 데이터 분석이나 모델링을 할 때, EDA를 통해 데이터들의 위치, 변이, 분포 등 다양한 방식으로 데이터를 해석하고 관찰하게 됩니다. 하지만 만약 데이터 자체의 질과 적합성을 신뢰할 수 없거나, 가지고 있는 표본이 모집단을 대표하지 않는다면 EDA를 수행한다고 해도 양질의 결과 혹은 모델을 얻을 수 없습니다.분석과 모델링의 밑바탕이 되는 표본과 표본추출 과정에 대한 이해를 통해 내가 가지고 있는 데이터가 모집단을 대표하고 신뢰할 수 있는 데이터인지 검증하고 고려해봐야 합니다. 1. 임의표본추출과 표본 편향표본은 모집단으로부터 얻는 모집단의 부분집합입니다. 그리고 모집단으로부터 표본을 임의로 추출하는 과정을 『임의표본추출』이라고 합니다. 임의로 추출되는 표본의 원소들은 동일한 확률로 뽑히게 되고, 그 결과.. 2024. 8. 16. [통계] 1. 탐색적 데이터 분석 (EDA) 1. 정형화된 데이터의 요소우리는 센서 측정, 이벤트, 텍스트, 이미지, 비디오 등 수많은 소스로부터 다양한 형태의 데이터를 얻습니다.이런 데이터들은 정형화되지 않은 상태이기 때문에 통계적 개념을 활용하기 위해서는 활용 가능한 형태의 데이터로 변환해야 합니다. 그리고 데이터가 어떤 데이터인지 알아야 합니다. [정형화된 데이터의 종류]구분상세1. 수치형 데이터숫자를 이용해 표현된 데이터 1-1. 연속형 데이터풍속(m/s)이나 지속시간처럼 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 1-2. 이산발생빈도, 횟수와 같이 정수 값만 취할 수 있는 데이터2. 범주형 데이터목록, 명목 등 가능한 범주 안의 값만을 취하는 데이터 2-1. 이진두개의 값 (참 혹은 거짓, 0 혹은 1)만을 .. 2024. 8. 15. 통계적 가설검정과 예시 1. 통계적 가설검정통계적 가설검정은 표본분포의 성질을 이용하여 모집단 특성에 대한 가설의 진위를 가리는 것 입니다.주장(대립가설, H1)과 반대되는 가설(귀무가설, H0)을 사실로 가정하여 검정이 이루어지는데, 귀무가설(H0)이 아니라는 증거를 얼마나 충분히 제시하느냐에 따라 대립가설(H1)의 채택 여부를 결정할 수 있습니다. 2. 가설검정에서의 오류오류의 원인은 근본적으로 표본오차에 있습니다. 따라서 표본의 결과를 이용하는 모든 통계적 추론은 추정을 포함하여 가설검정도 표본오차는 언제나 발생합니다. 즉 귀무가설이 맞는데, 대립가설로 채택하는 경우의 수도 있는 것이죠.상황검정 결과판정귀무가설(H0)이 사실이며,H0를 기각하지 않음바른 결정 (1 - α)H0를 기각함제 1종 오류 (α)대립가설(H1)이 .. 2024. 7. 20. t-검정 (t-test) t - test 란?모집단의 분산이나 표준편차를 알지 못할 때,모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법으로“두 모집단의 평균간의 차이는 없다”라는 귀무가설과“두 모집단의 평균 간에 차이가 있다”라는 대립가설 중에 하나를 채택할 수 있도록 하는 통계적 검정방법 입니다.(교육평가용어사전, 2004, 학지사) 즉, 독립된 두 집단의 평균 차이가 있는지를 검사하는 방법입니다. 다만, t-test를 하기 위해서는 표본이 아래와 같은 조건을 충족해야 합니다.1. 표본이 독립적인지 : 측정한 관측치가 다른 표본에 의해 영향을 받지 않는 것을 의미합니다.2. 정규분포를 따르는지 : 데이터의 분포가 평균을 기준으로 종 모양으로 대칭을 이루는지를 의미합니다. 3. 등분산인지 .. 2024. 6. 19. 이전 1 다음 728x90