수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
이전 포스팅에서 t-test를 다루었습니다.(링크)
t-test의 경우 최대 비교하려는 집단의 수가 2였습니다. 그렇다면 비교 집단이 두 개 이상이라면 어떨까요?? 이때의 집단 간 평균 차이 검정을 어떻게 진행할까요? 아래와 같은 예를 봅시다.
위와 같이 두 개 이상의 집단 간 평균의 차이에 대한 t-test 통계적 추론은 아래와 같습니다.
이렇게 세 개 이상의 집단을 두 집단씩 짝지어 총 3번을 진행할 경우 1. 유의 수준이 매우 엄격해지고, 이에 따라 제 1종 오류의 팽창이 일어납니다. 또한, 2. 반복되는 데이터 사용으로 인해 독립성 가정에 위배될 수 있습니다.
저번 포스팅에서 설명한 것과 같이 제 1종 오류 즉, 실제로 처치의 효과가 없는 데 있다고 결과를 잘못 도출할 가능성이 높아집니다. 아래 식과 같이 두 개의 집단일 경우 유의 수준이 .05 = 제 1종 오류 발생 확률 .05로 같습니다.
하지만 세 개 집단 간 평균 비교를 집단 쌍으로 세 번 할 경우 각 유의수준을 .05로 설정하였을 때, 적어도 하나의 비교에서 제 1종 오류가 발생할 확률이 0.14가 되어버립니다.
이로 인해 집단이 세 개가 넘어가면 t-test를 사용하는 것이 통계적으로 문제가 될 수 있습니다.
📌 ANOVA
: Analysis of Variance(분산 분석)으로 실제로 표본의 평균이 아닌 변량을 분석하고 비교하여 집단 간 평균의 차이 유무를 검정합니다.
◼️ 편차 제곱합
분산 분석에 앞서 총 세 가지의 편차 제곱합을 알아봅시다.
1. $SS_{total}$(총 제곱합) 편차(원점수-평균) 점수의 제곱합
> 이는 집단 간 제곱합과 집단 내 제곱합으로 이루어져 있다.
먼저 전체 편차에 대한 개념입니다. 집단을 따지지 않고 모든 개별 원점수의 모든 원점수의 평균의 차로 이루어진 총 제곱합을 뜻 합니다.
2. $SS_{between}$(집단 간 제곱합) : 특정 집단 평균 - 전체 평균 점수의 제곱합
3. $SS_{within}$(집단 내 제곱합) : 특정 집단 개인 - 해당 집단 평균 점수의 제곱합
집단 간 제곱합과 집단 내 제곱합 모두 이들의 이름과 같은 개념입니다. 집단 간 제곱합은 집단끼리의 편차 개념을 포함합니다. 즉, 각 집단의 평균과 전체 평균의 편차를 포함합니다.
집단 내 제곱합의 경우 집단안의 개인과 해당 집단의 평균 점수의 편차를 포함하는 개념입니다.
이들의 합이 바로 $SS_{total}$입니다.
이를 이해하기 쉽게 그림으로 표현한다면 아래와 같겠습니다.
◼️ 자유도
ANOVA의 통계적 추론에 앞서 자유도와 변량에 대한 개념을 짚고 넘어가야 합니다. 이는 뒤에 통계적 추론에 쓰일 F 비 계산에 필요하기 때문입니다.
ANOVA에서 자유도는 크게 2개로 집단 간 자유도와 집단 내 자유도입니다. 이름에서 알 수 있듯 전자는 집단의 자유도, 후자는 개인의 자유도라고 볼 수 있습니다.
$df_{between} : a - 1$ (집단 수를 a 라고 할 때)
$df_{within} : a(n-1)$ (집단 별 사례수가 n이라고 할 때)
◼️ 분산(변량) : 편차제곱합(SS)/자유도(df)
분산식이며 MS로 나타납니다. 이는 편차 제곱합을 해당 자유로 나눈 값입니다.
$MS_{between} : SS_{between}/(a-1)$
$MS_{within} : SS_{within}/a(n-1)$
✔︎ 이들을 통해 어떻게 분석한다는 것일까?
이는 중요한 질문입니다. 먼저 $SS_{within}$ 즉, 동일한 집단에 속해 있는 대상 간의 점수 차를 뜻하는데 과연 해당 차이는 왜 존재하는가?? 우리는 이를 개인차 때문이라고 합니다.
그렇다면 $SS_{between}$ 즉, 서로 다른 집단에 속해 있는 대상 간의 점수차는 왜 존재하는 것일까? 우리는 이를 개인차 + 집단간 차이 때문이라고 합니다.
자 해당 두 가지 개념 모두 '개인차'라는 개념을 가지고 있습니다. 이것을 만약 분자와 분모로 이용한다면?.. 집단 차이가 없다면 (개인차 + 0) / 개인차가 되기 때문에 단순히 1이 됩니다. 다만 집단 간 차이가 존재한다면? 1보다 커지겠죠.
이를 통해 분산 분석을 진행하는 것입니다.
◼️ F 비
$$F = \dfrac{MS_{between}}{MS_{MS_within}}$$
해당 값이 1보다 크다면 집단 간 평균 차이가 있을 것이고, 1과 같다면, 집단 간 평균 차이가 없다는 것입니다.
앞서 z 분포, t 분포의 양 극단값을 이용해서 통계적 추론을 검정하고는 했습니다. ANOVA의 경우 위와 같이 F비 분포를 통해 검정을 하는데 이 F 비 표집 분포는 어떻게 얻을 까요?
1. 평균, 분산이 같은 정규 분포를 이루는 a개의 모집단이 있다고 가정
2. 각 모집단에서 무작위로 n1, n2, n3... 를 표집
3. 표본 자료(n1, n2, n3...)로 부터 집단 간 변량, 집단 내 변량을 계산
4. F비를 계산한 다음, 표집 된 자료를 각자의 모집단으로 다시 복귀
5. 1~4번 절차를 무한히 반복하여 F 비를 계산
6. 이렇게 얻은 표본 F비 값의 표집 분포인 확률 분포를 만듦.
F비는 집단 간 변량의 자유도, 집단 내 변량의 자유도가 영향을 미쳐 분포가 이에 따라 달라집니다.
이렇게 자유도에 따른 F비 분포를 구하고 사전에 결정한 유의 수준에 따라 t-test, z-test와 같이 기각역에 포함 여부를 확인하여 가설을 검정하게 됩니다.
📌 ANOVA 가정과 분석 종류
◼️ ANOVA 기본 가정
1. 종속 변수가 양적 변수여야 한다.
2. 모집단의 분산, 표준편차를 알지 못할 때 사용한다.
3. 모집단 분포가 정규분포여야 한다.
4. 모든 독립 집단의 등분산 가정이 충족되어야 한다.(= 모든 독립 집단의 모집단 분산이 동일하다.)
1️⃣ 일원 분산 분석(one-way ANOVA) : 두 개 이상의 집단을 포함하고 있는 독립변수가 하나.
2️⃣ 이원 분산 분석(two-way ANOVA) : 두 개 이상의 집단을 포함하고 있는 독립변수가 2개
3️⃣ 반복측정 분산분석(repeated ANOVA) : 처치 전후 차이가 있는지를 검증
구형성 가정이 충족되어야 한다는 것은, 조건 간 차이의 분산이 같아야 한다는 뜻입니다. 이게 무슨 말이냐? 반복 측정된 각 조건의 차이값들 사이의 분산이 동일하다는 의미입니다. 예를 들어 ABC가 있으면 A-B, B-C, A-C의 분산이 동일해야 한다는 의미입니다.
그렇다면 이를 왜 확인하는가?
사후 분석을 할 때 조건(시점) 조합 산 paired t-test를 수행해 주어서 어떤 쌍에서 차이가 있는지를 확인하는 데, 이때 t 값의 분모에 차이의 분산을 이용한 표준오차가 있기 때문입니다.
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
짧은 기초 통계 6 : 가설 검정, t-test(t 검정) (1) | 2024.07.10 |
---|---|
짧은 기초 통계 5 : 표본 평균의 분포, 중심 극한 정리, 큰 수의 법칙 (0) | 2024.07.03 |
짧은 기초 통계 4 : z-score(z 점수)와 확률 (1) | 2024.06.26 |
짧은 기초 통계 3 : 변산성, 불편 추정량(제약식과 자유도) (1) | 2024.06.16 |
짧은 기초 통계 2 : 중심 경향값과 편포(+ 로그/제곱근 변환) (0) | 2024.06.15 |