수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
짦은 기초 통계 2에서 중심 경향값에 대해 살펴보았습니다.
중심 경향값과 함께 때놓을 수 없는 것이 바로 분산입니다. 사실 거의 대부분의 통계 모델들이 이 중심 경향값과 변산성으로 이루어져 있습니다. 때문에, 잘 알아 두어야 합니다.
📌 변산성(Variability)
변산성은 분포에서 점수들 간의 차이에 대한 양적 측정값입니다. 아주 극히 쉽게 표현하자면, '데이터들이 퍼져 있는 정도'라고 말할 수 있습니다.
이 변산성은 아래 두 가지 특성이 있습니다.
1. 점수들의 분포를 알려줌
2. 한 점수가 전체 점수 분포를 얼마나 잘 대표하는지를 알려줌
사실 어떻게 보면 중심 경향값보다 중요한 부분이 이 변산성이 아닐 까 쉽습니다. 왜냐하면 분산이 같고, 평균이 다른 경우보다 분산이 다르고 평균이 같은 경우에 데이터 분포가 서로 다르다고 크게 와닿으니까요.(수학적 보다는 시각적으로)
아래와 같이 똑같은 평균 50이더라도, 변산성에 따라 데이터의 분포의 차이가 크게 나타납니다.
◼️ 편차(deviation)
편차는 점수와 평균 간 차잇값으로 분산과 표준편차를 알기전에 짚고 넘어가야 하는 부분입니다.
식으로는 아래와 같으며, 말그대로 원점수에서 평균 값을 뺀 값입니다.
$$
deviation = X - \mu(or \ \bar{x})
$$
이 편차로 변산성을 대표할 수 있을까요?? 이는 쉽지 않습니다. 왜냐하면 데이터의 모든 편차 합은 무조건 0이 되기 때문입니다. 이러한 이유로 우리가 많이 알고 있는 분산과 표준편차를 사용하는 것입니다.
✔︎ 그렇다면 편차는 왜 중요한가??
분산과 표준편차 계산식에 편차가 포함된다는 점도 중요합니다만, 편차의 개념 자체가 중요한 부분입니다.
'특정 대푯값과 실제 개별 값의 차이'라는 개념이 중요합니다. 뒤에서 다룰 회귀 분석의 경우 실제값과 예측값의 차이를 통해 모델 성능을 확인하기도 하고, 머신 러닝(기계 학습) AI 파트로 간다면 편차 제곱합(mean square error)를 기준으로 높은 예측력을 만들기 위한 시도를 하기 때문입니다.
즉, 특정 값의 거리를 좁히는 접근이 가능하기 때문에 편차를 알아두는 것이 중요합니다.
◼️ 분산과 표준편차
앞서 편차의 합은 무조건 0이 되기 때문에 데이터가 퍼져있는 정도를 나타내기에 적절하지 못하다고 하였습니다.
이러한 이유로 편차를 제곱한 값의 평균을 통해 퍼져있는 정도를 나타내고 이를 분산이라고 합니다.
- 분산 : 편차의 제곱을 구하여 부호(+, -)를 제거한 후, 이 값들을 모두 더하고 평균화
이렇게 분산에서는 편차의 제곱을 구하였기 때문에 값이 굉장히 커지게 됩니다. 이 값은 대표성이 떨어지고 우리가 원하는 변산성의 값에서 조금 떨어져 있는 값이 됩니다. 때문에 제곱근을 적용해 표준편차를 얻게 됩니다.
- 표준편차 : 분산의 제곱근. 제곱한 값을 작게 만들어 비교하기 더욱 편하게 만듬.
$$
모분산 : \sigma^2 = \dfrac{(X - \mu)^2}{N}, \ \ 모표준편차 : \sigma = \sqrt{\sigma^2} = \sqrt{\dfrac{(X - \mu)^2}{N}}
$$
$$
표본 분산 : s^2 = \dfrac{(X-bar{X})^2}{n-1}, \ \ 표본 표준편차 : s = \sqrt{s^2} = \sqrt{\dfrac{(X-\bar{X})^2}{n-1}}
$$
✔︎ 왜 모집단에서는 사례 수인 N으로 나누고, 표본에서는 n-1로 나누어 평균을 내는가??
사실 이 부분에 대해서 잘 모르고 있는 사람들이 많습니다. 불편추정량 때문이라고는 하지만 불편 추정량이 뭔지, 제약식이 뭔지, 자유도가 정확히 무엇인지 알아야 왜 n-1로 나누는지 쉽게 설명이 가능합니다.
📌 불편 추정량
표본에서 분산과 표준편차를 구할 때 n-1로 나누는 이유는? 이렇게 해야 표본 분산이 모분산의 불편(unbiased) 추정량이 되기 때문입니다.
먼저, 여기서 '불편'이란, 편향되지 않았다라는 것입니다.
우리가 추론 통계를 하는 근본적인 이유는 '표본 통계랑'으로 부터 우리가 알고하자는 '모수'를 추정하는 것입니다.
: 이를 표준편차에 적용하여 수식으로 나타내면, $\sigma = E(s)$로 나타낼 수 있습니다.
E()는 기댓값이라는 표현으로 확률 변수의 분포를 대표하는 값입니다. 쉽게 확률 분포의 중심 경향값이라고 할 수 있습니다.
위 식과 같이 $\sigma = E(x)[\sigma - E(s) = 0]$을 만족할 때, 표본 분산은 모분산의 불편 추정량이라고 하는 것입니다.
쉽게 말하면 위 식을 만족해야, 표본 분산이 모분산의 편향되지 않은 추정량과 같다라고 볼 수 있는 것입니다.
정리(불편 추정량 포스팅)에 따르면 n이 아닌 n-1로 나누었을 때 표본 분산이 모분산의 불편 추정량이 됩니다.
✔︎ 왜 하필 n-1인가??
이는 '제약식'과 관련이 있습니다.
우리는 중심 경향값 및 기댓값을 산술 평균을 사용하기로 제약을 두었기 때문입니다. 앞서 우리가 E(s)를 s의 기댓값이라고 하였고, 우리는 이것을 s에 대한 산술 평균으로 계산하기로 한 것입니다.
바로 아래와 같은 제약이 한 개 있기 때문에, '자유도를 한 개 잃었다(n-1).'라고 표현합니다.
- 제약식 : $\bar{X} = \dfrac1n \sum X_i$
분산 및 표준편차를 구하기 위해 제약을 두었기 때문에 우리는 자유로운 n-1개의 값을 통해 고정된 1개의 값을 유추할 수 있습니다.
그러니까, 우리가 아는 자유도는 그저 사례의 수 n이라는 개념이 아니라.
'표본의 전체 자료 수에서 독립적이고 자유로운 값을 가질 수 있는 자료의 수'라는 개념입니다.
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
짧은 기초 통계 5 : 표본 평균의 분포, 중심 극한 정리, 큰 수의 법칙 (0) | 2024.07.03 |
---|---|
짧은 기초 통계 4 : z-score(z 점수)와 확률 (1) | 2024.06.26 |
짧은 기초 통계 2 : 중심 경향값과 편포(+ 로그/제곱근 변환) (0) | 2024.06.15 |
짧은 기초 통계 1 : 통계 중요성과 변수 및 척도 (1) | 2024.06.14 |
최대 우도 추정법(최대 가능도 추정법)[Maximum Likelihood Estimation] (0) | 2024.04.23 |