수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
저번 중심경향값과 변산성에 이어 z-score를 살펴보려고 합니다.
📌 z 점수
z 점수는 원점수(: 직접적으로 측정된 원래 점수)를 더 의미있고 더 많은 정보를 포함한 새로운 점수로 변환한 값입니다.
중요 포인트는 더 많은 정보를 포함했다는 점입니다. 그렇다면 어떠한 정보를 포함하고 있는가??
z 점수는 원점수에서 평균과 표준편차를 이용하여 표준화화기 때문에, 분포내에 원점수의 위치를 확인할 수 있게 됩니다.
즉, 1. z 점수는 원점수와 다르게 분포내에서 해당 점수가 어디에 위치하는지를 내포하고 있는 것입니다.
또한, 2. 표준화 방법으로 다른 분포들을 서로 직접적으로 비교할 수 있도록 해주기도 합니다.
- 공식
$$
z = \dfrac{X- \mu}{\sigma}
$$
- z 점수를 원점수로 변환하는 공식
$$
X = \mu + z\sigma
$$
해당 공식을 통해 어떠한 분포이던간에 평균이 0이고, 표준편차(분산)이 1인 분포로 표준화되게 됩니다.
- 예
1. 모평균 : 100, 모표준편차 : 10인 점수 분포에서 130점의 z 점수는?? : (130-100)/10 = 3.00
2. 모평균 : 90, 모표준편차 : 5인 점수 분포에서 80점의 z 점수는?? : (80-90)/5 = -2.00
◼️ 모평균, 모표준편차, 원점수의 관계를 확인하면 z 점수를 쉽게 구할 수 있다.
앞서 z 점수는 정보를 포함한다고 하였습니다. 그렇다면, 이 정보가 무엇인지 우리가 배웠기 때문에 굳이 공식이 없이도 쉽게 구할 수 있습니다.
예 1번을 봅시다. 원점수와 모평균의 차이값은 30입니다. 그리고 모표준편차는 10입니다. 즉, 원점수는 모평균보다 30더 크고, 이 30은 3의 모표준편차와 같습니다. 그렇기 때문에 z 점수는 +3.00이 되는 것입니다.
같은 맥락으로 예 2번은, 원점수가 모평균보다 10더 작습니다. 이는 -2의 모표준편차와 같고 때문에 z 점수는 -2.00이 되는 것입니다.
◼️ 분포간 비교?
또한 표준화 방법으로 서로 다른 분포를 서로 비교할 수 있도록 해준다고 하였습니다. 위 예에서 보았던 분포들을 그래프로 그려보겠습니다.
이와 같이 그래프 모양은 정규 분포 모양으로 같지만, 평균과 표준편차가 다르기 때문에 구별하기 쉽지 않습니다.
하지만 표준화 방법으로 평균이 0이고 표준편차가 1인 분포로 바꾼다면? 아래와 같이 서로 비교가 가능하게 됩니다.
📌 z 점수의 사용 이유?
추론 통계를 확인해보면 됩니다.
만약 우리가 새로운 심리 치료 프로그램을 개발했다고 해봅시다. 이는 일반적인 성인을 대상으로 시행하고, 행복도 향상을 목표로 합니다.
보통 일반적인 성인의 행복도 평균이 80이라고 하고, 표준편차가 10입니다.(프로그램을 경험하지 않은)
이 때, 성인 한 명을 대상으로 심리 치료 프로그램을 도입하였고, 행복도 측정 결과 행복도가 88로 나왔습니다. 과연 해당 심리 치료 프로그램은 효과가 있다고 할 수 있을까요??[프로그램 도입 전의 행복도를 배제하고 가정해보자.]
이를 z 점수로 변환하여 그래프를 확인해보면 아래와 같습니다.
z 점수는 0.80으로 1의 표준편차를 넘지 못하고, 많은 값들이 모여있는 중앙에 놓여있습니다.
88 자체는 평균보다 높은 값이지만, 통계적으로 볼 때 유의한 값은 아니라고 판단할 수 있는 것입니다.
◼️ 그렇다면 심리 치료 프로그램은 효과가 없는 것인가??
먼저, 앞서 말한 것과 같이 프로그램 도입 전의 행복도를 배제하고 생각해보겠습니다.
우리는 '심리 치료 프로그램이 효과가 없다'라고 결론을 지을 수 없습니다. 왜냐하면 해당 참가자가 outlier인 사람일 수 있는 것입니다.
즉, 1명을 대상으로 한 이러한 연구는 일반화될 수 없습니다. 때문에 우리는 '해당 사람은 심리 치료 프로그램의 효과가 나타나지 않는다' 정도의 결론만 내릴 수 있는 것입니다.
[단, 도입 전의 행복도가 매우 낮다면 효과가 있다고 볼 가능성이 있겠죠??]
때문에, 분석 방법의 메커니즘과 목적을 분명히 알고 있어야 분석 결과 또한 제대로 해석할 수 있습니다.
그렇다면 유의하고 유의하지 않음은 어떻게 구분하는가?
이를 위해서 확률에 대해서 알아볼 것입니다.
📌 확률
정규 분포의 각 영역을 확인하기 위해 z 점수를 활용합니다.
즉, 어떤 분포든 z 점수로 변환하여 평균 0, 표준편차 1인 분포로 변환이 가능하고 이에 대해 범위의 포함 확률을 구할 수 있게 됩니다.
이렇게 z 분포의 각 영역에 대해 포함 확률을 구할 수 있습니다. 각 영역당 포함 확률은 정규분포표에서 구할 수 있습니다.
그럼 이를 어떻게 사용하는가? 앞서 예로 보았던 행복도를 확인해 봅시다.
이번엔 행복도가 88일 뿐 아니라, 103인 사람도 한번 확인해보면 아래와 같은 z 분포로 표현이 가능합니다.
행복도 증진을 목적으로 하기 때문에 우리가 확인하고 싶은건 평균인 80보다 큰가에 대해서 입니다. 때문에 한쪽 방향 영역에 포함될 확률을 계산해보면,
행복도 88의 경우 z 점수가 0.80이고 이는 1표준편차 안에 들며, 0~1 표준편차의 포함 확률은 34.13%입니다.
반면 행복도 103의 경우 z 점수가 2.30이고 이는 2표준편차 밖에 포함되며, 포함 확률은 2.28%입니다.
즉, 103의 경우 성인 모집단의 행복도를 생각해 보았을 때, 매우 얻기 어려운 값입니다. 때문에 해당 참가자에게는 프로그램의 효과가 있었다고 볼 수 있게 되는 겁니다.
◼️ 추론 통계 예시
앞서 살표본 z 점수와 확률을 통해 추론통계의 예시를 확인해봅시다.
모집단에서의 만족도 평균이 80, 표준편차가 10이다.
이 때 심리 치료 프로그램의 처치 효과가 있는가?? 유의 수준 0.05(5%)를 기준으로 확인해보자.
: 심리 치료 프로그램에 따른 만족도의 증가만을 보 것이기 때문에 양 극단을 나누지 않고, 단 방향으로 0.05를 확인.
이를 z 점수로 환산하여 확인하면 약 1.645
- 만약 프로그램을 받은 표본의 행복도가 + 1.645 너머에 있다면??
1. 표본이 평균으로 부터 거의 1.5 표준편차 떨어져 있는 극단값으로, 모집단에 속한 대부분의 개인들과는 다르다
2. 처치의 효과가 없다면 매우 나오기 힘든 결과이다(5%의 우연으로 얻어진 값)
위 두 가지로 해석이 가능한 것입니다.
이렇게 확률을 통한 추론 통계 결과를 확인하는 거이 매우 기본적인 매커니즘입니다.
이는 뒤에서 확인한 ANOVA, T-test 모두 포함되는 내용으로 왜 우리가 확률을 다루는가를 꼭 알고 가야 합니다.
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
짧은 기초 통계 6 : 가설 검정, t-test(t 검정) (1) | 2024.07.10 |
---|---|
짧은 기초 통계 5 : 표본 평균의 분포, 중심 극한 정리, 큰 수의 법칙 (0) | 2024.07.03 |
짧은 기초 통계 3 : 변산성, 불편 추정량(제약식과 자유도) (1) | 2024.06.16 |
짧은 기초 통계 2 : 중심 경향값과 편포(+ 로그/제곱근 변환) (0) | 2024.06.15 |
짧은 기초 통계 1 : 통계 중요성과 변수 및 척도 (1) | 2024.06.14 |