수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 Chi-squared distribution
독립적이고 표준정규분포를 따르는 확률 변수 $Z_1, Z_2, ..., Z_n$이 있다고 하면, 자유도 n의 카이제곱 분포는 아래와 같은 확률 변수의 분포라고 합니다.
$$
Q = \sum_{i=1}^n Z_i^2 = \chi_n^2
$$
좀 더 알아본다면.. $X \sim N(\mu, \sigma)$ 일 때(정규분포를 따를 때) $Z = \frac{X-\mu}{\sigma} \sim N(0,1)$ 일겁니다.(표준화) 이 $Z$를 제곱하면 아래와 같이 자유도가 1인 카이제곱을 따르게 되는겁니다.
$$
Z^2 = \dfrac{(X-\mu)^2}{\sigma^2} \sim \chi_1^2
$$
이게 무슨 소리인지 차근차근 한번 봅시다.
카이제곱 분포 설명
우선 확률 변수 $Z_i$는 표준정규분포를 따른다고 했습니다. 이 표준정규분포에서 랜덤하게 뽑아서 이를 $Z_1$이라고 해봅시다.
아래 그림과 같이 표준정규분포에서 랜덤하게 뽑아 $Z_1 = 0.50$을 얻었습니다.
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(42)
# 평균 (mu)와 표준편차 (sigma)를 정의
mu = 0
sigma = 1
# 표준정규분포를 그리기 위한 데이터 생성
x = np.linspace(mu - 3 * sigma, mu + 3 * sigma, 100)
y = (1 / (sigma * np.sqrt(2 * np.pi))) * np.exp(-((x - mu) ** 2) / (2 * sigma ** 2))
# 그래프 그리기
plt.figure(figsize=(8,5))
plt.plot(x, y, label='Standard Normal Distribution', color='blue')
# 랜덤하게 표준정규분포에서 하나의 수 뽑기
random_value = np.random.normal(mu, sigma, 1)
# 빨간 점으로 선택한 수 표시
plt.scatter(random_value, 0, color='red', label=f'Random Value: {random_value[0]:.2f}', zorder=5)
plt.legend(loc='upper right')
# 그래프 꾸미기
plt.xlabel('X-axis')
plt.ylabel('Probability Density')
plt.title('Standard Normal Distribution with Random Value')
plt.grid(True)
# 그래프 보여주기
plt.show()
이때 $Z_1^2$를 히스토그램에 표시해봅시다.
이제 이를 10번정도 반복하여 표시해봅시다.
똑같이 빈도를 히스토그램으로 표시해봅시다.
이를 500번 정도 반복한 후, 자유도 1의 카이제곱분포와 비교해봅시다.
자 이렇게 자유도가 1일 때
카이제곱 분포와 같이 그래프가 생성된 것을 볼 수 있습니다.
직접 그림으로 보니 이해가 좀더 쉬울까요?
각 자유도 마다 정해진 분포가 있습니다. 이 분포를 보고 분석을 합니다.
출처:위키백과
➕ 카이제곱 분포를 쓰는 이유??
빈도에 주목해야합니다. 위에서 본 히스토그램은 빈도를 y축으로 만들어주었습니다. 우리가 보아야할 자료가 범주형
이라면? 이렇게 빈도를 통해 분석할 수 있는 것입니다. 깊게 말하자면, 두 범주형 변수 간의 독립성을 검정하거나, 모집단 분포에 대한 가설 검정할 때 사용됩니다.
더 중요한 부분은 분산 분석입니다. 후에 포스팅 할 예정인데 카이제곱 분포를 이용하여 분산을 이용해 3가지 이상 집단에서 평균의 차이를 검정할 수 있습니다.
그럼 그냥 3 집단의 평균을 t-test 하면 되지 않느냐?? 이에 대한 문제가 있습니다.
이 가정의 영가설을 $H_0 : \mu_1 = \mu_2 = \mu_3$, 대립 가설을 $H_1 : not H_0$ 으로 하였습니다.
문제는 $H_0$을 t-test로 검정하기 위해서는 총 세번의 검정을 해야합니다. $\mu_1 = \mu_2, \mu_1 = \mu_3, \mu_2 = \mu_3$.
만약 우리의 유의수준을 0.05로 선택했다면?? 이 0.05를 세가지 검정에서 나누어 사용해줘야합니다.
때문에 평균끼리의 비교가 아닌 평균들의 분산을 분산하는 방법을 사용하는 것입니다.
➕ 카이제곱 분포의 가법성
가법성이란 '여러개의 요소 또는 구성 요소가 더해질 때, 그 합이 변하지 않고 일정하게 유지되는 특성을 의미합니다.'
여기 $W_i$가 있습니다. 아래와 같이 $W_i$는 서로 독립이며 자유도가 $r_i$를 따르는 카이제곱 분포를 따른다고 합시다.
$$
W_i \sim iid \ \chi^2_n, \ \ d.f = r_i, i=1,2,...,n
$$
이 때 서로 $W_i$의 합은 그 합의 자유도를 따르는 카이제곱 분포가 됩니다,
$$
\sum_{i=1}^n W_i \sim \chi^2_n, \ \ d.f = \sum_{i=1}^n r_i
$$
'📊 Statistics for Basic > Distribution(분포)' 카테고리의 다른 글
초기하 분포 (Hypergeometric distribution) (0) | 2023.11.25 |
---|---|
표본 분산의 확률 분포가 카이제곱 분포인가 (0) | 2023.11.25 |
정규 분포와 표준 정규 분포 (Normal and Strand Normal Distribution) (0) | 2023.11.25 |
연속균등 분포 평균, 분산 증명 (1) | 2023.11.25 |
연속균등 분포 (Continous uniform distribution) (1) | 2023.11.25 |