수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 확률변수의 분산
확률 변수의 분산
은 해당 확률 변수의 평균값으로 부터의 편차 제곱의 평균으로, 확률 변수의 데이터가 얼마나 퍼져있는지를 나타내는 측정값으로 사용됩니다.
$$
\sigma^2 = Var(X) = E[(X-\mu)^2], \mu = E[X]
$$
또한 아래와 같이 표현할 수도 있습니다.
$$
\begin{align}
E[(X-\mu)^2] &= E(X^2-2X\mu+\mu^2) = E(X^2)-E(2X\mu)+E(\mu^2)
\\ &= E(X^2) -2\mu E(X) + \mu^2 = E(X^2) -2\mu \times \mu + \mu^2
\\ &= E(X^2) -\mu^2
\\ &= E(X^2)-[E(X)]^2
\end{align}
$$
◼️ 분산의 속성
1️⃣ 속성1
: $Var(aX+b)$
- $a,b : \text{constants}$
- $X : \text{random variable}$
$$
Var(aX+b) = a^2Var(x)
$$
증명위해 우선 조건을 정해봅시다.
- $Y=aX+b$
- $E(Y) = E(aX+b) = aE(X) +b$
$$
\begin{align}
Var(Y) &= E[(Y-E(Y))^2] = E[(aX+b-aE(X)-b)^2]
\\ &= E[(a(X-E(X))^2] = E[a^2(X-E(X))^2]
\\ &= a^2Var(X)
\end{align}
$$
2️⃣ 속성2
: $Var(X+Y)=Var(X)+Var(Y)$
- $X,Y$ : 독립관계
- $E(XY)-E(X)E(Y)$ : $X,Y$는 독립관계이기 때문에 0
증명해봅시다.
$$
\begin{align}
Var(X+Y) &= E[(X+Y)^2] -[E(X+Y)]^2
\\ &= E(X^2)+2E(XY)+E(Y^2)-([E(X)]^2+2E(X)E(Y)+[E(Y)]^2)
\\ &= E(X^2)-[E(X)^2] + E(Y^2) -[E(Y)]^2 +2(E(XY)-E(X)E(Y))
\\ &= Var(X)+Var(Y)
\end{align}
$$
이러한 속성때문에 아래와 같은 3️⃣ 속성3
도 됩니다.
$$
Var(\sum^n_{i=1}X_i) = \sum_{i=1}^n Var(X_i)
$$
📌 확률 변수의 Correlation Coefficient(상관계수) : $\rho$
먼저, 상관계수의 부호를 결정하는 Covariance부터 확인합시다.
◼️ Covariance(공분산)
$$
\begin{align}
Cov(X,Y) &= E[(X-\mu_X)(Y-\mu_Y)]
\\ &= E(XY)-E(X)E(Y)
\end{align}
$$
식의 구조를 보면 $(X-\mu_X)(Y-\mu_y)$가 있습니다. 이의 기댓값에 의해 부호가 결정됩니다. 각각 $A=(X-\mu_X), B=(Y-\mu_Y)$로 보았을 때, $AB$로 나올수 있는 부호의 조합은 아래와 같죠?
$$\begin{cases} negative = +-,-+ \\ positive = --, ++ \end{cases}$$
이들의 기댓값을 구하는 것이기에 음수 혹은 양수가 나올 것입니다.
▫️ Cov(X,X)
$Cov(X,Y)$에서 재밌는 것은 $Cov(X,X)$일 경우입니다. 아래를 한번 보죠.
$$
\begin{align}
Cov(X,X) &=E(XX)-E(X)E(X)
\\ &= E(X^2)-[E(X)]^2
\end{align}
$$
어디서 많이 본식이죠? 바로 분산식입니다.
$$
Cov(X,X) = Var(X)
$$
▫️ Sample covariance(표본의 공분산)
$$
\frac1{n-1} \sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y}) = \frac1{n-1}[\sum_{i=1}^n(x_iy_i-n\bar{x}\bar{y})]
$$
◼️ 확률변수 X,Y의 상관계수
$$
\begin{align}
\rho = Cor(X,Y) &= \dfrac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}
\\ &= \dfrac{Cov(X,Y)}{\sqrt{\sigma^2_X}\sqrt{\sigma^2_Y}}
\\ &= \dfrac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y}
\\ &= E[(\dfrac{X-\mu_X}{\sigma_X})(\dfrac{Y-\mu_Y}{\sigma_Y})]
\end{align}
$$
▫️ Sample Correlation Coefficient(표본의 상관계수)
$$
\begin{align}
r &=\dfrac{\dfrac{1}{-n-1}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\dfrac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2} \sqrt{\dfrac{1}{n-1}\sum_{i=1}^n(y_i-\bar{y})^2}}
\\ &= \dfrac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2} \sqrt{\sum_{i=1}^n(y_i-\bar{y})^2}}
\end{align}
$$
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
불편추정량. n-1로 나누는 이유 (0) | 2023.10.03 |
---|---|
중심극한정리 (0) | 2023.10.03 |
확률변수의 기대값 (1) | 2023.10.03 |
통계 기초용어를 쉽게 설명해보자. (0) | 2023.10.03 |
베이지안 이론(Bayesian theory)에 대해 알아보자. (1) | 2023.10.03 |