수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
앞서 확률변수에 대해서 알아봤는데요. 더 깊이 들어가면 연속확률 변수와 이산확률 변수에 대해서 포스팅 했었죠! 이번엔 확률질량함수, 확률밀도함수
에 대해 포스팅 해보려고 합니다!
📌 확률질량함수(PMF, probability mass function)
이산 확률 변수의 분포를 이산 확률 분포라고 한다. 이를 정의하기 위해 있는 수식이 바로 확률질량함수. 이산확률 변수의 분포를 함수화 한것을 확률질량함수라고 보시면 됩니다.
저번 포스팅에 따른 예를 봅시다. 이번엔 자루에 빨간 공이 2개, 파란 공이 2개 있다고 해볼게요. 여기서 공을 다시 넣지 않고 두번 뽑을 때 빨간 공을 뽑는 횟수를 X라고 할 때(순서 상관 있음). 결과를 보면 아래와 같을 겁니다.
각 X에 따른 확률은 $P(X=0) = \frac14$, $P(X=1) = \frac12$, $P(X=2) = \frac14$이 될 것입니다. 이를 함수화 하면
$$f(x) = \begin{cases} \frac14 & x=0 \\ \frac12 & x=1 \\ \frac14 & x=2\end{cases}$$
라고 나타낼 수 있겠군요. 결국 이 함수를 확률질량함수
라고 하는 겁니다! 그래프로 표현하면 아래와 같습니다.
이렇듯 확률질량함수에서는 함수값이 확률
이 됩니다.
➕ 확률질량함수의 성질
1️⃣ $f(x) \geq 0, x=0,1,2...$
$f(x)$는 0보다 크거나 같다. f(x)가 바로 확률이기 때문에 당연한 성질입니다. 확률이 0보다 작을 수는 없죠?
2️⃣ $\sum^{\infty}_{x=0}f(x) =1$
$f(x)$의 모든 합은 1이다. 확률의 모든 합은 1이기 때문에 나온 성질입니다.
3️⃣ $P(a \leq X \leq b) = \sum_{a\leq x \leq b}f(x)$
일정 구간의 확률값은 $f(x)$의 일정구간 값의 합과 같다. f(x)가 바로 확률값 P와 같기 때문에!
📌 확률밀도함수(PDF, probability density function)
연속 확률 변수의 분포를 연속 확률 분포라고 한다. 이를 정의하기 위해 있는 수식이 바로 확률밀도함수.
그러니까 연속확률 변수의 분포를 함수화 한것을 확률밀도함수라고 보시면 될 것 같습니다.
저번 포스팅에서 따른 예를 보면, X가 길 고양이의 몸무게라고 했을 때, 길 고양이의 몸무게가 정확히 5kg일 확률은..? 실제로는 거의 0에 가까워요. X는 몸무게를 말하기에 연속확률변수이고 5.1kg, 5.000001kg등 정확히 5kg를 값으로 얻기에는 실제로는 매우 어렵습니다.
하지만 길 고양이 몸무게가 3kg~5kg 일 확률은?
이렇게 된다면 확률을 구할 수 있게 됩니다! 여기서 알 수 있는 것은 연속확률 변수의 분포에서 확률을 구할 때는 범위로 보아야 한다
정도가 되겠습니다.
$f(x) ={\alpha \leq x \leq \beta }$에서 정의된 확률밀도함수가 있다고 할 때, 여기서 확률인 $P(a \leq X \leq b) = \int_a^b f(x)dx$ 이 됩니다.
앞서 예로 들면? 길 고양이 몸무게의 확률밀도함수가 f(x)라고 할 때, 3kg~5kg일 확률은?($P(3 \leq X \leq 5)) \int_3^5f(x)dx$ 라는 겁니다
더 정확히 설명해보면? $P(a \leq X \leq b)$는 확률 변수 $X$가 $a$ 이상 $b$ 이하의 구간에 속할 확률을 의미하고 $f(x)$는 확률 밀도 함수. 위 수식은 $a$부터 $b$까지 확률밀도함수 $f(x)$의 넓이 인것.
이 처럼 $a와 b$ 사이의 확률을 구하는 건?? 확률밀도함수를 표현한 그래프에서 x 축을 밑변으로 하는 넓이를 구하는 겁니다. 그래서 적분 사용!
대강 그래프로 표현한다면 아래와 같겠네요.
확률질량함수와는 다르게 확률밀도함수에서는 넓이가 확률
이 됩니다.
➕ 확률밀도함수의 성질
1️⃣ $f(x) \geq 0$
$f(x)$는 0보다 크거나 같다. 만약 f(x)가 음의 값을 가진다면? 확률을 구하기 위해 넓이를 구하는 적분값이 음수가 나오게 됩니다. 음의 확률은 없죠
2️⃣ $\int^{\infty}_{-\infty}f(x) dx =1$
$f(x)$의 모든 범위 적분값은 1이다. 결국 모든 x값에 대해 넓이를 구하는 것이고, 이는 모든 x값에 대한 확률의 합이기 때문에 1이 맞을 겁니다,
3️⃣ $P(a \leq X \leq b) = \int_{a\leq x \leq b}f(x)dx$
일정 구간의 확률값은 f(x)의 일정구간 적분값의 합과 같다. f(x)의 적분값이 바로 확률값 P이기 때문에!
❓ 왜 밀도? 왜 질량?
공부를 하다가 의문이 들더군요. 굳이 왜 밀도와 질량을 이용했는가..? 그래서 블로그 좀 찾아봤습니다. 우선 밀도와 질량에 대해서 이해해봐야 하더군요.
$밀도 = \frac{질량}{부피}$ 입니다.
우선 확률질량함수의 경우 f(x)의 값이 곧 확률값입니다. 여기서 확률(f(x)) = 질량이라고 해봅시다.
확률밀도함수를 보았을 때. $P(a \leq X \leq b) = \int_a^b f(x)dx$ 에서 좌변은 $P$는 확률(= 질량)입니다.
우변에서 $dx$는 구간의 길이라고 합니다. 그럼 $f(x)$는 $\frac{확률}{구간길이}$가 됩니다.
구간의 길이를 부피라고 생각한다면? $\frac{질량(=확률)}{부피(=구간길이)} = 밀도(=f(x))$가 되는것!! 그래서 확률밀도함수라고 하네요! 확률/구간길이(f(x)) = 밀도
생각해보면 결국 확률밀도함수에서 확률값이 x축 값 곱하기 y축 값 곱하기니까..
x축은 구간길이고 y값인 f(x)가 확률/구간길이 인걸 생각하면 xy는 확률이 되니까 맞네요.
이번 포스팅은 수식, 그래프 등등.. 생각할 게 많아서 좀 오래 걸렸어요. 그래도 이렇게 적어놓으니 보기 좋습니다.
이상 확률밀도, 질량함수 알아보기였습니다! ☠️
참조[확률질량함수와 확률밀도함수 (왜 질량과 밀도??) by bskyvision.com
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=oyuniee&logNo=221348849851
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
통계 기초용어를 쉽게 설명해보자. (0) | 2023.10.03 |
---|---|
베이지안 이론(Bayesian theory)에 대해 알아보자. (1) | 2023.10.03 |
척도의 종류 (1) | 2023.10.03 |
이산변수와 연속변수 (0) | 2023.10.03 |
통계 기초 정리 (1) | 2023.10.03 |