📊 Statistics for Basic

짦은 기초 통계 2에서 중심 경향값에 대해 살펴보았습니다.중심 경향값과 함께 때놓을 수 없는 것이 바로 분산입니다. 사실 거의 대부분의 통계 모델들이 이 중심 경향값과 변산성으로 이루어져 있습니다. 때문에, 잘 알아 두어야 합니다.  📌 변산성(Variability)  변산성은 분포에서 점수들 간의 차이에 대한 양적 측정값입니다. 아주 극히 쉽게 표현하자면, '데이터들이 퍼져 있는 정도'라고 말할 수 있습니다. 이 변산성은 아래 두 가지 특성이 있습니다.1. 점수들의 분포를 알려줌2. 한 점수가 전체 점수 분포를 얼마나 잘 대표하는지를 알려줌  사실 어떻게 보면 중심 경향값보다 중요한 부분이 이 변산성이 아닐 까 쉽습니다. 왜냐하면 분산이 같고, 평균이 다른 경우보다 분산이 다르고 평균이 같은 경우에 ..
중심 경향값에 대한 내용입니다. 내용 자체는 단순 합니다. 평균은 통계를 하지 않아도 많이들 알고 계시고, 분산과 표준편차 또한 많이들 알고 계실 겁니다. 하지만, 이를 왜 알아야하는 가에 대해 알아보려고 합니다. 📌 중심 경향값(central tendency) : 집단을 대표하는 표현 중심 경향값은 분포의 중심을 정의하는 단일 점수를 결정하는 통계 수단입니다.전체 집단에서 가장 일반적이거나 가장 대표적인 단일 점수를 찾기 위해 사용합니다. 쉽게 말하면 내가 가진 데이터 분포를 하나의 수로 표현하기 위한 방법을 중심 경향값이라고 하는 것입니다.  1. 평균(mean)  우리가 잘 알고있는 평균입니다. 보통은 산술 평균을 사용합니다. 분포의 모든 값들을 더한 후 사례의 수로 나누어 계산합니다. - 모집단..
📌 통계(Statistics) 용어 정리 먼저, 용어를 정리하고 가야합니다. 해당 용어의 의미를 헷갈리실 경우 후의 내용을 이해하는 데 어려움이 있을 수 있습니다. 간단하고 알아야할 용어들만 나열해봅시다. - 모집단(population) : 특정 연구에서 연구 대상이 되는 모든 개인의 집합 (예 : 'A' 기업의 전체 소비자) - 모수(parameter) : 모집단을 설명하는 값, 모집단에 해당하는 개인을 측정해 얻은 값 (예 : 'A'기업의 전체 소비자 만족도 점수) - 표본(sample) : 모집단에서 선택된 개인 집합. 모집단을 대표하기 위한 것 (예 : 'A' 기업의 소비자 남녀 각각 50명) - 통계량(statistic) : 표본을 설명하는 값. 표본에 해당하는 개인을 측정해 얻은 값 (예 :..
앞서 포스팅에서 확률과 가능도에 대해 알아보았습니다.마지막 글을 보시면 의미심자한 말이있죠?  가능도(Likelihood) vs 확률(Probability)통계를 공부한다면 확률은 많이 들어보셨을 겁니다. 더욱 깊이 들어가 ML과 같은 여러 알고리즘을 접하면 자연스레 가능도에 대해서도 듣게 되죠. 확률과 가능도. 매우 비슷해 보이지만 해당 의datanovice.tistory.com 오늘은 이렇게 가능도를 최대화 하는 방향으로 파라미터를 추정하는 방법에 대해 알아볼 것입니다. 이를 최대 우도 추정 혹은 최대 가능도 추정법이라고 합니다.짧게 MLE(Maximum Likelihood Estimation)라고 하겠습니다.  📌 MLE 일반적으로 통계 모델의 매개변수를 추정하..
통계를 공부한다면 확률은 많이 들어보셨을 겁니다. 더욱 깊이 들어가 ML과 같은 여러 알고리즘을 접하면 자연스레 가능도에 대해서도 듣게 되죠. 확률과 가능도. 매우 비슷해 보이지만 해당 의미와 방법에 차이가 있습니다. 한번 확인해 봅시다. 📌 확률(Probability) 아주 친숙한 확률입니다. 통계나 수학을 공부하지 않아도, 일반 사람들이라면 확률에 대해 많이 이야기 합니다. 확률은 특정 사건이 발생할 가능성을 수치적으로 표현한 것으로 0과 1사이의 값을 가지게 됩니다. 여기서 0은 사건이 절대 발생하지 않음을 나타내고, 1은 사건이 반드시 발생함을 의미합니다. 또한, 확률은 일반적으로 사전에 알려진 정보 혹은 긴 기간의 관찰 결과에 기반하여 결정됩니다. 동전 던지기를 예로 들어봅시다. 앞면과 뒷면이 ..
📌 초기하 분포(hypergeometric distribution) 초기하 분포란 비복원추출에서 모집단 N 중에 n번 추출했을 때, 원하는 것이 k번 나올 확률에 대한 분포입니다. 이렇게 보면 굉장히 어려워보이는데 별거 없습니다. 이항분포에서 복원추출이 아닌 비복원추출을 하는 것이라고 간단히 이해하고 있으면 됩니다. 자세히 한번 봅시다! 예를 들어 상자 안에 공 7개가 있고, 빨간 공 4개와 파란공 3개가 있다고 해봅시다. 우리는 총 4개의 공을 뽑아서 빨간 공 3개를 뽑으려고 합니다. 모집단인 N = 7이고, n = 4번 추출하며, 원하는 빨간 공이 k = 3번 나올 확률에 대한 분포를 보는 것입니다. 이 때 초기하확률변수 X = 3이 되는겁니다. ➕ 초기하 분포의 확률 질량 함수 모집단 N 총 시행 ..
📌 표본분산의 확률 분포 = 카이제곱 분포?? 우선 가법성에 대해 간단히 설명하고 넘어가 보겠습니다. $$ X \sim \chi^2(n_1), Y \sim \chi^2(n_2) $$ 위와 같이 $X,Y$라는 확률 변수가 있고, 이 들이 서로 독립이라면 아래와 같이 합친 자유도를 따르는 카이제곱 분포를 따릅니다. $$ (X+Y) \sim \chi^2(n_1+n_2) $$ 가법성을 기억하고 표본 분산과 카이제곱의 관계를 한번 봅시다. 우선 표본분산 $S^2$는 아래와 같습니다. $$ S^2 = \sum_{i=1}^n \dfrac{(X_i - \bar{X})^2}{n-1} \\ \sum(X_i-\bar{X})^2 = (n-1)S^2 $$ 그리고 자유도가 n일 때 카이제곱 분포는 아래과 같습니다. $$ \sum..
📌 Chi-squared distribution 독립적이고 표준정규분포를 따르는 확률 변수 $Z_1, Z_2, ..., Z_n$이 있다고 하면, 자유도 n의 카이제곱 분포는 아래와 같은 확률 변수의 분포라고 합니다. $$ Q = \sum_{i=1}^n Z_i^2 = \chi_n^2 $$ 좀 더 알아본다면.. $X \sim N(\mu, \sigma)$ 일 때(정규분포를 따를 때) $Z = \frac{X-\mu}{\sigma} \sim N(0,1)$ 일겁니다.(표준화) 이 $Z$를 제곱하면 아래와 같이 자유도가 1인 카이제곱을 따르게 되는겁니다. $$ Z^2 = \dfrac{(X-\mu)^2}{\sigma^2} \sim \chi_1^2 $$ 이게 무슨 소리인지 차근차근 한번 봅시다. 카이제곱 분포 설명 우선..
📌 정규 분포 (Normal distridution) 통계를 한다면 어쩌면 가장 많이 듣지 않을까 하는 분포 중 하나인 정규 분포 입니다. 보통 수학의 분야에선 Normal distribution(정규 분포)라고 하는데, 공학쪽 에서는 Gaussian Distribution(가우시안 분포)라고 하는 것 같더라구요. 처음엔 저도 헷갈렸습니다. 우리가 진행하는 많은 통계적 분석(T-test, F-test) 등등 모두 정규분포의 성질을 활용, 가정하여 분석하게 됩니다. 정말 중요한 분포이죠. 정규분포는 bell shape(종 모양)을 띄며 양 끝 꼬리로 갈 수록 낮아지고 평균과 가까울 수록 높아지는 모양을 보입니다. 또한 분산이 커질 수록 평평한 모양을 띄고, 분산이 작을 수록 뾰족한 모양에 가깝습니다. 위 ..
연속균등 분포 포스팅 : 연속균등 분포 링크 연속균등 분포 (Continous uniform distribution) 이번엔 균등 분포에 대해 알아볼까 합니다. 그중에서도 연속형 균등 분포에 대해 알아보겠습니다. 📌 균등 분포(uniform distribution) 연속균등분포는 연속 확률 분포입니다. 분포가 특정한 범위 내 datanovice.tistory.com 📌 연속균등 분포 평균 ($E(X) = \dfrac{(a+b)}{2}$) $$ \mu = E(X) = \dfrac{(a+b)}{2} $$ ◾ 증명 연속균등 분포는 이름 그대로 연속 확률분포이고, 연속형 확률분포의 평균은 아래와 같다. $$ \int x f(x) dx $$ 연속균등 분포에서 확률 밀도 함수(pdf)는 $f(x) = \dfrac{..
Data_novice
'📊 Statistics for Basic' 카테고리의 글 목록