수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 통계 기초 용어
◾ Poplulation : 모집단
우리가 관심있는 대상입니다. 예를 들어, 남자와 여자의 키 차이가 있는지 조사해본다고 해봅시다. 우리는 한국인 대상으로 남녀 각각 300명을 뽑았습니다. 차이를 확인하였을 때 우리는 몇몇 가정을 충족한다면 남녀 300명 끼리 차이가 있다가 아닌, 대한민국 남여 키차이가 있다.라고 합니다. 이 때 대한민국 남녀가 모집단이 되는 것입니다.
◾ sample : 표본
모집단으로부터의 관측값 집합입니다. 위에서 설명했듯이, 모집단을 추정하기 위해 뽑은 표본들입니다. 위 예시에 비추어 설명하면 대한민국 남녀 300명이 sample인 것입니다.
연구를 위해 선택된 모집단의 일부분으로 중요한 점은 대표성을 지닌다
라고 가정한다는 것입니다. 우리는 표본을 뽑을 때 모집단을 대표할 수 있는 좋은 표본들을 뽑는다고 가정을 한 후에 통계적 처리를 하는 것입니다.
◾ parameter : 매개변수
모집단의 어떤 특성을 설명하는 양입니다. 모집단을 설명하는 모델에 따라 매개변수가 달라집니다.
위에서의 예시로 볼때, 우리가 관심있는 매개변수는 남녀의 평균 키가 될것입니다. 하지만, 관심없는 매개변수도 있을 것입니다. 예를들어, 각 남녀의 사는 곳과 같이 말이죠.
◾ Census, Sample survey : 인구조사, 표본조사
쉽죠? Census는 모집단 구성원 전체를 포함하는 조사. Sample survey는 모집단의 일부인 sample을 통한 조사 입니다.
◾ Statistic : 통계량
우선 통계량처럼. '량'이라고 붙은건 다 확률분포가 존재합니다. 즉, 계산이 가능하다는 듯이고 어떠한 상수가 아닌 확률변수입니다.
data values의 center(평균, 중앙값, 최빈값)
$$
mean = \mu = E(X) = \bar{X}
$$
평균
입니다. 평균과 같은 경우 제일 많이 보는 통계량 중 하나입니다. 단점이라면 outlier, 즉 이상치에 굉장히 민감합니다.
예로, X = (1,2,3,4,5,100) 이 있다고 해봅시다. 이의 평균은 19.17 입니다. 과연이게 데이터를 대표하는 값이라고 할 수 있을까요?
$$
median(X) = \tilde{X}
$$
중앙값
입니다. 위의 예시를 가져와보면 X=(1,2,3,4,5,100)에서 중앙값은 3,4 혹은 3.5라고 표현할 수 있겠네요.
그렇다면 왜? 평균을 사용할까요?
실제로 중앙값이 계산하는 법도 중앙값이 굉장히 쉽습니다. 편하고요. 위 예시를 보았을 때 중앙값이 더 좋아보입니다. 그렇다면 우리는 왜 평균을 그렇게 많이 사용할까요?
바로 위에서 보았던 Sample의 가정에 있습니다. 우리가 sample을 뽑을 때 모집단을 대표할 거라고 가정합니다. 즉, sample을 제대로 뽑는다면 위 예시와 같은 이상한 데이터를 얻지 않는다고 가정하는 거죠.
$$
mode(X) = M_o
$$
최빈값
입니다. X=(1,2,3,3,4,5) 라면 최빈값은 3이 되겠네요.
data valuse의 variation(분산, 표준편차)
$$
\sigma^2 = Var(X) = E[(X-\mu)^2].\ \mu =E(X)
\ \sigma = \sqrt{\sigma^2}
$$
아마 많이 들으셨을 겁니다. 분산과 표준편차
로 데이터들이 얼마나 흩어져있는지 알 수 있다는 정도로 설명하겠습니다.
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
확률변수의 분산과 상관계수 (0) | 2023.10.03 |
---|---|
확률변수의 기대값 (1) | 2023.10.03 |
베이지안 이론(Bayesian theory)에 대해 알아보자. (1) | 2023.10.03 |
확률밀도함수, 확률질량함수에 대해 (1) | 2023.10.03 |
척도의 종류 (1) | 2023.10.03 |