오늘은 좀 근본적인 이야기를 해볼까 합니다. 우리가 흔히 아는 선형회귀(단순, 다중) 모델들은 Y가 양적 변수인 것을 가정하죠. 하지만 실제로 질적 변수가 필요한 경우가 많습니다. 코로나에 감염이 되었는지(Yes), 되지 않았는지(No) / 범죄자가 유죄인지(guilty), 무죄인지(innocent) 등과 같이 말이죠. 이때 이러한 질적 변수 Y를 예측하는 것을 분류한다고 합니다. 이 Y를 특정 범주 혹은 class로 할당하는 것이기 때문이죠. 그런데 보통 분류를 위해 회귀를 사용하지는 않습니다. 질적 변수를 1, 0 등으로 두어 1과 가깝다면 A, 0과 가깝다면 B로 분류할 수도 있지 않을까요? 왜? 선형회귀를 사용하지 않을까요? 예를 들어봅시다. 우리가 코로나에 영성인지 음성인지 본다면 Y를 이렇게 ..
📊 Statistics for Basic/기초 통계
📌 불편추정량 불편추정량 에 대해 보겠습니다. 사실 이 불편추정량이라는 것이 통계를 공부하면서 되게 자주 나오고 자주 설명해주지만, 이해하기 쉽지 않습니다. '불편'이라는 단어의 의미가 헷갈리기도 하면서요. 단어의 의미를 한번 봅시다. 불편 당연하게도 불편하다가 아닌 '편항되지 않다.' 라는 의미입니다. 추정량 이는 이해하기 쉽죠. 말 그대로 '추정'입니다. 통계학에서 추정량이란, sample value들로 부터 우리가 알고자하는 population의 값을 추정하는 것이죠. 이들을 합치면 편향되지 않은 추정량입니다. 이는 무슨 의미일까요?? 쉽게 말하자면 추정량인 $E(\hat{\theta})$ 와 실제 모수인 $\theta$의 차가 0이라는 의미, 이를 편향되지 않았다고 한다는 것이죠. 쉽게 식으로 모..
📌 Central Limit Theorem(중심극한정리) 중심극한정리 입니다. 통계에서 정말 중요한 정리이죠. 우리가 왜? 통계를 공부하고 많은 분야에서 사용할까요? 가장 큰 이유는 우리는 모수를 알 수 없기 때문입니다. 실제 모수를 모으기란 불가능 하기 때문에, sample을 통해 근사, 예측, 분류 등 많은 통계론을 통해 실제 세상을 분석해나갑니다. 그런데 문제가 있습니다. 우리가 sample을 수집한다 한들, 이 sample이 population의 분포를 따르지 않는다면 어떡할까요? sample을 열심히 수집해서 분석했지만 실제 population과 비슷 혹은 같지 않다면 실용적이지 못한 분석이 될겁니다. 그래서 중심극한정리가 중요합니다. 중심극한정리 우리에게 sample $X_1, X_2, .....
📌 확률변수의 분산 확률 변수의 분산은 해당 확률 변수의 평균값으로 부터의 편차 제곱의 평균으로, 확률 변수의 데이터가 얼마나 퍼져있는지를 나타내는 측정값으로 사용됩니다. $$ \sigma^2 = Var(X) = E[(X-\mu)^2], \mu = E[X] $$ 또한 아래와 같이 표현할 수도 있습니다. $$ \begin{align} E[(X-\mu)^2] &= E(X^2-2X\mu+\mu^2) = E(X^2)-E(2X\mu)+E(\mu^2) \\ &= E(X^2) -2\mu E(X) + \mu^2 = E(X^2) -2\mu \times \mu + \mu^2 \\ &= E(X^2) -\mu^2 \\ &= E(X^2)-[E(X)]^2 \end{align} $$ ◼️ 분산의 속성 1️⃣ 속성1 : $Var(a..
📌 Random variable : 확률변수 값이 random experiment에 결정되는 양입니다. 보통 $X, Y, Z$와 같이 표시됩니다. 위에서 통계량에 대해 설명했듯이, 모두들 특정 확률분포를 따릅니다. 좀더 어렵게 설명해본다면, 표본 공간($\Omega$)에 정의된 실수 값 함수입니다. 이는 표본 공간에서 실수로 mapping해주는 것입니다. 쉽게 설명해볼까요? 표본 공간 $\Omega$에서 어떠한 실수값을 가지게 이어주는 함수와 비슷한 역할을 가지는게 확률 변수라고 생각해봅시다. $$ y = f(x) $$ 학교에서 배운 식이죠? y는 어떠한 함수입니다. 이를 다르게 표현한다면 $$ f:X \rightarrow Y $$ $f$라는 함수는 공간$X$에서 공간$Y$의 어떠한 값으로 이어지게 해준..
📌 통계 기초 용어 ◾ Poplulation : 모집단 우리가 관심있는 대상입니다. 예를 들어, 남자와 여자의 키 차이가 있는지 조사해본다고 해봅시다. 우리는 한국인 대상으로 남녀 각각 300명을 뽑았습니다. 차이를 확인하였을 때 우리는 몇몇 가정을 충족한다면 남녀 300명 끼리 차이가 있다가 아닌, 대한민국 남여 키차이가 있다.라고 합니다. 이 때 대한민국 남녀가 모집단이 되는 것입니다. ◾ sample : 표본 모집단으로부터의 관측값 집합입니다. 위에서 설명했듯이, 모집단을 추정하기 위해 뽑은 표본들입니다. 위 예시에 비추어 설명하면 대한민국 남녀 300명이 sample인 것입니다. 연구를 위해 선택된 모집단의 일부분으로 중요한 점은 대표성을 지닌다라고 가정한다는 것입니다. 우리는 표본을 뽑을 때 모..
베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 하는 것이니까요. 📌 베이지안 vs 빈도주의 아마 베이지안에 대해 공부하시면 많이 들으셨을 주제 입니다. 정말 쉽게 설명해봅시다. 빈도주의 확률을 성공 횟수/전체 횟수의 극한으로 봅니다. 동일한 수행이 무한히 반복했을 때의 빈도를 말합니다. 말이 어렵지만 예를 들어봅시다. 동전 던지기입니다. 우리는 당연하게도 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5로 알고 있습니다. 왜 일까요? 동전은 5번 던졌을 때, 앞면이 4번이 나올수도 있습니다. 하지만 동전을 무수히 즉, 무한대로 던지다보면 결국 0.5에 수렴하기 때문..
앞서 확률변수에 대해서 알아봤는데요. 더 깊이 들어가면 연속확률 변수와 이산확률 변수에 대해서 포스팅 했었죠! 이번엔 확률질량함수, 확률밀도함수에 대해 포스팅 해보려고 합니다! 📌 확률질량함수(PMF, probability mass function) 이산 확률 변수의 분포를 이산 확률 분포라고 한다. 이를 정의하기 위해 있는 수식이 바로 확률질량함수. 이산확률 변수의 분포를 함수화 한것을 확률질량함수라고 보시면 됩니다. 저번 포스팅에 따른 예를 봅시다. 이번엔 자루에 빨간 공이 2개, 파란 공이 2개 있다고 해볼게요. 여기서 공을 다시 넣지 않고 두번 뽑을 때 빨간 공을 뽑는 횟수를 X라고 할 때(순서 상관 있음). 결과를 보면 아래와 같을 겁니다. 각 X에 따른 확률은 $P(X=0) = \frac14$..
척도의 종류 표 정리 척도 척도 설명 명목 척도 값 간의 양적인 구분은 하지 않는 명명적인 척도 서열 척도 순서대로 나열된 척도. 규모 혹은 크기에 따라 서열을 매길 수 있다. 등간 척도 임의의 영점을 가진다(0이라는 값이 전혀 없다는 뜻이 아니다). 정확히 동일한 크기의 모든 구간에 대해 정렬된 범주로 구성되어 있다. 일련의 서열 범주로 구성되어 있다. 비율 척도 0이 실제 전혀 없다는 것을 의미한다. 정확히 동일한 크기의 모든 구간에 대해 정렬된 범주로 구성되어 있다. 일련의 서열 범주로 구성되어 있다. 척도 명목척도 * 명목 척도 : 값 간의 양적인 구분은 하지 않는 명명적인 척도. 흔히 '이름'이라고 생각하면 쉬울 것입니다. 철수와 영미 사이에는 이름이라는 것 외에 연관이 없으며 철수와 영미 중에..
변수의 종류를 크게 이산 변수와 연속 변수로 나누어 보겠습니다. 이산변수 첫 번째로 이산 변수란 분리되는 개별 범주로 구성됩니다. 쉽게 설명하자면, 두 이산 변수 사이에 중간값이란 존재하지 않습니다. 예를 들어, 직업(경찰과 소방관의 중간은 없다.), 개수(1개와 2개의 중간 1.5개 라는 것은 없다.)등이 있습니다. * 이산변수 : 점수 간에 분리된 개별 범주. 두 값 사이에 중간값이 존재할 수 없다. 연속변수 두 번째로 연속 변수란 이산 변수와 다르게 중간값이 존재하는 연속된 변수입니다. 예를 들어, 무게(0kg~100kg까지 무수한 중간값이 있고 연속됩니다.), 시간(1초와 2초 사이 1.5초 혹은 1.500000초 등 무수히 많은 수로 나눌 수 있습니다. * 연속변수 : 두 값 사이에 무한한 값이..