전체 글

공부한 걸 정리하고 공유하며 틀린 부분을 함께 고쳐나가는 블로그입니다.
📌 확률변수의 분산 확률 변수의 분산은 해당 확률 변수의 평균값으로 부터의 편차 제곱의 평균으로, 확률 변수의 데이터가 얼마나 퍼져있는지를 나타내는 측정값으로 사용됩니다. $$ \sigma^2 = Var(X) = E[(X-\mu)^2], \mu = E[X] $$ 또한 아래와 같이 표현할 수도 있습니다. $$ \begin{align} E[(X-\mu)^2] &= E(X^2-2X\mu+\mu^2) = E(X^2)-E(2X\mu)+E(\mu^2) \\ &= E(X^2) -2\mu E(X) + \mu^2 = E(X^2) -2\mu \times \mu + \mu^2 \\ &= E(X^2) -\mu^2 \\ &= E(X^2)-[E(X)]^2 \end{align} $$ ◼️ 분산의 속성 1️⃣ 속성1 : $Var(a..
📌 Random variable : 확률변수 값이 random experiment에 결정되는 양입니다. 보통 $X, Y, Z$와 같이 표시됩니다. 위에서 통계량에 대해 설명했듯이, 모두들 특정 확률분포를 따릅니다. 좀더 어렵게 설명해본다면, 표본 공간($\Omega$)에 정의된 실수 값 함수입니다. 이는 표본 공간에서 실수로 mapping해주는 것입니다. 쉽게 설명해볼까요? 표본 공간 $\Omega$에서 어떠한 실수값을 가지게 이어주는 함수와 비슷한 역할을 가지는게 확률 변수라고 생각해봅시다. $$ y = f(x) $$ 학교에서 배운 식이죠? y는 어떠한 함수입니다. 이를 다르게 표현한다면 $$ f:X \rightarrow Y $$ $f$라는 함수는 공간$X$에서 공간$Y$의 어떠한 값으로 이어지게 해준..
📌 통계 기초 용어 ◾ Poplulation : 모집단 우리가 관심있는 대상입니다. 예를 들어, 남자와 여자의 키 차이가 있는지 조사해본다고 해봅시다. 우리는 한국인 대상으로 남녀 각각 300명을 뽑았습니다. 차이를 확인하였을 때 우리는 몇몇 가정을 충족한다면 남녀 300명 끼리 차이가 있다가 아닌, 대한민국 남여 키차이가 있다.라고 합니다. 이 때 대한민국 남녀가 모집단이 되는 것입니다. ◾ sample : 표본 모집단으로부터의 관측값 집합입니다. 위에서 설명했듯이, 모집단을 추정하기 위해 뽑은 표본들입니다. 위 예시에 비추어 설명하면 대한민국 남녀 300명이 sample인 것입니다. 연구를 위해 선택된 모집단의 일부분으로 중요한 점은 대표성을 지닌다라고 가정한다는 것입니다. 우리는 표본을 뽑을 때 모..
베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 하는 것이니까요. 📌 베이지안 vs 빈도주의 아마 베이지안에 대해 공부하시면 많이 들으셨을 주제 입니다. 정말 쉽게 설명해봅시다. 빈도주의 확률을 성공 횟수/전체 횟수의 극한으로 봅니다. 동일한 수행이 무한히 반복했을 때의 빈도를 말합니다. 말이 어렵지만 예를 들어봅시다. 동전 던지기입니다. 우리는 당연하게도 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5로 알고 있습니다. 왜 일까요? 동전은 5번 던졌을 때, 앞면이 4번이 나올수도 있습니다. 하지만 동전을 무수히 즉, 무한대로 던지다보면 결국 0.5에 수렴하기 때문..
앞서 확률변수에 대해서 알아봤는데요. 더 깊이 들어가면 연속확률 변수와 이산확률 변수에 대해서 포스팅 했었죠! 이번엔 확률질량함수, 확률밀도함수에 대해 포스팅 해보려고 합니다! 📌 확률질량함수(PMF, probability mass function) 이산 확률 변수의 분포를 이산 확률 분포라고 한다. 이를 정의하기 위해 있는 수식이 바로 확률질량함수. 이산확률 변수의 분포를 함수화 한것을 확률질량함수라고 보시면 됩니다. 저번 포스팅에 따른 예를 봅시다. 이번엔 자루에 빨간 공이 2개, 파란 공이 2개 있다고 해볼게요. 여기서 공을 다시 넣지 않고 두번 뽑을 때 빨간 공을 뽑는 횟수를 X라고 할 때(순서 상관 있음). 결과를 보면 아래와 같을 겁니다. 각 X에 따른 확률은 $P(X=0) = \frac14$..
척도의 종류 표 정리 척도 척도 설명 명목 척도 값 간의 양적인 구분은 하지 않는 명명적인 척도 서열 척도 순서대로 나열된 척도. 규모 혹은 크기에 따라 서열을 매길 수 있다. 등간 척도 임의의 영점을 가진다(0이라는 값이 전혀 없다는 뜻이 아니다). 정확히 동일한 크기의 모든 구간에 대해 정렬된 범주로 구성되어 있다. 일련의 서열 범주로 구성되어 있다. 비율 척도 0이 실제 전혀 없다는 것을 의미한다. 정확히 동일한 크기의 모든 구간에 대해 정렬된 범주로 구성되어 있다. 일련의 서열 범주로 구성되어 있다. 척도 명목척도 * 명목 척도 : 값 간의 양적인 구분은 하지 않는 명명적인 척도. 흔히 '이름'이라고 생각하면 쉬울 것입니다. 철수와 영미 사이에는 이름이라는 것 외에 연관이 없으며 철수와 영미 중에..
변수의 종류를 크게 이산 변수와 연속 변수로 나누어 보겠습니다. 이산변수 첫 번째로 이산 변수란 분리되는 개별 범주로 구성됩니다. 쉽게 설명하자면, 두 이산 변수 사이에 중간값이란 존재하지 않습니다. 예를 들어, 직업(경찰과 소방관의 중간은 없다.), 개수(1개와 2개의 중간 1.5개 라는 것은 없다.)등이 있습니다. * 이산변수 : 점수 간에 분리된 개별 범주. 두 값 사이에 중간값이 존재할 수 없다. 연속변수 두 번째로 연속 변수란 이산 변수와 다르게 중간값이 존재하는 연속된 변수입니다. 예를 들어, 무게(0kg~100kg까지 무수한 중간값이 있고 연속됩니다.), 시간(1초와 2초 사이 1.5초 혹은 1.500000초 등 무수히 많은 수로 나눌 수 있습니다. * 연속변수 : 두 값 사이에 무한한 값이..
표 정리 표본 연구를 위한 개인의 집합으로, 모집단을 대표하기 위함 모집단 특정 연구에서 연구의 대상이 되는 전체 개인의 집합 변수 여러 개인에 따라 값이 달라지거나 변하는 특정과 조건 원점수 변수를 측정해서 얻은 값 모수 모집단을 설명하는 값 통계량 표본을 설명하는 값 기술 통계 자료를 정리, 명시, 요약하기 위해 사용되는 통계 절차 추론 통계 표본을 연구하고 분석하여 모집단에 대해 일반화가 가능한지 판단하는 과정으로 구성 표집 오차 표본 통계량과 모집단의 모수 사이의 불일치 혹은 오류 간단한 예시와 설명 우리가 실험을 위해 무엇인가를 알기 위해 실험 참가자를 모집하여 실험을 진행합니다. 예를 들어 봅시다. 만약 우리가 흡연자들의 흡연하는 동기를 알고 싶다고 한다면 우리는 흡연자인 실험 참가자들을 구성..
5달 정도 운영하고 느낀점들 긴 고민 끝에 티스토리로 블로그를 옮기기로 했다.. 처음 깃허브 블로그를 시작할 때는 야심찬 마음으로 시작했고 사실 현재까지도 마음에 든다. 첫 깃허브 블로그를 시작했을 때는 내가 공부한 것들을 정리하고 나중에 포트폴리오로 쓸 수 있으면 좋겠다! 라는 생각에 시작했다. 공부한 내용을 적어두면 나중에라도 내가 쓴 글을 다시 찾아 공부하면 되는 거니까! 그렇게 만든 내 블로그 ㅜ 근데 문제는 아래와 같다 ㅋㅋ 1. 꾸밀게 많아 좋긴하나 결국 할 수록 산으로 간다. 깃허브 블로그의 가장 큰 장점이다. css등 구조만 잘 이해하고 있어도 정말 내마음대로 꾸밀 수 있다. 그런데 꾸미는 구조가 많아지고 겹쳐질수록 변경하고 또 변경하게 되어 결국 배보다 배꼽이 더 커진다. 2. 디자이너가..
Data_novice
데이터 노트 📝