◼️ 모든 글 ◼️

📌 rnorm() rnorm() : 난수를 생성해줍니다. 첫 번째 인자를 표본의 크기고 정규분포에서 랜덤 숫자를 생성해 줍니다. 랜덤이기에 사용할 때 마다 생성되는 수들은 다릅니다. rnorm(5) # [1] 0.31409685 -0.72927291 -0.06060948 -0.19719737 -0.58505942 rnorm(5) # [1] 0.4229952 0.5993539 0.2496150 0.5663149 -0.1945433 ◾ set.seed() set.seed() : 시드 값을 고정시켜 같은 난수를 추출합니다. > set.seed(40) > rnorm(5) # [1] 0.4777390 0.4961828 -0.8595843 -0.8290600 -0.3215731 > set.seed(40) > rno..
합, 차, 곱 숫자의 기본 연산은 나눗셈을 제외한 일반적으로 사용하는 연산자와 같습니다. # 더하기 1 + 3 # [1] 4 # 빼기 6 - 2 # [1] 4 # 곱하기 3 * 3 # [1] 9 이는 벡터도 같습니다. x = c(1,4,5) y = c(3,6,1) # 더하기 x + y # [1] 4 10 6 # 빼기 x - y # [1] -2 -2 4 # 곱하기 x * y # [1] 3 24 5 나눗셈 나눗셈의 경우 나누기, 몫, 나머지만 따로 구할 수 있습니다. # 나눗셈 10/3 # [1] 3.333333 # 나눗셈(나머지만 구하기) 10 %% 3 # [1] 1 # 나눗셈(몫만 구하기) 10 %/% 3 # [1] 3 제곱과 제곱근 sqrt(), ^2 : 제곱근과 제곱 x
오늘은 R 설치법에 대해 알려드리겠습니다. 우선 R은 컴퓨터 언어, 소프트웨어입니다. 우선 무료라는게 가장 큰 장점입니다. 그리고 Rstudio는 R을 효율적으로 다루도록 도와주는 역할은 한다고 보시면 될 것 같습니다. R의 개발 환경을 제공해주며 R 사용자들을 편리하게 도와주죠. 우선 R을 설치해봅시다. R 설치 https://www.r-project.org/ 위 홈페이지를 들어가준다음 빨간 네모로 표시된 CRAN을 눌러줍니다. 그럼 이렇게 나라이름과 url주소가 나옵니다. 아래로 스크롤하다보면 Korea가 있습니다. 눌러줄게요. 위와 같은 창에서 본인이 쓰는 환경에 따라 macOS, Linux, Windows를 선택해주시면 됩니다. 저는 윈도우를 사용하기 때문에 windows에 맞춰 보여드리겠습니다...
📌 불편추정량 불편추정량 에 대해 보겠습니다. 사실 이 불편추정량이라는 것이 통계를 공부하면서 되게 자주 나오고 자주 설명해주지만, 이해하기 쉽지 않습니다. '불편'이라는 단어의 의미가 헷갈리기도 하면서요. 단어의 의미를 한번 봅시다. 불편 당연하게도 불편하다가 아닌 '편항되지 않다.' 라는 의미입니다. 추정량 이는 이해하기 쉽죠. 말 그대로 '추정'입니다. 통계학에서 추정량이란, sample value들로 부터 우리가 알고자하는 population의 값을 추정하는 것이죠. 이들을 합치면 편향되지 않은 추정량입니다. 이는 무슨 의미일까요?? 쉽게 말하자면 추정량인 $E(\hat{\theta})$ 와 실제 모수인 $\theta$의 차가 0이라는 의미, 이를 편향되지 않았다고 한다는 것이죠. 쉽게 식으로 모..
📌 Central Limit Theorem(중심극한정리) 중심극한정리 입니다. 통계에서 정말 중요한 정리이죠. 우리가 왜? 통계를 공부하고 많은 분야에서 사용할까요? 가장 큰 이유는 우리는 모수를 알 수 없기 때문입니다. 실제 모수를 모으기란 불가능 하기 때문에, sample을 통해 근사, 예측, 분류 등 많은 통계론을 통해 실제 세상을 분석해나갑니다. 그런데 문제가 있습니다. 우리가 sample을 수집한다 한들, 이 sample이 population의 분포를 따르지 않는다면 어떡할까요? sample을 열심히 수집해서 분석했지만 실제 population과 비슷 혹은 같지 않다면 실용적이지 못한 분석이 될겁니다. 그래서 중심극한정리가 중요합니다. 중심극한정리 우리에게 sample $X_1, X_2, .....
📌 확률변수의 분산 확률 변수의 분산은 해당 확률 변수의 평균값으로 부터의 편차 제곱의 평균으로, 확률 변수의 데이터가 얼마나 퍼져있는지를 나타내는 측정값으로 사용됩니다. $$ \sigma^2 = Var(X) = E[(X-\mu)^2], \mu = E[X] $$ 또한 아래와 같이 표현할 수도 있습니다. $$ \begin{align} E[(X-\mu)^2] &= E(X^2-2X\mu+\mu^2) = E(X^2)-E(2X\mu)+E(\mu^2) \\ &= E(X^2) -2\mu E(X) + \mu^2 = E(X^2) -2\mu \times \mu + \mu^2 \\ &= E(X^2) -\mu^2 \\ &= E(X^2)-[E(X)]^2 \end{align} $$ ◼️ 분산의 속성 1️⃣ 속성1 : $Var(a..
📌 Random variable : 확률변수 값이 random experiment에 결정되는 양입니다. 보통 $X, Y, Z$와 같이 표시됩니다. 위에서 통계량에 대해 설명했듯이, 모두들 특정 확률분포를 따릅니다. 좀더 어렵게 설명해본다면, 표본 공간($\Omega$)에 정의된 실수 값 함수입니다. 이는 표본 공간에서 실수로 mapping해주는 것입니다. 쉽게 설명해볼까요? 표본 공간 $\Omega$에서 어떠한 실수값을 가지게 이어주는 함수와 비슷한 역할을 가지는게 확률 변수라고 생각해봅시다. $$ y = f(x) $$ 학교에서 배운 식이죠? y는 어떠한 함수입니다. 이를 다르게 표현한다면 $$ f:X \rightarrow Y $$ $f$라는 함수는 공간$X$에서 공간$Y$의 어떠한 값으로 이어지게 해준..
📌 통계 기초 용어 ◾ Poplulation : 모집단 우리가 관심있는 대상입니다. 예를 들어, 남자와 여자의 키 차이가 있는지 조사해본다고 해봅시다. 우리는 한국인 대상으로 남녀 각각 300명을 뽑았습니다. 차이를 확인하였을 때 우리는 몇몇 가정을 충족한다면 남녀 300명 끼리 차이가 있다가 아닌, 대한민국 남여 키차이가 있다.라고 합니다. 이 때 대한민국 남녀가 모집단이 되는 것입니다. ◾ sample : 표본 모집단으로부터의 관측값 집합입니다. 위에서 설명했듯이, 모집단을 추정하기 위해 뽑은 표본들입니다. 위 예시에 비추어 설명하면 대한민국 남녀 300명이 sample인 것입니다. 연구를 위해 선택된 모집단의 일부분으로 중요한 점은 대표성을 지닌다라고 가정한다는 것입니다. 우리는 표본을 뽑을 때 모..
베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 하는 것이니까요. 📌 베이지안 vs 빈도주의 아마 베이지안에 대해 공부하시면 많이 들으셨을 주제 입니다. 정말 쉽게 설명해봅시다. 빈도주의 확률을 성공 횟수/전체 횟수의 극한으로 봅니다. 동일한 수행이 무한히 반복했을 때의 빈도를 말합니다. 말이 어렵지만 예를 들어봅시다. 동전 던지기입니다. 우리는 당연하게도 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5로 알고 있습니다. 왜 일까요? 동전은 5번 던졌을 때, 앞면이 4번이 나올수도 있습니다. 하지만 동전을 무수히 즉, 무한대로 던지다보면 결국 0.5에 수렴하기 때문..
앞서 확률변수에 대해서 알아봤는데요. 더 깊이 들어가면 연속확률 변수와 이산확률 변수에 대해서 포스팅 했었죠! 이번엔 확률질량함수, 확률밀도함수에 대해 포스팅 해보려고 합니다! 📌 확률질량함수(PMF, probability mass function) 이산 확률 변수의 분포를 이산 확률 분포라고 한다. 이를 정의하기 위해 있는 수식이 바로 확률질량함수. 이산확률 변수의 분포를 함수화 한것을 확률질량함수라고 보시면 됩니다. 저번 포스팅에 따른 예를 봅시다. 이번엔 자루에 빨간 공이 2개, 파란 공이 2개 있다고 해볼게요. 여기서 공을 다시 넣지 않고 두번 뽑을 때 빨간 공을 뽑는 횟수를 X라고 할 때(순서 상관 있음). 결과를 보면 아래와 같을 겁니다. 각 X에 따른 확률은 $P(X=0) = \frac14$..
Data_novice
'분류 전체보기' 카테고리의 글 목록 (12 Page)