전체 글

공부한 걸 정리하고 공유하며 틀린 부분을 함께 고쳐나가는 블로그입니다.
📌 Classification tree 기본적인 tree에 대해서는 아래 포스팅을 확인해주세요. 아래 내용과 이어서 설명할 것입니다. CART 1. 회귀나무(Regression tree)[재귀적 이진 분할 알고리즘] — 데이터 노트 📝 CART 1. 회귀나무(Regression tree)[재귀적 이진 분할 알고리즘] 📌 Regression Trees ML에 있어서 우리는 데이터를 사용하여 모델을 훈련시킵니다. 이 모델을 사용하여 새로운 데이터에 대한 예측을 하려하죠. 이때 예측하려는 데이터의 공간을 작은 부분들로 나 datanovice.tistory.com 기본적으로 회귀와 다르게 $Y$가 Categorical일 때 쓰는 '분류'입니다. 위 포스팅의 regression tree와 비슷한 맥락입니다. 차이..
📌 Regression Trees ML에 있어서 우리는 데이터를 사용하여 모델을 훈련시킵니다. 이 모델을 사용하여 새로운 데이터에 대한 예측을 하려하죠. 이때 예측하려는 데이터의 공간을 작은 부분들로 나누어 예측합니다. ${R_1, ..., R_k}$를 예측변수 공간 $\chi = {(x_1,...,x_p)}$의 파티션이라고 한다면, 아래와 같은 공간 함수를 고려합니다. $$ f(\textbf{x}) = \sum_{j=1}^K \beta_j I(\textbf{x} \in R_j) $$ 여기서 $I(\textbf{x} \in R_j)$는 $\textbf{x}$가 공간 $R_j$에 속하는지 여부를 나타내는 함수 입니다. 문제는 어떻게 공간 $R_j$와 계수 $\beta_j$를 알 수 있는가 입니다. 이때 재..
📌 비교 연산자 1 # ~ 보다 크다 # [1] TRUE 10 >= 1 # ~ 보다 크거나 같다 # [1] TRUE 10 < 1 # ~보다 작다 # [1] FALSE 10
기본 변수 할당 x x [1] 1 3 2 5 '
📌 matrix() : 매트릭스 생성 함수입니다. 기본적으로 matrix(데이터, 행의 수, 열의 수)로 구성합니다 x
📌 rnorm() rnorm() : 난수를 생성해줍니다. 첫 번째 인자를 표본의 크기고 정규분포에서 랜덤 숫자를 생성해 줍니다. 랜덤이기에 사용할 때 마다 생성되는 수들은 다릅니다. rnorm(5) # [1] 0.31409685 -0.72927291 -0.06060948 -0.19719737 -0.58505942 rnorm(5) # [1] 0.4229952 0.5993539 0.2496150 0.5663149 -0.1945433 ◾ set.seed() set.seed() : 시드 값을 고정시켜 같은 난수를 추출합니다. > set.seed(40) > rnorm(5) # [1] 0.4777390 0.4961828 -0.8595843 -0.8290600 -0.3215731 > set.seed(40) > rno..
합, 차, 곱 숫자의 기본 연산은 나눗셈을 제외한 일반적으로 사용하는 연산자와 같습니다. # 더하기 1 + 3 # [1] 4 # 빼기 6 - 2 # [1] 4 # 곱하기 3 * 3 # [1] 9 이는 벡터도 같습니다. x = c(1,4,5) y = c(3,6,1) # 더하기 x + y # [1] 4 10 6 # 빼기 x - y # [1] -2 -2 4 # 곱하기 x * y # [1] 3 24 5 나눗셈 나눗셈의 경우 나누기, 몫, 나머지만 따로 구할 수 있습니다. # 나눗셈 10/3 # [1] 3.333333 # 나눗셈(나머지만 구하기) 10 %% 3 # [1] 1 # 나눗셈(몫만 구하기) 10 %/% 3 # [1] 3 제곱과 제곱근 sqrt(), ^2 : 제곱근과 제곱 x
오늘은 R 설치법에 대해 알려드리겠습니다. 우선 R은 컴퓨터 언어, 소프트웨어입니다. 우선 무료라는게 가장 큰 장점입니다. 그리고 Rstudio는 R을 효율적으로 다루도록 도와주는 역할은 한다고 보시면 될 것 같습니다. R의 개발 환경을 제공해주며 R 사용자들을 편리하게 도와주죠. 우선 R을 설치해봅시다. R 설치 https://www.r-project.org/ 위 홈페이지를 들어가준다음 빨간 네모로 표시된 CRAN을 눌러줍니다. 그럼 이렇게 나라이름과 url주소가 나옵니다. 아래로 스크롤하다보면 Korea가 있습니다. 눌러줄게요. 위와 같은 창에서 본인이 쓰는 환경에 따라 macOS, Linux, Windows를 선택해주시면 됩니다. 저는 윈도우를 사용하기 때문에 windows에 맞춰 보여드리겠습니다...
📌 불편추정량 불편추정량 에 대해 보겠습니다. 사실 이 불편추정량이라는 것이 통계를 공부하면서 되게 자주 나오고 자주 설명해주지만, 이해하기 쉽지 않습니다. '불편'이라는 단어의 의미가 헷갈리기도 하면서요. 단어의 의미를 한번 봅시다. 불편 당연하게도 불편하다가 아닌 '편항되지 않다.' 라는 의미입니다. 추정량 이는 이해하기 쉽죠. 말 그대로 '추정'입니다. 통계학에서 추정량이란, sample value들로 부터 우리가 알고자하는 population의 값을 추정하는 것이죠. 이들을 합치면 편향되지 않은 추정량입니다. 이는 무슨 의미일까요?? 쉽게 말하자면 추정량인 $E(\hat{\theta})$ 와 실제 모수인 $\theta$의 차가 0이라는 의미, 이를 편향되지 않았다고 한다는 것이죠. 쉽게 식으로 모..
📌 Central Limit Theorem(중심극한정리) 중심극한정리 입니다. 통계에서 정말 중요한 정리이죠. 우리가 왜? 통계를 공부하고 많은 분야에서 사용할까요? 가장 큰 이유는 우리는 모수를 알 수 없기 때문입니다. 실제 모수를 모으기란 불가능 하기 때문에, sample을 통해 근사, 예측, 분류 등 많은 통계론을 통해 실제 세상을 분석해나갑니다. 그런데 문제가 있습니다. 우리가 sample을 수집한다 한들, 이 sample이 population의 분포를 따르지 않는다면 어떡할까요? sample을 열심히 수집해서 분석했지만 실제 population과 비슷 혹은 같지 않다면 실용적이지 못한 분석이 될겁니다. 그래서 중심극한정리가 중요합니다. 중심극한정리 우리에게 sample $X_1, X_2, .....
Data_novice
데이터 노트 📝