◼️ 모든 글 ◼️

아무래도 통계 관련 공부를 하고 있으니 포스팅이든 발제든 LaTex 문법을 많이 쓰게됩니다. 제가 즐겨찾기 해놓고 보는 페이지가 있긴한데 매일 필요한걸 찾아서 보려니까 힘들더라구요 ㅜㅜ 그래서 포스팅 해놓고 제껄로 알아서 찾아보려고 합니다 핫 그리스 문자($\alpha, \beta$ 등등) input output input output \alpha $\alpha$ \eta $\eta$ \beta $\beta$ \lambda $\lambda$ \gamma $\gamma$ \pi $\pi$ \epsilon $\epsilon$ \rho $\rho$ \theta $\theta$ \sigma $\sigma$ \sum $\sum$ \phi $\phi$ \sum_{i=1}^{n} $\sum_{i=1}^n$ \Phi ..
오늘은 확률 변수와 확률 분포에 대해 알아보려고 합니다. 통계에 있어 기본 중에 기본이라고 할 수 있지만, 기본을 탄탄히 해야 후에 어렵지 않은 법..! 대충 알고있는 것 보단 확실하게 아는게 좋겠죠? 확률 변수 📌 의미 확률 변수란 값이 변하는 변수를 말합니다. 그런데 어떻게 변하냐? 바로 확률을 가진 시행결과에 따라 값이 변하는 변수 입니다. 실제로 나타나지 않은 일이지만? 나타날 가능성이 있는 모든 경우의 수에 포함된 값을 지니는 변수입니다. 예를 들어보면 자루에 빨간 공, 파란 공이 하나 씩 들어있다고 할 때, 자루안에서 공을 뽑는 행위는 확률에 기인한 일입니다. 어떤 색 공이 나올지는 확률에 따라 이루어지니까요. 여기서 빨간 공을 꺼내는 것을 X1, 파란 공을 꺼내는 것을 X2라고 할 때 각각 ..
오늘은 좀 근본적인 이야기를 해볼까 합니다. 우리가 흔히 아는 선형회귀(단순, 다중) 모델들은 Y가 양적 변수인 것을 가정하죠. 하지만 실제로 질적 변수가 필요한 경우가 많습니다. 코로나에 감염이 되었는지(Yes), 되지 않았는지(No) / 범죄자가 유죄인지(guilty), 무죄인지(innocent) 등과 같이 말이죠. 이때 이러한 질적 변수 Y를 예측하는 것을 분류한다고 합니다. 이 Y를 특정 범주 혹은 class로 할당하는 것이기 때문이죠. 그런데 보통 분류를 위해 회귀를 사용하지는 않습니다. 질적 변수를 1, 0 등으로 두어 1과 가깝다면 A, 0과 가깝다면 B로 분류할 수도 있지 않을까요? 왜? 선형회귀를 사용하지 않을까요? 예를 들어봅시다. 우리가 코로나에 영성인지 음성인지 본다면 Y를 이렇게 ..
R로 XGboost를 구현합니다. XGboost에 대한 이론적인 내용은 아래를 참고해주세요. 3. Boosting : XGBoost 쉽게 이해해보자.(간단 ver.) 전 글들이 좀 읽기 어려운 것 같아 쉽게 써보려고 합니다. 전 글들 : XGBoost에 대해(원리와 공식) 저번 포스팅에 이어서 XGBoost의 원리와 왜 확장성이 높은 알고리즘인가에 대해서 포스팅 하려고 합 datanovice.tistory.com 특별한건 아니고 대략적인 이런식으로 코드를 구현하는거구나~ 정도로 할겁니다! XGB with R - 라이브러리, 데이터 불러오기, 7:3으로 train, test set # 라이브러리 불러오기 # 데이터 : iris data library(MASS) library(xgboost) set.seed..
전 글들이 좀 읽기 어려운 것 같아 쉽게 써보려고 합니다. 전 글들 : XGBoost에 대해(원리와 공식) 저번 포스팅에 이어서 XGBoost의 원리와 왜 확장성이 높은 알고리즘인가에 대해서 포스팅 하려고 합니다! 공식의 유도와 원리에 대한 이야기이기 때문에 전 포스팅을 보고 와주세요. XGBoost: A Scalab datanovice.tistory.com XGBoost: A Scalable Tree Boosting System(Carlos & Tianqi. 2016) 리뷰 이번엔 XGBoost를 다루려고 합니다. 해당 논문을 읽고 정리한 내용이니 좀더 자세하고 이해하기 쉬운 설명은 다음 포스팅을 참고해주세요! 1️⃣ 서론 기계 학습과 데이터 기반 접근법이 많은 분 datanovice.tistory.c..
저번 포스팅에 이어서 XGBoost의 원리와 왜 확장성이 높은 알고리즘인가에 대해서 포스팅 하려고 합니다! 공식의 유도와 원리에 대한 이야기이기 때문에 전 포스팅을 보고 와주세요. XGBoost: A Scalable Tree Boosting System(Carlos & Tianqi. 2016) 리뷰 이번엔 XGBoost를 다루려고 합니다. 해당 논문을 읽고 정리한 내용이니 좀더 자세하고 이해하기 쉬운 설명은 다음 포스팅을 참고해주세요! 1️⃣ 서론 기계 학습과 데이터 기반 접근법이 많은 분 datanovice.tistory.com 📌 XGBoost 우선 XGBoost란 부스팅의 한 종류로 gradient boosting의 upgrade 버전으로 보시면 되겠습니다. Gradient Boosting과 같이 ..
이번엔 XGBoost를 다루려고 합니다. 해당 논문을 읽고 정리한 내용이니 좀더 자세하고 이해하기 쉬운 설명은 다음 포스팅을 참고해주세요! 1️⃣ 서론 기계 학습과 데이터 기반 접근법이 많은 분야에서 중요해지고 있다.(스팸 분류, 적절한 광고 노출, 사기 감지 등등) 이러한 성공적인 응용 프로그램을 이끄는 두가지 요소는 복잡한 데이터 종속성(상관)을 포착하는 효과적인 모델의 사용 대규모 데이터셋으로부터 관심있는 모델을 학습하는 확장가능한 학습 시스템 2015년 Kaglle의 29개 과제중 17개의 우승 솔루션이 XGBoost일 정도로 ML 및 데이터 마이닝 경쟁에서 큰 영향력을 발휘. 무엇보다도 오픈소스! XGBoost의 성공의 가장 중요한 요인은 모든 시나리오에서의 확장성(scalability)라고 하..
📌 Gradient Boosting Gradient Boosting은 Gradient descent와 boosting을 합친 것으로, 경사하강법과 부스팅 기법을 사용합니다. 경사하강법에서 loss인 $L(\theta)$를 최소화하기 위해 아래와 같은 방법으로 $\theta$를 업데이트 합니다. $$ \theta^{s+1} = \theta^s - \rho \dfrac{\partial}{\partial \theta} L(\theta) \big\lvert_{\theta^s} $$ 이 업데이트는 gradient인 $\nabla L(\theta^{s})$에 기반을 둡니다. 직관적이고 쉽게 봅시다. 📌 Why Gradient? 손실 함수(loss function)을 아래처럼 MSE(mean squre error)라..
오늘은 부스팅 중에 Adaboost에 대해서 알아볼까 합나디. 📌 Adaboost 특징 각 단계에서 새로운 모델을 학습하여 이전 단계의 모델의 단점을 보완 학습 오차(Training error)가 큰 관측치의 선택 확률(Weight, 가중치)을 높이고, 학습오차가 작은 관측치의 선택 확률을 낮춤. 즉, 오분류한 관측치에 보다 집중 앞 단계에서 조정된 확률(Weight, 가중치)를 기반으로 다음 단계에서 사용될 학습 데이터(training dataset)를 구성 다시 첫 단계로 돌아감 최종 결과물은 각 모델의 성능지표를 가중치로하여 결합(ensemble) 💻 Algorithm 이번엔 Adaboost의 알고리즘을 알아봅시다. 1. set $W_i = \frac1n, i =1,2,..., n$ (impose ..
오늘은 파이썬의 리스트 타입에 대해서 알아보려 합니다. 별거없어요! 📌 List type 리스트 타입이 좋은게 어떤 타입이든 들어갈 수 있습니다. 선언해봅시다. 선언하는 법은 간단합니다. list name = [element1, element2, element3, ...] 이런식으로 괄호로 묶어 주면 됩니다. list1 = [1, 2.4, 'pizza', True] for i in list1: print(i) >> 1 >> 2.4 >> pizza >> True 위와 같이 정수, 실수, 글자, 참과 거짓 같이 어떤 타입이든 넣어줄 수 있습니다. ◾ 인덱싱과 수정 리스트 타입의 인덱싱입니다. 파이썬의 경우 시작이 1이 아니라 0입니다. 아래와 같이 첫 요소를 불러오기 위해서는 1이 아닌 0을 사용합니다. #..
Data_novice
'분류 전체보기' 카테고리의 글 목록 (8 Page)