전체 글

공부한 걸 정리하고 공유하며 틀린 부분을 함께 고쳐나가는 블로그입니다.
이항 분포 포스팅 : 이항분포. 이항 분포, 베르누이 분포(Binomial, Bernoulli distributuin) 이번엔 베르누이 분포와 이항 분포에 대해 알아볼까 합니다! 📌 이항 분포(binomial distribution) 위키백과에 따르면 이항 분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 datanovice.tistory.com 📌 이항 분포 평균 ($E(X) = np$) $$ \mu = E(X) = np $$ ◾ 증명 우선 이항 분포는 이산확률분포이고, 이산확률분포의 평균은 아래와 같다. $$ \sum_{x=1}^n x P(X=x) $$ 이항 분포에서 확률 질량 함수(pmf)는 $P(X=x)$는 $\dfrac{n!}{x!(n-x)!}p^x (1-p)^{n-x}..
이번엔 베르누이 분포와 이항 분포에 대해 알아볼까 합니다! 📌 이항 분포(binomial distribution) 위키백과에 따르면 이항 분포는 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 라고 합니다. 주사위 던지기로 예를 들어봅시다. 우리가 주사위를 10번 던져서 6이 나오는 횟수를 구한다고 할때, n은 10이 될겁니다(n=10). 10번의 독립적 시행이니까요! 그런다음 확률 P는 1/6이 되겠네요.($p=\frac16$) 주사위의 6면중에서 6이 나올확률이니까요! ➕ 이항 분포의 확률 질량 함수 이항 분포의 확률 질량 함수는 $$ Pr(X=x) = f(x;n,p) = {n \choose x}p^x(1-p)^{n-x} \\ X \sim B(n,p) $$ $$ {..
아무래도 통계 관련 공부를 하고 있으니 포스팅이든 발제든 LaTex 문법을 많이 쓰게됩니다. 제가 즐겨찾기 해놓고 보는 페이지가 있긴한데 매일 필요한걸 찾아서 보려니까 힘들더라구요 ㅜㅜ 그래서 포스팅 해놓고 제껄로 알아서 찾아보려고 합니다 핫 그리스 문자($\alpha, \beta$ 등등) input output input output \alpha $\alpha$ \eta $\eta$ \beta $\beta$ \lambda $\lambda$ \gamma $\gamma$ \pi $\pi$ \epsilon $\epsilon$ \rho $\rho$ \theta $\theta$ \sigma $\sigma$ \sum $\sum$ \phi $\phi$ \sum_{i=1}^{n} $\sum_{i=1}^n$ \Phi ..
오늘은 확률 변수와 확률 분포에 대해 알아보려고 합니다. 통계에 있어 기본 중에 기본이라고 할 수 있지만, 기본을 탄탄히 해야 후에 어렵지 않은 법..! 대충 알고있는 것 보단 확실하게 아는게 좋겠죠? 확률 변수 📌 의미 확률 변수란 값이 변하는 변수를 말합니다. 그런데 어떻게 변하냐? 바로 확률을 가진 시행결과에 따라 값이 변하는 변수 입니다. 실제로 나타나지 않은 일이지만? 나타날 가능성이 있는 모든 경우의 수에 포함된 값을 지니는 변수입니다. 예를 들어보면 자루에 빨간 공, 파란 공이 하나 씩 들어있다고 할 때, 자루안에서 공을 뽑는 행위는 확률에 기인한 일입니다. 어떤 색 공이 나올지는 확률에 따라 이루어지니까요. 여기서 빨간 공을 꺼내는 것을 X1, 파란 공을 꺼내는 것을 X2라고 할 때 각각 ..
오늘은 좀 근본적인 이야기를 해볼까 합니다. 우리가 흔히 아는 선형회귀(단순, 다중) 모델들은 Y가 양적 변수인 것을 가정하죠. 하지만 실제로 질적 변수가 필요한 경우가 많습니다. 코로나에 감염이 되었는지(Yes), 되지 않았는지(No) / 범죄자가 유죄인지(guilty), 무죄인지(innocent) 등과 같이 말이죠. 이때 이러한 질적 변수 Y를 예측하는 것을 분류한다고 합니다. 이 Y를 특정 범주 혹은 class로 할당하는 것이기 때문이죠. 그런데 보통 분류를 위해 회귀를 사용하지는 않습니다. 질적 변수를 1, 0 등으로 두어 1과 가깝다면 A, 0과 가깝다면 B로 분류할 수도 있지 않을까요? 왜? 선형회귀를 사용하지 않을까요? 예를 들어봅시다. 우리가 코로나에 영성인지 음성인지 본다면 Y를 이렇게 ..
R로 XGboost를 구현합니다. XGboost에 대한 이론적인 내용은 아래를 참고해주세요. 3. Boosting : XGBoost 쉽게 이해해보자.(간단 ver.) 전 글들이 좀 읽기 어려운 것 같아 쉽게 써보려고 합니다. 전 글들 : XGBoost에 대해(원리와 공식) 저번 포스팅에 이어서 XGBoost의 원리와 왜 확장성이 높은 알고리즘인가에 대해서 포스팅 하려고 합 datanovice.tistory.com 특별한건 아니고 대략적인 이런식으로 코드를 구현하는거구나~ 정도로 할겁니다! XGB with R - 라이브러리, 데이터 불러오기, 7:3으로 train, test set # 라이브러리 불러오기 # 데이터 : iris data library(MASS) library(xgboost) set.seed..
전 글들이 좀 읽기 어려운 것 같아 쉽게 써보려고 합니다. 전 글들 : XGBoost에 대해(원리와 공식) 저번 포스팅에 이어서 XGBoost의 원리와 왜 확장성이 높은 알고리즘인가에 대해서 포스팅 하려고 합니다! 공식의 유도와 원리에 대한 이야기이기 때문에 전 포스팅을 보고 와주세요. XGBoost: A Scalab datanovice.tistory.com XGBoost: A Scalable Tree Boosting System(Carlos & Tianqi. 2016) 리뷰 이번엔 XGBoost를 다루려고 합니다. 해당 논문을 읽고 정리한 내용이니 좀더 자세하고 이해하기 쉬운 설명은 다음 포스팅을 참고해주세요! 1️⃣ 서론 기계 학습과 데이터 기반 접근법이 많은 분 datanovice.tistory.c..
저번 포스팅에 이어서 XGBoost의 원리와 왜 확장성이 높은 알고리즘인가에 대해서 포스팅 하려고 합니다! 공식의 유도와 원리에 대한 이야기이기 때문에 전 포스팅을 보고 와주세요. XGBoost: A Scalable Tree Boosting System(Carlos & Tianqi. 2016) 리뷰 이번엔 XGBoost를 다루려고 합니다. 해당 논문을 읽고 정리한 내용이니 좀더 자세하고 이해하기 쉬운 설명은 다음 포스팅을 참고해주세요! 1️⃣ 서론 기계 학습과 데이터 기반 접근법이 많은 분 datanovice.tistory.com 📌 XGBoost 우선 XGBoost란 부스팅의 한 종류로 gradient boosting의 upgrade 버전으로 보시면 되겠습니다. Gradient Boosting과 같이 ..
이번엔 XGBoost를 다루려고 합니다. 해당 논문을 읽고 정리한 내용이니 좀더 자세하고 이해하기 쉬운 설명은 다음 포스팅을 참고해주세요! 1️⃣ 서론 기계 학습과 데이터 기반 접근법이 많은 분야에서 중요해지고 있다.(스팸 분류, 적절한 광고 노출, 사기 감지 등등) 이러한 성공적인 응용 프로그램을 이끄는 두가지 요소는 복잡한 데이터 종속성(상관)을 포착하는 효과적인 모델의 사용 대규모 데이터셋으로부터 관심있는 모델을 학습하는 확장가능한 학습 시스템 2015년 Kaglle의 29개 과제중 17개의 우승 솔루션이 XGBoost일 정도로 ML 및 데이터 마이닝 경쟁에서 큰 영향력을 발휘. 무엇보다도 오픈소스! XGBoost의 성공의 가장 중요한 요인은 모든 시나리오에서의 확장성(scalability)라고 하..
📌 Gradient Boosting Gradient Boosting은 Gradient descent와 boosting을 합친 것으로, 경사하강법과 부스팅 기법을 사용합니다. 경사하강법에서 loss인 $L(\theta)$를 최소화하기 위해 아래와 같은 방법으로 $\theta$를 업데이트 합니다. $$ \theta^{s+1} = \theta^s - \rho \dfrac{\partial}{\partial \theta} L(\theta) \big\lvert_{\theta^s} $$ 이 업데이트는 gradient인 $\nabla L(\theta^{s})$에 기반을 둡니다. 직관적이고 쉽게 봅시다. 📌 Why Gradient? 손실 함수(loss function)을 아래처럼 MSE(mean squre error)라..
Data_novice
데이터 노트 📝