📌 선형회귀에 대하여 우선 선형회귀의 경우 Supervised learning으로 지도 학습의 일종입니다. 먼저 가정을 해봅시다. $X$ : input으로 perdictors, covariates, independent variables, features 등으로 불리웁니다. 저같은 경우 feature라고 많이 부르는거 같아요 $Y$ : output으로 reponse variable, dependent variables 등으로 불립니다. 제 전공인 심리학에서는 보통 dependen variables라고 많이 불리우는데 저는 그냥 output으로 부르는게 편하더라구요 $n$ : observations으로 distinct data points의 개수 입니다. $p$ : variables의 수입니다. $n, p..
📊 Statistics for Basic/통계 학습(Statistical learning)
우리는 흔히 편향과 분산이 trade off 관계라고 알고있습니다. 알 사람은 다 알겠지만.. 한번 왜 그런지 확인해보는 시간을 가지려고 합니다 📌 MSE 우선 MSE에 대해서 봅시다. 우리가 MSE에 대해서 이렇게 표현합니다. $$ MSE = E(y-\hat{f}(\textbf{x}))^2 = Var(\hat{f}(\textbf{x}))+Bias(\hat{f}(\textbf{x}))^2 + Var(\epsilon) $$ MSE = (실제값과 예측값) 제곱의 기댓값 = 예측값의 분산 + 예측값 편향의 제곱 + 노이즈 이렇게 이루어져 있습니다. 이를 한번 유도해 봅시다. ◾ 에러 분산의 유도 $Var(\epsilon)$의 유도입니다. 여기서 필요한 개념은 $y = f(x) + \epsilon$ 이라는 것 ..
보통 우리가 알기론 train set, test set로 나누어 모델을 학습, 평가합니다. 그런데 이를 제외하고 validation set를 추가하는 경우가 있습니다. 왜 일까요? 📌 MSE 그리고 validation set 우선 우리가 모델 학습의 성능을 보기위해 보는 MSE(Mean square error)에 대해 봅시다. 식과 같은 경우 $$ MES(\hat{f}) = \frac1n\sum^n_{i=1}(y_i - \hat{f}(\textbf{x}_i))^2 $$ 이렇게 이루어 집니다. 즉, 예측을 잘 못할수록 값이 커지는 구조이죠. 자 여기서 우리가 training data와 이와 관련 없는 test data가 있다고 해봅시다. training data : ${(y_1,\textbf{x}_1),...
📌 로지스틱 회귀(Logistic Regression) 만약, 특정 사람이 외향적인지를 분류한다고 해봅시다.(외향 vs 내향이 아닙니다. 외향 Yes vs No 입니다) 반응 변수 명을 $x_1$라고 하면 두 개의 범주 Yes or No 가 있을 것입니다. 로지스틱 회귀는 반응 변수 Y를 직접 모델링하지 않고 Y가 특정 범주에 속하는 확률을 모델링 합니다. 추가적인 예로 일주일에 외출 횟수를 설명 변수로 사용하고, 변수 명을 out이라고 하였을 때, out에 대한 외향적일 확률을 다음과 같이 표시할 수 있습니다. Pr(Ex = Yes|out)이 값을 줄여서 p(out)라고 하고, 범위는 0~1입니다. 이를 이용해 임의의 주어진 out에 대해 Ex를 예측 할 수 있습니다. 예를 들어 p(out) > 0.5..
📌 선형모델의 확장 : 부분집합 선택법 우선 부분집합 선택법을 간단히 알아봅시다. 선형모델의 적합절차를 수행하기 위해 p개인 설명변수의 가능한 조합 각각에 대해서 최소제곱회귀를 적합합니다. 쉽게 설명한다면 단 하나의 설명변수를 포함하는 모델 p개 두 개의 설명변수를 포함하는 모델 p(p-1)/2 개 ... 이런 식으로 모든 모델들을 적합합니다. 그 다음 이 모델들중에 가장 좋은 모델을 찾아내는 것이죠. 예시로 설명해봅시다. 설면변수가 3개 있다면 이를 A, B, C로 놓아 봅시다. 이에 대해 가능한 모델 조합은 y = x y = Ax / y = Bx / y = Cx y = Ax_1 + Bx_2 / y = Ax_1 + Cx_2 / y = Bx_1 + Cx_2 y = Ax_1 + Bx_2 + Cx_3 이렇게..
오늘은 교차검증을 주재로 포스팅을 하려고 합니다. 흔히 기계 학습을 할 때 우리는 타당도를 위해 교차검증을 합니다. 교차검증을 이해하기 위해 먼저 training set : 훈련 세트와 test set : 시험 세트를 이야기 해봅시다. Train set, Test set 훈련 세트와 시험 세트 우리가 특정 변수를 분류하기 위한 모델을 개발했다고 합니다. 이 모델이 얼마나 일반적으로 작동하는지 성능을 평가해야 합니다. 즉, 우리가 모델을 만드는데 사용한 데이터 뿐 아닌 다른 새로운 데이터에 대해서도 잘 작동하고 잘 분류하는지 알아야 합니다. *이를 위해 우리는 데이터 세트를 훈련 세트와 시험 세트로 나눕니다. * 데이터 세트를 임의로 두개 세트로 즉, 훈련 세트와 시험 세트로 나누어 성능을 평가합니다. 훈..
앞서 단순 선형 포스팅을 확인해주세요. 단순 선형회귀 📌 단순 선형회귀 하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다. 이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다. 위 식을 x에 대한 Y의 회 datanovice.tistory.com 📌 다중 선형회귀 단순선형회귀는 단일 설명변수(x1)을 기반으로 반응변수를 예측하는 기법입니다. 하지만 실제로 하나의 변수만으로 예측이 가능할까요? 실제로는 하나보다 많은 설명변수가 필요합니다. 예를 들어, 내일 비올 확률을 계산해봅시다. 단순히 습도만 가지고 예측하기는 어렵죠. 습도, 바람, 고도 등 많은 설명변수가 필요합니다. 그렇다면 각각의 설명변수를 이용해 세 개의 단순선형회귀를 만들어서 사용하면 어떨까요? 비..
📌 단순 선형회귀 하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다. 이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다. 위 식을 x에 대한 Y의 회귀라고 합니다. 여기서 $beta_0$는 선형모델의 절편(intercept)를 말하고, $beta_1$은 기울기를 나타냅니다. 이를 모델 계수 혹은 parameter(파라미터)라고 합니다. 훈련 데이터(training data)를 이용하여 파라미터에 대한 추정치 을 구하면 예측식은 다음과 같아집니다. 여기서 $\hat{y}$는 X가 x일 때 Y의 예측값을 나타냅니다. ◼️ 계수 추정 하지만 실제로 $beta_0$과 $beta_1$은 알려져 있지 않습니다. 그러므로 우리는 전체 데이터를 이용하여 계수를 추정해야 합..