수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 단순 선형회귀
하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다.
이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다.
위 식을 x에 대한 Y의 회귀라고 합니다. 여기서 $beta_0$는 선형모델의 절편(intercept)를 말하고, $beta_1$은 기울기를 나타냅니다. 이를 모델 계수 혹은 parameter(파라미터)라고 합니다.
훈련 데이터(training data)를 이용하여 파라미터에 대한 추정치
을 구하면 예측식은 다음과 같아집니다.
여기서 $\hat{y}$는 X가 x일 때 Y의 예측값을 나타냅니다.
◼️ 계수 추정
하지만 실제로 $beta_0$과 $beta_1$은 알려져 있지 않습니다. 그러므로 우리는 전체 데이터를 이용하여 계수를 추정해야 합니다.
만약 우리가 X와 Y를 측정하여 얻은 n개의 값 쌍들이 있다면 [(x1,y1), (x2,y2), ... , (xn,yn)]
여기서 우리는 i = 1, ... , n에 대해
이 되도록 하는 파라미터들을 얻는 것입니다.
쉽게 말하면 우리가 가진 n개의 $(x_i,y_i)$에 대하여 n개의 좌표가 가능한 직선과 가깝게 되도록 하는 절편과 기울기 파라미터를 찾고자 하는 겁니다. 그럼 어떻게 구하느냐? 우선 이번 포스팅에서는 최소제곱에 대해 설명할 것입니다.
위 식을 보았을 때, i번째 잔차(residual)은
입니다.
이 뜻은 i번째 직접 얻은 반응변수 값(y)과 선형모델에 의해 예측된 i번째 반응변수값(&\hat{y}& 값)의 차이를 말합니다.
◼️ 잔차제곱합(RSS)
잔차제곱합인 RSS(residual sum of squares)는 다음과 같습니다.
위의 잔차에 대한 식을 아래 RSS식에 대입하면 아래 식이 됩니다.
이 때, 최소제곱법은 RSS를 최소화 하는 파라미터를 선택합니다.
식을 정리하여 $\hat{\beta_0}, \hat{\beta_1}$을 정의하면
입니다.
위의 파라미터들이 단순선형회귀에 대한 최소제곱계수 추정치를 정의합니다.
실제 상관관계를 표현한다면, X와 Y를 제외한 error항이 존재 합니다.
함수 f에 대해 $Y = f(x) + e$의 형태를 가지는데, 여기서 $e$는 평균이 0인 랜덤오차항입니다.
f가 선형함수로 근사되면 다음 식으로 표현할 수 있습니다.
여기서 오차항은 단순히 모델로 나타낼 때 일어나는 한계에 대한 것입니다.
'📊 Statistics for Basic > 통계 학습(Statistical learning)' 카테고리의 다른 글
Validation set와 MSE : Validation set를 사용하는 이유 (0) | 2023.10.12 |
---|---|
로지스틱 회귀(Logistic Regression) (0) | 2023.10.12 |
전진 단계적 선택(Forward stepwise), 후진 단계적 선택(Backward stepwise) (0) | 2023.10.12 |
Leave-one-out 교차 검증과 K-fold 교차 검증 (0) | 2023.10.12 |
다중 선형회귀 (0) | 2023.10.12 |