📌 GAM(Generalized additive Model) 통계 모델링에서 사용되는 강력한 방법 중 하나로 다양한 예측 변수들을 효과적으로 다루면서 비선형성과 상호 작용을 모형화(여기선 안다룸)할 수 있는 모델. 다변량 함수 형태로 각 변수의 영향을 표현하고, 이러한 함수들을 결합하여 종속 변수와의 관계를 모델링한다. 일반화 선형 모델(Generalized Linear Model, GLM)의 확장 모형으로, 여러 예측 변수들 간의 비선형 관계를 고려할 수 있다. 기존 선형 확장 모델에서 $\beta_0 + \Sigma_j \beta_j X_j$의 모델을 사용했다면 함수를 결합하기 때문에 아래와 같은 모델로 사용한다. $$ \beta_0 + \Sigma_j f_j (X_j) $$ 각각의 $f_j$(for..
🌞 Statistics for AI/Regression & Spline
📌 로컬 회귀(Local Regression) 로컬 회귀 자체는 스플라인과 유사하지만 영역(region)들이 서로 겹치도록 허용되며, 이들 영역은 부드럽게 연결됩니다. 비모수 회귀 방법 중 하나로, 특히 데이터의 지역적인 패턴을 보고자 할 때 유용합니다. 기본적으로 특정 관측치 주변에서 회귀 모델을 만들어 해당 지역의 패턴을 파악하고, 이를 다른 지역과 겹치게 함으로써 전체 데이터에 대한 부드러운 회귀 모델을 형성합니다. 당연히 데이터가 지역적 특징을 가질 때 유용하고, 스플라인과 같은 전역적인 회귀모델은 전체 데이터에 대한 단일한 함수를 가정하지만, 로컬 회귀는 데이터의 지역적 특성을 놓치지 않고 볼 수 있습니다. 즉! 데이터가 비선형성이 강하고 지역적인 특이성을 파악하고자 할 때 사용합니다. 어떠한 ..
📌 Smoothing spline smoothing spline(스무딩 스플라인)은 회귀 스플라인(링크 : 회귀 스플라인)과 유사하지만 약간 다른 상황에서 나탄나다. 이름에서 드러나는 것 처럼 잔차 제곱합 기준을 최소화 하면서 smoothness penalty(부드러움 패널티..?)를 고려하는 방식으로 생성된다. 이는 데이터에 부드러운 곡선을 적합시키는 통계적 방법 중 하나로, 데이터에 대한 복잡한 관계를 모델링하고자 할 때 사용된다. 잔차 최곱합을 최소화 하면서도? 부드러운 곡선을 유지하기 위해서 패널티 항을 추가한다는 얘기.. 자유도를 가진 함수를 사용하여 데이터를 설명하고, 이 함수의 곡률, 기울기에 제약을 두어 부드러운 형태를 유지하는 방식을 사용. 즉! 우리가 조정해줄 하이퍼 파라미터가 존재한다..
📌 회귀 스플라인(Regression Spline) polynomial(다항식) and step function(계단 함수) 보다 유연하고 실제로는 이 두 방식의 확장한 버전으로 볼 수 있습니다. $X$의 범위를 $K$개의 구간으로 나누고(계단 방식) 각 구간안에서 데이터에 대한 다항식 함수(다항 방식)를 적합시킵니다. 그러나 여기서 한 가지. 이런 다항식은 구간의 경계 또는 결속점이라 하는 knots에서 매끄럽게 연결되도록 제약이 가해집니다. 쉽게 말하면 구간의 경계의 끝은 서로 연결되어야 한다는 점입니다. ◾ 분할 다항식(Piecewise Polynomials), 결속점(knots) 분항 다항식과 결속점(knots)가 사용됩니다. 예를 들어 두개의 범위만 봅시다. 하나의 결속점인 $c$와 각각의 범위..
📌 Polynomial regression 선형 모델의 확장 중 하나인 다항 회귀입니다. 매우 쉽습니다! 그냥 원래의 예측 변수를 거듭제곱하여 얻은 예측 변수를 추가하는 것입니다. 예를 들어 그냥 $X$가 아닌 $X, X^2, X^3$와 같은 세 변수를 식에 추가하여 예측 변수로 사용하는 것과 같아요. 이 접근은 선형성 가정이 이루어지지 않았을 때(예측 변수 X와 응답 변수 Y간의 선형성) 데이터에 대한 비선형적인 적합을 제공하는 간단한 접근입니다. 아래와 같이 일반적인 선형 모델을 확장하는 것입니다. $$ \text{for a quantative response} : y_i = \beta_0 + \beta_1x_i +...+\beta_px_i^p + \epsilon_i \\ \text{for a bin..