🌞 Statistics for AI

📌 NN(Neural network) 뉴럴 네트워크는 통계적인 모델링이나 패턴 인식에 적용되는 기계 학습(Machine learning)중 하나입니다. 기본 원리는 우리의 뉴런과 같습니다. 뉴런의 작동방식에 영감을 받아 만들어진 모델로, 여러 계층의 뉴런들이 서로 연결되어 입력(input)에서 출력(output)으로의 복잡한 mapping을 학습합니다. 각 뉴런은 입력을 받아 가중치를 적용하고 활성화 함수를 통과하여 이의 결과를 다음 뉴런으로 전달합니다. 신경망 구조로서 뉴럴 네트워크를 입력 계층, 은닉 계층, 출력 계층으로 구성됩니다. 각 계층은 여러 뉴런으로 이루어져 있고, 이 신경망의 깊이(은닉 층의 개수), 그리고 너비(뉴런의 개수)를 결정하는 것이 point라고 할 수 있습니다. ◾ Feed F..
📌 GAM(Generalized additive Model) 통계 모델링에서 사용되는 강력한 방법 중 하나로 다양한 예측 변수들을 효과적으로 다루면서 비선형성과 상호 작용을 모형화(여기선 안다룸)할 수 있는 모델. 다변량 함수 형태로 각 변수의 영향을 표현하고, 이러한 함수들을 결합하여 종속 변수와의 관계를 모델링한다. 일반화 선형 모델(Generalized Linear Model, GLM)의 확장 모형으로, 여러 예측 변수들 간의 비선형 관계를 고려할 수 있다. 기존 선형 확장 모델에서 $\beta_0 + \Sigma_j \beta_j X_j$의 모델을 사용했다면 함수를 결합하기 때문에 아래와 같은 모델로 사용한다. $$ \beta_0 + \Sigma_j f_j (X_j) $$ 각각의 $f_j$(for..
📌 로컬 회귀(Local Regression) 로컬 회귀 자체는 스플라인과 유사하지만 영역(region)들이 서로 겹치도록 허용되며, 이들 영역은 부드럽게 연결됩니다. 비모수 회귀 방법 중 하나로, 특히 데이터의 지역적인 패턴을 보고자 할 때 유용합니다. 기본적으로 특정 관측치 주변에서 회귀 모델을 만들어 해당 지역의 패턴을 파악하고, 이를 다른 지역과 겹치게 함으로써 전체 데이터에 대한 부드러운 회귀 모델을 형성합니다. 당연히 데이터가 지역적 특징을 가질 때 유용하고, 스플라인과 같은 전역적인 회귀모델은 전체 데이터에 대한 단일한 함수를 가정하지만, 로컬 회귀는 데이터의 지역적 특성을 놓치지 않고 볼 수 있습니다. 즉! 데이터가 비선형성이 강하고 지역적인 특이성을 파악하고자 할 때 사용합니다. 어떠한 ..
📌 Smoothing spline smoothing spline(스무딩 스플라인)은 회귀 스플라인(링크 : 회귀 스플라인)과 유사하지만 약간 다른 상황에서 나탄나다. 이름에서 드러나는 것 처럼 잔차 제곱합 기준을 최소화 하면서 smoothness penalty(부드러움 패널티..?)를 고려하는 방식으로 생성된다. 이는 데이터에 부드러운 곡선을 적합시키는 통계적 방법 중 하나로, 데이터에 대한 복잡한 관계를 모델링하고자 할 때 사용된다. 잔차 최곱합을 최소화 하면서도? 부드러운 곡선을 유지하기 위해서 패널티 항을 추가한다는 얘기.. 자유도를 가진 함수를 사용하여 데이터를 설명하고, 이 함수의 곡률, 기울기에 제약을 두어 부드러운 형태를 유지하는 방식을 사용. 즉! 우리가 조정해줄 하이퍼 파라미터가 존재한다..
📌 회귀 스플라인(Regression Spline) polynomial(다항식) and step function(계단 함수) 보다 유연하고 실제로는 이 두 방식의 확장한 버전으로 볼 수 있습니다. $X$의 범위를 $K$개의 구간으로 나누고(계단 방식) 각 구간안에서 데이터에 대한 다항식 함수(다항 방식)를 적합시킵니다. 그러나 여기서 한 가지. 이런 다항식은 구간의 경계 또는 결속점이라 하는 knots에서 매끄럽게 연결되도록 제약이 가해집니다. 쉽게 말하면 구간의 경계의 끝은 서로 연결되어야 한다는 점입니다. ◾ 분할 다항식(Piecewise Polynomials), 결속점(knots) 분항 다항식과 결속점(knots)가 사용됩니다. 예를 들어 두개의 범위만 봅시다. 하나의 결속점인 $c$와 각각의 범위..
📌 Polynomial regression 선형 모델의 확장 중 하나인 다항 회귀입니다. 매우 쉽습니다! 그냥 원래의 예측 변수를 거듭제곱하여 얻은 예측 변수를 추가하는 것입니다. 예를 들어 그냥 $X$가 아닌 $X, X^2, X^3$와 같은 세 변수를 식에 추가하여 예측 변수로 사용하는 것과 같아요. 이 접근은 선형성 가정이 이루어지지 않았을 때(예측 변수 X와 응답 변수 Y간의 선형성) 데이터에 대한 비선형적인 적합을 제공하는 간단한 접근입니다. 아래와 같이 일반적인 선형 모델을 확장하는 것입니다. $$ \text{for a quantative response} : y_i = \beta_0 + \beta_1x_i +...+\beta_px_i^p + \epsilon_i \\ \text{for a bin..
📌 Stacking 앙상블 모델 중 하나인 stacking 입니다. stacking이 재밌는 점은 여러 모델들을 학습하고 이를 또다시 새로운 모델로 학습한다는 점입니다. 기본 모델들이 각자의 예측을 수행 한뒤, 그 예측값들을 이용해 새로운 모델을 학습합니다. 이를 통해 기본 모델이 갖는 각자의 강점을 살려 높은 성능을 보일 수 있습니다. 스태킹에서는 크게 세 가지 구성 요소가 있는데 1️⃣ 기본 모델 기본적인 모델로 서로 다른 알고리즘을 사용하거나, 다양한 하이퍼 파라미터로 설정된 모델들(로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트 등등) 2️⃣ First Level 예측 각 기본 모델이 주어진 데이터에 대해 각자 예측을 수행합니다. 이 예측한 값들이 First Level에서 쌓(stack!)입니다..
📌 Ensemble : Voting model 오늘은 앙상블 모델 중 voting model에 대해 알아볼까 합니다. 전에 포스팅했던 Bagging의 경우도 투표를 하지만, Voting model의 경우 여러 모델을 학습하여 각 모델의 결과를 이용하여 투표하는 것이고, Bagging의 경우 하나의 모델에서 여러 데이터셋의 split을 이용한 방법입니다. ◼️ 분류에서(Hard Voting, Soft Voting) 우선 $m$개의 분류모델 $\hat{f}_1, ..., \hat{f}_m$이 있을 때 예측값을 $\hat{Y}_j(\textbf{x}) = \hat{f}_j$라고 합시다. 투표 방법에는 Hard Voting, Soft Voting이 있습니다. 1️⃣ Hard Voting Hard Voting에서..
📌 ROC(Receiver Operating Characteristic) curve analysis ROC는 우리가 이진 분류 모델의 성능을 파악할 때 사용합니다. 모델의 성능을 시각적으로 확인할 수 있는 통계적 그래픽 요소입니다. 보통 우리가 분류를 할 때 사용하는 결정 임계값은 0.5입니다. 이는 모델이 예측한 확률로 특정 데이터 포인트의 클래스를 결정하는 기준 값입니다. ROC는 0.5뿐 아닌 다양한 결정 임계값에서 어떻게 작동하는지 성능을 나타냅니다. ROC 곡선은 다음 두 가지의 주요 지표를 그림으로 나타냅니다. $$ \text{Sensitivity} = \dfrac{TP}{TP+FN} \\ \text{1-Specificity} = \dfrac{FP}{FP+TN} $$ 구조를 보시면 아시겠지만 ..
📌 Cohen's kappa k Cohen's kappa (κ)는 머신러닝 및 통계에서 사용되는 통계적 측정 지표 중 하나로, 두 명 이상의 평가자 간의 일치도(범주형 자료에서)를 측정하는 데 사용되는 통계량 입니다. 특히, 이 지표는 분류 작업에서 모델의 성능을 측정하는 데 적용되며, 평가자 간의 일치 정도를 고려하여 모델의 성능을 조정합니다. Cohen's kappa는 혼란 행렬(Confusion Matrix)에 기반하며, 주로 이진 또는 다중 클래스 분류 문제에서 사용됩니다. 혼란 행렬은 아실거라 생각하고 혹시 모르신다면 혼동행렬 설명 링크를 확인해주세요. Cohen's kappa는 다음과 같은 공식으로 정의됩니다: $$ \kappa = \dfrac{P_O-P_E}{1-P_E} $$ 여기서 $P_O..
Data_novice
'🌞 Statistics for AI' 카테고리의 글 목록 (3 Page)