Loading [MathJax]/jax/output/CommonHTML/jax.js

🌞 Statistics for AI

이미 통계 학습 카테고리에서 소개한 방법이지만 Resampling의 파트에서도 자세히 소개해보고자 합니다. - LOO and K-fold 아래에서 설명하는 내용은 모두 Train set를 이미 따로 둔 상태를 가정하고 설명하는 겁니다. 📌 Hold-out Hold-out방법의 경우 간단합니다. 보통 50:50을 사용하고 주어진 데이터를 랜덤하게 Train set, Validation set로 나눕니다. with R # Auto data의 mpg 사용. library(ISLR) set.seed(42) data = Auto$mpg dim(data.frame(data)) >> 392 1 # caret이용 library(caret) train = createDataPartition(data, p=0.5) dim..
📌 Bootstrap 부트스트랩? 최대우도? 부트스트랩 방법은 복잡한 데이터 세트의 추정치를 분석하고 이해하기 위해 널리 사용되는 강력한 재표본 추출 기술입니다. 이 접근법을 통해 연구자들은 원본 데이터 세트에서 복원 추출을 수행하여, 모집단의 실제 특성을 모르는 상황에서도 통계적 추정치의 신뢰성과 정확성을 높일 수 있습니다. 부트스트랩의 핵심은 간단합니다. 주어진 데이터 세트에서 무작위로 샘플을 복원 추출함으로써, 새로운 "부트스트랩 샘플"을 생성하고, 이를 통해 원본 데이터의 통계적 추정치를 다시 계산합니다. 이 과정을 여러 번 반복하면, 추정치의 분포를 얻을 수 있으며, 이를 통해 실제 모수에 대한 근사치를 더 정확하게 추정할 수 있습니다. 우리는 실제 모수에 대한 정보를 알 수 없습니다. 그래서 ..
📌 Jackknife Jackknife기법입니다. 우리에게는 leave-one-out과 비슷한 것으로 많이 알려져 있죠? 추정치의 편향을 감소시키기 위해 개발되었습니다. LOO처럼 데이터에서 한 번에 하나의 관측값을 제외하면서 통계량을 recompute하는 방법입니다. 이를 통해 우리는 통계량의 변동성(Variability)를 추정할 수 있습니다. Jackknife 방법론은 통계학에서 편향성 감소와 데이터의 변동성 추정을 위해 널리 활용되는 재표본추출 기법입니다. 이 방식은 전통적인 leave-one-out 교차 검증과 유사한 절차를 따르면서, 단일 데이터 세트로부터 다양한 통계적 추정치의 분포를 파악할 수 있는 효율적인 접근법을 제공합니다. 어떤식으로 jackknife가 진행되는지 아주 간단하게 본다면..
📌 순열 검정법(Permutation test) 비모수 통계 기법입니다. 정규성 가정을 충족하지 못하였을 경우 쓰이죠. 요즘은 실제 데이터가 정규성 가정을 충족한다고.. 보기 어려운 경우가 많기 때문에 이런 비모수 통계 기법을 많이 쓰는 거 같아요. 비모수 통계 중에서도 고전적인 순열 검정법에 대해 알아봅시다. 우리에게는 Wilcoxon으로 많이 알려져 있습니다. 한번 가정해봅시다. 우리가 X와 Y의 두 평균을 비교하고자 합니다. 이 때 X, Y의 분포는 알려지지 않은 공통 분포 F로 표현할 수 있다고 해봅시다. 이 때 각각의 분포를 아래와 같이 표현할 수 있습니다. FX(u)=F(uμX),FY(u)=F(uμX)$ 여기서 만약에 F가 normal distrib..
📌 Elastic Nets(엘라스틱 넷) 먼저 엘라스틱 넷에 대해 이해하기 위해 아래 내용을 참조해주시길 바랍니다. 이어지는 내용입니다. 정규화 방법 : 라쏘와 릿지 엘라스틱 넷은 Ridge regression(릿지 회귀, L2)와 LASSO(라쏘 회귀, L1)을 cobination 한 것입니다. ◼️ Elastic nets 접근 엘라스틱넷의 solution은 아래와 같습니다. 12ni=1n(yiβ0pj=1βjxij)2+λ((1α)12pj=1β2j+αpj=1|βj|) 릿지의 제곱항과 라쏘의 절댓값항 모두를 ..
📌 정규화 방법? 우리는 일반적으로 최소자승법을 이용한 회귀를 사용합니다. 하지만 최근 표본의 크기가 커지고, 많은 수의 feature들을 이용하는 빅데이터 시대에서는 한계점이 두드러진 방법입니다. 정규화는 회귀 계수에 제약을 가함으로써 과적합을 방지하고 일반화 성능을 높이는 기법입니다. 깊이 들어가면 편향을 조금 허용하는 대신, 분산을 줄이는 것이라고 볼 수 있습니다. 그렇다면 회귀 계수에 제약을 가한다는 것은 무엇인가? 바로 변수 선택을 통해 오차는 낮추고 차원 축소를 하는 것입니다. 이를 어떻게 진행하는지 알아보려고 합니다. 📌 Ridge regression(릿지 회귀) 릿지는 하나의 정규화 방법으로 변수들 사이의 공변량을 조정해줍니다. 한번 아래의 설명과 함께 봅시다. 아래와 같은 linear r..
📌 GAM(Generalized additive Model) 통계 모델링에서 사용되는 강력한 방법 중 하나로 다양한 예측 변수들을 효과적으로 다루면서 비선형성과 상호 작용을 모형화(여기선 안다룸)할 수 있는 모델. 다변량 함수 형태로 각 변수의 영향을 표현하고, 이러한 함수들을 결합하여 종속 변수와의 관계를 모델링한다. 일반화 선형 모델(Generalized Linear Model, GLM)의 확장 모형으로, 여러 예측 변수들 간의 비선형 관계를 고려할 수 있다. 기존 선형 확장 모델에서 β0+ΣjβjXj의 모델을 사용했다면 함수를 결합하기 때문에 아래와 같은 모델로 사용한다. β0+Σjfj(Xj) 각각의 fj(for..
📌 로컬 회귀(Local Regression) 로컬 회귀 자체는 스플라인과 유사하지만 영역(region)들이 서로 겹치도록 허용되며, 이들 영역은 부드럽게 연결됩니다. 비모수 회귀 방법 중 하나로, 특히 데이터의 지역적인 패턴을 보고자 할 때 유용합니다. 기본적으로 특정 관측치 주변에서 회귀 모델을 만들어 해당 지역의 패턴을 파악하고, 이를 다른 지역과 겹치게 함으로써 전체 데이터에 대한 부드러운 회귀 모델을 형성합니다. 당연히 데이터가 지역적 특징을 가질 때 유용하고, 스플라인과 같은 전역적인 회귀모델은 전체 데이터에 대한 단일한 함수를 가정하지만, 로컬 회귀는 데이터의 지역적 특성을 놓치지 않고 볼 수 있습니다. 즉! 데이터가 비선형성이 강하고 지역적인 특이성을 파악하고자 할 때 사용합니다. 어떠한 ..
📌 Smoothing spline smoothing spline(스무딩 스플라인)은 회귀 스플라인(링크 : 회귀 스플라인)과 유사하지만 약간 다른 상황에서 나탄나다. 이름에서 드러나는 것 처럼 잔차 제곱합 기준을 최소화 하면서 smoothness penalty(부드러움 패널티..?)를 고려하는 방식으로 생성된다. 이는 데이터에 부드러운 곡선을 적합시키는 통계적 방법 중 하나로, 데이터에 대한 복잡한 관계를 모델링하고자 할 때 사용된다. 잔차 최곱합을 최소화 하면서도? 부드러운 곡선을 유지하기 위해서 패널티 항을 추가한다는 얘기.. 자유도를 가진 함수를 사용하여 데이터를 설명하고, 이 함수의 곡률, 기울기에 제약을 두어 부드러운 형태를 유지하는 방식을 사용. 즉! 우리가 조정해줄 하이퍼 파라미터가 존재한다..
📌 회귀 스플라인(Regression Spline) polynomial(다항식) and step function(계단 함수) 보다 유연하고 실제로는 이 두 방식의 확장한 버전으로 볼 수 있습니다. X의 범위를 K개의 구간으로 나누고(계단 방식) 각 구간안에서 데이터에 대한 다항식 함수(다항 방식)를 적합시킵니다. 그러나 여기서 한 가지. 이런 다항식은 구간의 경계 또는 결속점이라 하는 knots에서 매끄럽게 연결되도록 제약이 가해집니다. 쉽게 말하면 구간의 경계의 끝은 서로 연결되어야 한다는 점입니다. ◾ 분할 다항식(Piecewise Polynomials), 결속점(knots) 분항 다항식과 결속점(knots)가 사용됩니다. 예를 들어 두개의 범위만 봅시다. 하나의 결속점인 c와 각각의 범위..