🌞 Statistics for AI/Resampling

이미 통계 학습 카테고리에서 소개한 방법이지만 Resampling의 파트에서도 자세히 소개해보고자 합니다. - LOO and K-fold 아래에서 설명하는 내용은 모두 Train set를 이미 따로 둔 상태를 가정하고 설명하는 겁니다. 📌 Hold-out Hold-out방법의 경우 간단합니다. 보통 50:50을 사용하고 주어진 데이터를 랜덤하게 Train set, Validation set로 나눕니다. with R # Auto data의 mpg 사용. library(ISLR) set.seed(42) data = Auto$mpg dim(data.frame(data)) >> 392 1 # caret이용 library(caret) train = createDataPartition(data, p=0.5) dim..
📌 Bootstrap 부트스트랩? 최대우도? 부트스트랩 방법은 복잡한 데이터 세트의 추정치를 분석하고 이해하기 위해 널리 사용되는 강력한 재표본 추출 기술입니다. 이 접근법을 통해 연구자들은 원본 데이터 세트에서 복원 추출을 수행하여, 모집단의 실제 특성을 모르는 상황에서도 통계적 추정치의 신뢰성과 정확성을 높일 수 있습니다. 부트스트랩의 핵심은 간단합니다. 주어진 데이터 세트에서 무작위로 샘플을 복원 추출함으로써, 새로운 "부트스트랩 샘플"을 생성하고, 이를 통해 원본 데이터의 통계적 추정치를 다시 계산합니다. 이 과정을 여러 번 반복하면, 추정치의 분포를 얻을 수 있으며, 이를 통해 실제 모수에 대한 근사치를 더 정확하게 추정할 수 있습니다. 우리는 실제 모수에 대한 정보를 알 수 없습니다. 그래서 ..
📌 Jackknife Jackknife기법입니다. 우리에게는 leave-one-out과 비슷한 것으로 많이 알려져 있죠? 추정치의 편향을 감소시키기 위해 개발되었습니다. LOO처럼 데이터에서 한 번에 하나의 관측값을 제외하면서 통계량을 recompute하는 방법입니다. 이를 통해 우리는 통계량의 변동성(Variability)를 추정할 수 있습니다. Jackknife 방법론은 통계학에서 편향성 감소와 데이터의 변동성 추정을 위해 널리 활용되는 재표본추출 기법입니다. 이 방식은 전통적인 leave-one-out 교차 검증과 유사한 절차를 따르면서, 단일 데이터 세트로부터 다양한 통계적 추정치의 분포를 파악할 수 있는 효율적인 접근법을 제공합니다. 어떤식으로 jackknife가 진행되는지 아주 간단하게 본다면..
📌 순열 검정법(Permutation test) 비모수 통계 기법입니다. 정규성 가정을 충족하지 못하였을 경우 쓰이죠. 요즘은 실제 데이터가 정규성 가정을 충족한다고.. 보기 어려운 경우가 많기 때문에 이런 비모수 통계 기법을 많이 쓰는 거 같아요. 비모수 통계 중에서도 고전적인 순열 검정법에 대해 알아봅시다. 우리에게는 Wilcoxon으로 많이 알려져 있습니다. 한번 가정해봅시다. 우리가 X와 Y의 두 평균을 비교하고자 합니다. 이 때 X, Y의 분포는 알려지지 않은 공통 분포 $F$로 표현할 수 있다고 해봅시다. 이 때 각각의 분포를 아래와 같이 표현할 수 있습니다. $$ F_X(u) = F(u-\mu_X), F_Y(u) = F(u-\mu_X)$ $$ 여기서 만약에 $F$가 normal distrib..
Data_novice
'🌞 Statistics for AI/Resampling' 카테고리의 글 목록