수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 Jackknife
Jackknife
기법입니다. 우리에게는 leave-one-out과 비슷한 것으로 많이 알려져 있죠?
추정치의 편향을 감소시키기 위해 개발되었습니다. LOO처럼 데이터에서 한 번에 하나의 관측값을 제외하면서 통계량을 recompute하는 방법입니다. 이를 통해 우리는 통계량의 변동성(Variability)를 추정할 수 있습니다.
Jackknife 방법론은 통계학에서 편향성 감소와 데이터의 변동성 추정을 위해 널리 활용되는 재표본추출 기법입니다. 이 방식은 전통적인 leave-one-out 교차 검증과 유사한 절차를 따르면서, 단일 데이터 세트로부터 다양한 통계적 추정치의 분포를 파악할 수 있는 효율적인 접근법을 제공합니다.
어떤식으로 jackknife가 진행되는지 아주 간단하게 본다면.
- 전체 데이터에 대해 원하는 통계량을 구합니다.
- 전체 데이터 $n$에서 하나의 샘플을 뺀 $n-1$ 데이터의 통계량을 구합니다.
- 이를 전체 샘플에서 반복하여 진행합니다. 그렇다면 n개의 통계량이 나올 것이고 이를 통해 distribution을 만들고 확인할 수 있죠!
이를 통해 resampling하는 것인데요. 1번에서 구한 전체 데이터의 통계량과 3을 통해 얻은 결과의 평균이 동일합니다.
이 방법은 특히 통계량의 편향성을 정량화하고, 수정된 추정량을 제공하는 데 유용합니다. 편향의 추정 과정은 아래와 같이 서술됩니다
편향을 추정하는 과정
1. 주어진 모델 파라미터 $\theta$에 대한 추정치 $f_n$의 편향을 정의합니다.
- $f_n = f_n(X_1,...,X_n)$ : 우리가 모르는 모수 $\theta$의 추정값인 추정량
이때, $f_n$의 편향의 경우 아래와 같습니다.
$$
Bias(f_n) = E_\theta(f_n)-\theta
$$
실제 모수와 추정값 평균의 차이입니다.
2. $X_i$를 제외한 $n-1$개의 샘플에서 기반한 추정량의 평균을 계산합니다.
- $f_{n-1,i} = f_{n-1}(X1,...,X_{i-1},X_{i+1},...X_n)$ : $X_i$ 관측값을 제외한 n-1개의 다른 관측값을 기반으로한 추정량(estimator)라고 합시다.
이 때, $f_{n-1,i}$의 평균은 아래와 같습니다.
$$
\bar{f}_n = \frac1n \sum^n_{k=1}f_{n-1,k}
$$
중요!
3. 추정치의 편향을 근사화
만약 편향인 $bias(f_n) = \frac{a}{n} + e$ 라면($a$는 어떠한 상수입니다. 아래 처럼 편향식을 근사할 수 있습니다.
$$
\begin{align}
&E(f_n)-\theta \approx \dfrac{a}{n}
\\ &E(\bar{f}_n) - \theta \approx \dfrac{a}{n-1}
\\ &E(\bar{f}_n - f_n) \approx \dfrac{a}{n(n-1)}
\end{align}
$$
여기서 jackkinfe 편향 추정은 아래와 같습니다. 이 식으로 jackknife 방법에서 편향을 추정하는데 사용합니다.
$$
jack = (n-1)(\bar{f}_n-f_n)
$$
자 여기서, 편향을 구했으니 이 값을 제거한 추정량을 얻어야 하죠. 이 값을 아래와 같습니다.
$$
f_{jack} =f_n-jack = nf_n-(n-1)\bar{f}_n
$$
추가적으로, Jackknife 방법을 통해 추정량의 분산을 계산할 수 있으며, 이는 데이터 내의 변동성과 불확실성을 정량화하는 데 중요한 도구입니다.
분산을 구하는 식을 도출하기 위해서 Tukey가 말했던 psedo-value까지 알아야하는데, 너무 길어것 같아서 식만 첨부하겠습니다.
$$
v_{jack} = \dfrac{n-1}{n} \sum^n_{i=1}(f_{n-1,i}-\frac1n \sum^n_{j=1}f_{n-1,j})^2
$$
정리
Jackknife 기법의 적용은 통계적 모델링과 데이터 분석의 정확성을 향상시키는 데 기여합니다. 이 방법은 단순하면서도 강력한 재표본추출 절차를 제공하며, 편향성과 변동성을 효과적으로 평가할 수 있도록 합니다.
참조 : Jackknife resampling - Wikipedia, (데이터과학 인터뷰 질문) (3) 샘플링과 리샘플링, 2편 : 잭나이핑과 부트스트래핑
'🌞 Statistics for AI > Resampling' 카테고리의 다른 글
교차 검증(Cross validation) (0) | 2024.02.16 |
---|---|
부트스트랩(Bootstrap) 리샘플링(resampling) (0) | 2024.02.16 |
순열 검정 : Wilcoxon, Mann-Whitney (0) | 2024.02.16 |