수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 Out of Bag(OOB) error estimation
앞서 배깅 1편을 보고와주세요.
1편에 이어서 설명하겠습니다.
Bagging을 할 때, 부트스트랩으로 원 데이터 안에서 여러 하위 데이터들을 뽑아 낸다고 했습니다. 평균적으로, 각 부트스트랩 트리는 복원 추출이기 때문에 원 데이터의 2/3 정도를 사용합니다. 복원 추출에서 뽑히지 않은 나머지 1/3을 Out-of-Bag(OOB) 관측치라고 합니다.
이렇게 원 데이터의 2/3으로 만든 트리의 성능을 1/3의 뽑히지 않은 데이터로 확인하는 것 입니다.
부트스트랩 resampling 에서 feature가 선택되지 않을 확률은 아래와 같습니다.
$$
P = \dfrac{(n-1)^n}{n^n} = (n-\frac1n)^n
$$
자 여기서 $n \rightarrow \infty$ 라면, 위의 식은 아래와 같이 자연상수의 식으로 나타낼 수 있습니다.
$$
P = (n-\frac1n)^n \rightarrow \frac1e
$$
이렇게 나온 성능을 회귀의 경우 평균을 내거나 분류의 경우 과반수 투표를 이용하여 예측값을 얻을 수 있습니다.
'🌞 Statistics for AI > Machine learning' 카테고리의 다른 글
변수 중요도 : Mean Decrease Impurity, Mean Decrease Accuracy (1) | 2023.10.13 |
---|---|
3. Bagging(배깅) : Random Forest은 뭐가 다를까? (0) | 2023.10.12 |
1. Bagging(배깅) : 왜 여러 모델을 쓰는가? (0) | 2023.10.10 |
Pruning(프루닝, 가지치기) with Tree model (0) | 2023.10.10 |
CART 2. 분류나무(Classification tree)[지니 계수, 엔트로피] (0) | 2023.10.09 |