수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
앞서 1편과 2편을 보고와주세요. 적어도 1편은 봐주세요!
📌 Bagging의 문제점
1편에서 우리가 얘기 했을 때, Bagging을 쓰는 이유가 단일 데이터를 쓰는게 아닌 여러 데이터셋들의 평균을 내었을 때 낮아지는 분산을 이용하여 모델의 분산을 낮추는 것이라고 했습니다.
배깅에서 대부분의 트리는 상위 분할(트리의 첫 번째 분할 ~ )에서 거의 비슷한 예측 변수를 이용할 것입니다.
예를 들어, 자전거와 킥보드를 분류할 때 첫 분할로 바퀴의 크기 혹은 안장의 유무와 같이 강력한 예측변수를 이용하여 분할 할 것입니다.
문제는 이렇게 된다면 배깅 트리에서의 예측들은 서로 높은 상관관계를 가지게 됩니다. 결과적으로 높은 상관 관계를 가지는 값들의 평균은 상관 관계가 없는 값들의 평균에 비해 분산을 크게 줄일 수 없습니다.
📌 Random Forest를 쓰는 이유
이를 위해 총 p개의 예측 변수가 있다면 무작위로 m개의 예측 변수를 선택하여 트리들의 상관 관계를 없애버립니다.
10개의 예측 변수가 있다면 6개만 가지고 트리를 만드는 것입니다. 이 때 한 번이 아닌 매 분할마다 m 개의 예측 변수로 새로운 샘플을 선택합니다.
일반적으로 $m \approx \sqrt{p}$로 선택합니다. 즉, 각 분할에서 선택하는 예측 변수의 수를 전체 예측 변수의 제곱근 정도로 하는 것입니다. 회귀의 경우 $m = \frac p3$ 정도를 선택한다고 합니다.
'🌞 Statistics for AI > Machine learning' 카테고리의 다른 글
1. Boosting : AdaBoost (1) | 2023.10.14 |
---|---|
변수 중요도 : Mean Decrease Impurity, Mean Decrease Accuracy (1) | 2023.10.13 |
2. Bagging(배깅) : Out of bag error estimation (0) | 2023.10.12 |
1. Bagging(배깅) : 왜 여러 모델을 쓰는가? (0) | 2023.10.10 |
Pruning(프루닝, 가지치기) with Tree model (0) | 2023.10.10 |