📌 PRUNING Tree 모델의 과적합을 막고 계산량을 줄이기 위해서 PRUNING이라는 것을 할 수 있습니다. Pruning은 가지치기라고 합니다. 하부 tree를 제거하여 깊이가 줄어드는 방법을 이용합니다. 아래와 같은 가정을 해봅시다. $T$ : 나무의 개수 $|T|$ : 나무의 터미널 노드 개수(맨 마지막 노드) $T_1, T_2, ..., T_k$ : 나무의 터미널 노드들 $r(T_i)$ : $T_i$노드에 할당된 class $L(i,j)$ : 손실 행렬 $P(T_i) = \sum_{j=1}^C \pi_jP(T_i,|j)$ : 여기서 $\pi_j$는 클래스 j에 대한 사전 확률 위 가정으로 $T_i$의 risk는 아래와 같습니다. $$ R(T_i) = \sum_{j=1}^C p(j|T_i)L(..
🌞 Statistics for AI
📌 Classification tree 기본적인 tree에 대해서는 아래 포스팅을 확인해주세요. 아래 내용과 이어서 설명할 것입니다. CART 1. 회귀나무(Regression tree)[재귀적 이진 분할 알고리즘] — 데이터 노트 📝 CART 1. 회귀나무(Regression tree)[재귀적 이진 분할 알고리즘] 📌 Regression Trees ML에 있어서 우리는 데이터를 사용하여 모델을 훈련시킵니다. 이 모델을 사용하여 새로운 데이터에 대한 예측을 하려하죠. 이때 예측하려는 데이터의 공간을 작은 부분들로 나 datanovice.tistory.com 기본적으로 회귀와 다르게 $Y$가 Categorical일 때 쓰는 '분류'입니다. 위 포스팅의 regression tree와 비슷한 맥락입니다. 차이..
📌 Regression Trees ML에 있어서 우리는 데이터를 사용하여 모델을 훈련시킵니다. 이 모델을 사용하여 새로운 데이터에 대한 예측을 하려하죠. 이때 예측하려는 데이터의 공간을 작은 부분들로 나누어 예측합니다. ${R_1, ..., R_k}$를 예측변수 공간 $\chi = {(x_1,...,x_p)}$의 파티션이라고 한다면, 아래와 같은 공간 함수를 고려합니다. $$ f(\textbf{x}) = \sum_{j=1}^K \beta_j I(\textbf{x} \in R_j) $$ 여기서 $I(\textbf{x} \in R_j)$는 $\textbf{x}$가 공간 $R_j$에 속하는지 여부를 나타내는 함수 입니다. 문제는 어떻게 공간 $R_j$와 계수 $\beta_j$를 알 수 있는가 입니다. 이때 재..