수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
베이즈 분류에 대한 전 포스팅도 확인해주세요.
📌 베이즈 분류기
평균적으로 테스트 오류율은 매우 간단한 분류기에 의해 최소화 된다. 베이즈 분류기는 각 관측값을 해당 예측 변수 값에 따라 가장 가능성 있는 클래스에 할당한다.
아래와 같이 베이즈 분류기는 예측 변수 벡터 $\textbf{x}$에 대한 사후 확률 $\tau_j(\textbf{x}) = P(Y = j|\textbf{x})$가 가장 큰 클래스 $j$에 테스트 관측값을 할당한다.
$$
\begin{align}
\hat{Y} = \hat{Y}(\textbf{x}) &= \arg\max_j P(Y=j|\textbf{x})
\\ &= \arg\max_j \left[ \dfrac{P(\textbf{x}|Y=j)P(y=j)}{P(\textbf{x})} \right]
\\ &\propto \arg\max_j [P(\textbf{x}|Y=j)P(y=j)]
\end{align}
$$
베이즈 이론에 대해 아시면 이해하기 편하실 겁니다. $P(Y=j|\textbf{x}_0)$은 예측 변수 벡터 $\textbf{x}_0$이 주어졌을 때 $Y=j$일 사후 확률입니다.
📌 그럼 베이즈 분류기의 파라미터는 어떻게 추정할까?
여기서 말하는 파라미터는 즉 사전 확률입니다.
$n$은 훈련 데이터의 관측값 수이고, $n_j$를 훈련 데이터에서 $Y=j$인 관측값의 수라고 합시다.
이때 사전 확률의 최대 우도 추정치는 아래와 같습니다.
$$
\hat{P}(Y=j) = \dfrac{n_j}{n}
$$
- 양적 예측 변수에 대한 우도 추정
모든 예측 변수가 양적이라면 $Y=j$일 때 $x$의 다변량 정규 분포를 가정하는 것이 일반적입니다. 아래와 같이 다변량 정규 분포의 MLE(최대 우도 추정)을 사용.
$$
f_j(\textbf{x}) = \dfrac{1}{(2\pi)^{p/2}|\pmb{\Sigma}_j|^{1/2}}
\exp \left[-\dfrac{(\textbf{x}-\pmb{\mu}_j)^T\pmb{\Sigma}^{-1}_j(\textbf{x}-\pmb{\mu}_j)}{2}\right]
$$
이 때 $\mu_j, \sum_j$의 추정치는 아래와 같습니다.($\chi$ = 트레이닝 데이터)
$$
\hat{\pmb{\mu}}_j = \dfrac{1}{n_j} \sum{(y_i, \textbf{x}_i) \in \chi, y_j=j}\textbf{x}_i
\\ \hat{\pmb{\Sigma}}_j = \dfrac{1}{n_j} \sum{(y_i, \textbf{x}_i) \in \chi} (\textbf{x}-\hat{\pmb{\mu}}_j)(\textbf{x}-\hat{\pmb{\mu}}_j)^T
$$
- 질적 예측 변수에 대한 우도 추정
만약 모든 예측 변수가 categorical 데이터라면 다항 분포의 MLE를 사용합니다.
$$
\hat{P}(x_1^* , ..., x_p^* | Y=j) = \dfrac{ \# [i : y_i =j, \textbf{x}_i =\textbf{x}^* ]}{n_j}
$$
'🌞 Statistics for AI > Classification' 카테고리의 다른 글
KNN(K-최근접 이웃) 간단한 설명 (1) | 2023.12.05 |
---|---|
로지스틱 회귀(+ 다중 로지스틱 회귀)의 간단한 설명 (0) | 2023.12.03 |
나이브 베이즈 분류(독립성 가정의 중요성?) (1) | 2023.12.03 |
LDA, QDA 간단한 차이와 방정식 (0) | 2023.12.03 |
베이즈 분류와 ECM, TPM, Bayes error rate (1) | 2023.11.29 |