전체 글

공부한 걸 정리하고 공유하며 틀린 부분을 함께 고쳐나가는 블로그입니다.
📌 Naive Bayes Classifier 나이브 베이즈는 텍스트 분석 분야에서 아직도 사용되고 있는 것 같습니다.(제가 잘 몰라서 틀릴 수도 있습니다.) 스팸 판단 등에서 사용되는 것 같더군요. 나온지 오래된 모델임에도 충분히 경쟁력이 있는 것 같습니다. 나이브 베이즈 분류기는 간단한 기술입니다. 단일 알고리즘을 통한 훈련이 아닌 일반적 원칙에 근거하여 여러 알고리즘들을 이용하여 훈련합니다. 나이브 베이즈 분류기의 큰 특징이라함은? 모든 feature들이 조건부로 독립이라는 가정입니다. 예를 들어봅시다. 특정 동물을 호랑이라고 분류합니다. 줄무늬, 울음소리, 고양이과등과 같은 특성들을 서로 독립적으로 동물이 호랑이일 확률에 기여한다고 가정합니다. 그럼 중요한 문제는 과연 feature들이 조건부 독립..
📌 LDA, QDA LDA와 QDA는 다변량 정규 분포를 위한 베이즈 분류기이다.(베이즈 이론에 대해 알고 보시는게 이해가 쉽습니다.) 다변량 정규 분포는 두 개 이상의 확률변수 가령 $X, Y$가 상호의존적으로 정규 분포를 따를 때의 확률 분포입니다. 다변량 정규 분포의 확률 밀도 함수를 보면 원래 정규분포와 비슷한 형태를 보입니다. 그럼 이둘은 무슨 차이가 있을 까요? 큰 차이는 결정 경계. 즉, 분류를 하기 위한 경계를 어떻게 모델링하느냐에 있습니다. LDA, QDA의 이름부터 Linear, Quadratic인 것을 보시면 아마 금방 유추가 가능할겁니다. QDA의 경우 각 클래스마다 고유한 공분산 행렬을 사용합니다. 예를 들어 클래스가 3개 있다면 $\Sigma_1 \neq \Sigma_2 \neq..
우선 간단히 베이즈 분류에 대해 설명한 전 포스팅을 확인해주세요. https://datanovice.tistory.com/entry/베이즈 분류 베이즈 분류 그리고 최소 손실 베이즈 분류 통계적 의사 결정 for Classification(베이즈 분류) 분류에 대해서는 일반적으로 zero-one loss function을 사용하는 것이 흔한 method다. $$ L(a,b) = I(a \neq b) $$ $Y=1,...,K$이고 $K$는 가능한 범주들 이라고 하자. datanovice.tistory.com 📌 ECM(Expected cost of misclassification)과 베이즈 분류 ECM을 설명하기 전에 몇가지 가정과 명명을 확인하겠습니다. $f_i$를 밀도 함수라고 하고 클래스 $i$가 1..
📌 통계적 의사 결정 for Classification(베이즈 분류) 분류에 대해서는 일반적으로 zero-one loss function을 사용하는 것이 흔한 method다. $$ L(a,b) = I(a \neq b) $$ $Y=1,...,K$이고 $K$는 가능한 범주들 이라고 하자. 즉, $Y$는 $K$개의 가능한 범주 중 하나. 이 때 실제 값 $Y$와 예측 값 $f(\textbf{X})$의 기댓값은 아래와 같다. 주어진 입력 $\textbf{X}$에 대한 y의 조건부 확률을 곱해준다. $$ E[L(Y, f(\textbf{X}))] = E_{\textbf{X}} \left[\sum_{y=1}^K L(y, f(\textbf{X})) p(y|\textbf{X}) \right] $$ 실제 클래스 $Y=i$..
📌 초기하 분포(hypergeometric distribution) 초기하 분포란 비복원추출에서 모집단 N 중에 n번 추출했을 때, 원하는 것이 k번 나올 확률에 대한 분포입니다. 이렇게 보면 굉장히 어려워보이는데 별거 없습니다. 이항분포에서 복원추출이 아닌 비복원추출을 하는 것이라고 간단히 이해하고 있으면 됩니다. 자세히 한번 봅시다! 예를 들어 상자 안에 공 7개가 있고, 빨간 공 4개와 파란공 3개가 있다고 해봅시다. 우리는 총 4개의 공을 뽑아서 빨간 공 3개를 뽑으려고 합니다. 모집단인 N = 7이고, n = 4번 추출하며, 원하는 빨간 공이 k = 3번 나올 확률에 대한 분포를 보는 것입니다. 이 때 초기하확률변수 X = 3이 되는겁니다. ➕ 초기하 분포의 확률 질량 함수 모집단 N 총 시행 ..
📌 표본분산의 확률 분포 = 카이제곱 분포?? 우선 가법성에 대해 간단히 설명하고 넘어가 보겠습니다. $$ X \sim \chi^2(n_1), Y \sim \chi^2(n_2) $$ 위와 같이 $X,Y$라는 확률 변수가 있고, 이 들이 서로 독립이라면 아래와 같이 합친 자유도를 따르는 카이제곱 분포를 따릅니다. $$ (X+Y) \sim \chi^2(n_1+n_2) $$ 가법성을 기억하고 표본 분산과 카이제곱의 관계를 한번 봅시다. 우선 표본분산 $S^2$는 아래와 같습니다. $$ S^2 = \sum_{i=1}^n \dfrac{(X_i - \bar{X})^2}{n-1} \\ \sum(X_i-\bar{X})^2 = (n-1)S^2 $$ 그리고 자유도가 n일 때 카이제곱 분포는 아래과 같습니다. $$ \sum..
📌 Chi-squared distribution 독립적이고 표준정규분포를 따르는 확률 변수 $Z_1, Z_2, ..., Z_n$이 있다고 하면, 자유도 n의 카이제곱 분포는 아래와 같은 확률 변수의 분포라고 합니다. $$ Q = \sum_{i=1}^n Z_i^2 = \chi_n^2 $$ 좀 더 알아본다면.. $X \sim N(\mu, \sigma)$ 일 때(정규분포를 따를 때) $Z = \frac{X-\mu}{\sigma} \sim N(0,1)$ 일겁니다.(표준화) 이 $Z$를 제곱하면 아래와 같이 자유도가 1인 카이제곱을 따르게 되는겁니다. $$ Z^2 = \dfrac{(X-\mu)^2}{\sigma^2} \sim \chi_1^2 $$ 이게 무슨 소리인지 차근차근 한번 봅시다. 카이제곱 분포 설명 우선..
📌 정규 분포 (Normal distridution) 통계를 한다면 어쩌면 가장 많이 듣지 않을까 하는 분포 중 하나인 정규 분포 입니다. 보통 수학의 분야에선 Normal distribution(정규 분포)라고 하는데, 공학쪽 에서는 Gaussian Distribution(가우시안 분포)라고 하는 것 같더라구요. 처음엔 저도 헷갈렸습니다. 우리가 진행하는 많은 통계적 분석(T-test, F-test) 등등 모두 정규분포의 성질을 활용, 가정하여 분석하게 됩니다. 정말 중요한 분포이죠. 정규분포는 bell shape(종 모양)을 띄며 양 끝 꼬리로 갈 수록 낮아지고 평균과 가까울 수록 높아지는 모양을 보입니다. 또한 분산이 커질 수록 평평한 모양을 띄고, 분산이 작을 수록 뾰족한 모양에 가깝습니다. 위 ..
연속균등 분포 포스팅 : 연속균등 분포 링크 연속균등 분포 (Continous uniform distribution) 이번엔 균등 분포에 대해 알아볼까 합니다. 그중에서도 연속형 균등 분포에 대해 알아보겠습니다. 📌 균등 분포(uniform distribution) 연속균등분포는 연속 확률 분포입니다. 분포가 특정한 범위 내 datanovice.tistory.com 📌 연속균등 분포 평균 ($E(X) = \dfrac{(a+b)}{2}$) $$ \mu = E(X) = \dfrac{(a+b)}{2} $$ ◾ 증명 연속균등 분포는 이름 그대로 연속 확률분포이고, 연속형 확률분포의 평균은 아래와 같다. $$ \int x f(x) dx $$ 연속균등 분포에서 확률 밀도 함수(pdf)는 $f(x) = \dfrac{..
이번엔 균등 분포에 대해 알아볼까 합니다. 그중에서도 연속형 균등 분포에 대해 알아보겠습니다. 📌 균등 분포(uniform distribution) 연속균등분포는 연속 확률 분포입니다. 분포가 특정한 범위 내에서 균등하게 나타나 있는 경우입니다. 출처 : 위키백과 그래프를 보시면 a부터 b까지의 합이 1이 됩니다.(확률 밀도 함수의 경우) 위 그래프는 한 범위에서 같은 값을 같는 경우의 균등 분포입니다. 한번 난수를 생성하여 확인해봅시다. import numpy as np import matplotlib.pyplot as plt # 균등 분포에서 난수 생성 np.random.seed(0) # 재현성을 위해 시드 설정 uniform_data = np.random.uniform(0, 1, 1000) # 0에..
Data_novice
데이터 노트 📝