데이터 노트 📝

Validation set와 MSE : Validation set를 사용하는 이유

2023.10.12· 📊 Statistics for Basic/통계 학습(Statistical learning)

보통 우리가 알기론 train set, test set로 나누어 모델을 학습, 평가합니다. 그런데 이를 제외하고 validation set를 추가하는 경우가 있습니다. 왜 일까요? 📌 MSE 그리고 validation set 우선 우리가 모델 학습의 성능을 보기위해 보는 MSE(Mean square error)에 대해 봅시다. 식과 같은 경우 $$ MES(\hat{f}) = \frac1n\sum^n_{i=1}(y_i - \hat{f}(\textbf{x}_i))^2 $$ 이렇게 이루어 집니다. 즉, 예측을 잘 못할수록 값이 커지는 구조이죠. 자 여기서 우리가 training data와 이와 관련 없는 test data가 있다고 해봅시다. training data : ${(y_1,\textbf{x}_1),...

로지스틱 회귀(Logistic Regression)

2023.10.12· 📊 Statistics for Basic/통계 학습(Statistical learning)

📌 로지스틱 회귀(Logistic Regression) 만약, 특정 사람이 외향적인지를 분류한다고 해봅시다.(외향 vs 내향이 아닙니다. 외향 Yes vs No 입니다) 반응 변수 명을 $x_1$라고 하면 두 개의 범주 Yes or No 가 있을 것입니다. 로지스틱 회귀는 반응 변수 Y를 직접 모델링하지 않고 Y가 특정 범주에 속하는 확률을 모델링 합니다. 추가적인 예로 일주일에 외출 횟수를 설명 변수로 사용하고, 변수 명을 out이라고 하였을 때, out에 대한 외향적일 확률을 다음과 같이 표시할 수 있습니다. Pr(Ex = Yes|out)이 값을 줄여서 p(out)라고 하고, 범위는 0~1입니다. 이를 이용해 임의의 주어진 out에 대해 Ex를 예측 할 수 있습니다. 예를 들어 p(out) > 0.5..

전진 단계적 선택(Forward stepwise), 후진 단계적 선택(Backward stepwise)

2023.10.12· 📊 Statistics for Basic/통계 학습(Statistical learning)

📌 선형모델의 확장 : 부분집합 선택법 우선 부분집합 선택법을 간단히 알아봅시다. 선형모델의 적합절차를 수행하기 위해 p개인 설명변수의 가능한 조합 각각에 대해서 최소제곱회귀를 적합합니다. 쉽게 설명한다면 단 하나의 설명변수를 포함하는 모델 p개 두 개의 설명변수를 포함하는 모델 p(p-1)/2 개 ... 이런 식으로 모든 모델들을 적합합니다. 그 다음 이 모델들중에 가장 좋은 모델을 찾아내는 것이죠. 예시로 설명해봅시다. 설면변수가 3개 있다면 이를 A, B, C로 놓아 봅시다. 이에 대해 가능한 모델 조합은 y = x y = Ax / y = Bx / y = Cx y = Ax_1 + Bx_2 / y = Ax_1 + Cx_2 / y = Bx_1 + Cx_2 y = Ax_1 + Bx_2 + Cx_3 이렇게..

Leave-one-out 교차 검증과 K-fold 교차 검증

2023.10.12· 📊 Statistics for Basic/통계 학습(Statistical learning)

오늘은 교차검증을 주재로 포스팅을 하려고 합니다. 흔히 기계 학습을 할 때 우리는 타당도를 위해 교차검증을 합니다. 교차검증을 이해하기 위해 먼저 training set : 훈련 세트와 test set : 시험 세트를 이야기 해봅시다. Train set, Test set 훈련 세트와 시험 세트 우리가 특정 변수를 분류하기 위한 모델을 개발했다고 합니다. 이 모델이 얼마나 일반적으로 작동하는지 성능을 평가해야 합니다. 즉, 우리가 모델을 만드는데 사용한 데이터 뿐 아닌 다른 새로운 데이터에 대해서도 잘 작동하고 잘 분류하는지 알아야 합니다. *이를 위해 우리는 데이터 세트를 훈련 세트와 시험 세트로 나눕니다. * 데이터 세트를 임의로 두개 세트로 즉, 훈련 세트와 시험 세트로 나누어 성능을 평가합니다. 훈..

다중 선형회귀

2023.10.12· 📊 Statistics for Basic/통계 학습(Statistical learning)

앞서 단순 선형 포스팅을 확인해주세요. 단순 선형회귀 📌 단순 선형회귀 하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다. 이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다. 위 식을 x에 대한 Y의 회 datanovice.tistory.com 📌 다중 선형회귀 단순선형회귀는 단일 설명변수(x1)을 기반으로 반응변수를 예측하는 기법입니다. 하지만 실제로 하나의 변수만으로 예측이 가능할까요? 실제로는 하나보다 많은 설명변수가 필요합니다. 예를 들어, 내일 비올 확률을 계산해봅시다. 단순히 습도만 가지고 예측하기는 어렵죠. 습도, 바람, 고도 등 많은 설명변수가 필요합니다. 그렇다면 각각의 설명변수를 이용해 세 개의 단순선형회귀를 만들어서 사용하면 어떨까요? 비..

단순 선형회귀

2023.10.12· 📊 Statistics for Basic/통계 학습(Statistical learning)

📌 단순 선형회귀 하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다. 이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다. 위 식을 x에 대한 Y의 회귀라고 합니다. 여기서 $beta_0$는 선형모델의 절편(intercept)를 말하고, $beta_1$은 기울기를 나타냅니다. 이를 모델 계수 혹은 parameter(파라미터)라고 합니다. 훈련 데이터(training data)를 이용하여 파라미터에 대한 추정치 을 구하면 예측식은 다음과 같아집니다. 여기서 $\hat{y}$는 X가 x일 때 Y의 예측값을 나타냅니다. ◼️ 계수 추정 하지만 실제로 $beta_0$과 $beta_1$은 알려져 있지 않습니다. 그러므로 우리는 전체 데이터를 이용하여 계수를 추정해야 합..

3. Bagging(배깅) : Random Forest은 뭐가 다를까?

2023.10.12· ⚙️ Machine Learning/Machine learning

앞서 1편과 2편을 보고와주세요. 적어도 1편은 봐주세요! 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단 하나의 모델이 아닌 여러 개의 모델을 독립적으로 학습시킨 후에 결과를 투표 방식(Catrgorical 일 때) 혹은 평균으 datanovice.tistory.com 2. Bagging(배깅) : Out of bag error estimation 📌 Out of Bag(OOB) error estimation 앞서 배깅 1편을 보고와주세요. 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단..

2. Bagging(배깅) : Out of bag error estimation

2023.10.12· ⚙️ Machine Learning/Machine learning

📌 Out of Bag(OOB) error estimation 앞서 배깅 1편을 보고와주세요. 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단 하나의 모델이 아닌 여러 개의 모델을 독립적으로 학습시킨 후에 결과를 투표 방식(Catrgorical 일 때) 혹은 평균으 datanovice.tistory.com 1편에 이어서 설명하겠습니다. Bagging을 할 때, 부트스트랩으로 원 데이터 안에서 여러 하위 데이터들을 뽑아 낸다고 했습니다. 평균적으로, 각 부트스트랩 트리는 복원 추출이기 때문에 원 데이터의 2/3 정도를 사용합니다. 복원 추출에서 뽑히지 않은 나머지 1/3을 Out-of-Bag(OOB..

베이지안 통계(Bayesian Statistics)

2023.10.12· 📊 Statistics for Basic/Bayesian(베이지안 통계)

베이지안 통계입니다. 아래 간단한 설명을 한 글이 있습니다. https://datanovice.tistory.com/entry/%EB%B2%A0%EC%9D%B4%EC%A7%80%EC%95%88-%EC%9D%B4%EB%A1%A0vs-%EB%B9%88%EB%8F%84%EC%A3%BC%EC%9D%98 베이지안 이론(vs 빈도주의) 베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 datanovice.tistory.com 📌 베이지안 정리 우리가 알고싶은, 관심있는 파라미터를 $\theta$라고 해봅시다. 빈도주의의 경우 이 $\theta$를 알려지지 않은 상수라고 봅니다. 반..

베이지안 이론(vs 빈도주의)

2023.10.11· 📊 Statistics for Basic/Bayesian(베이지안 통계)

베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 하는 것이니까요. 📌 베이지안 vs 빈도주의 아마 베이지안에 대해 공부하시면 많이 들으셨을 주제 입니다. 정말 쉽게 설명해봅시다. 빈도주의 확률을 성공 횟수/전체 횟수의 극한으로 봅니다. 동일한 수행이 무한히 반복했을 때의 빈도를 말합니다. 말이 어렵지만 예를 들어봅시다. 동전 던지기입니다. 우리는 당연하게도 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5로 알고 있습니다. 왜 일까요? 동전은 5번 던졌을 때, 앞면이 4번이 나올수도 있습니다. 하지만 동전을 무수히 즉, 무한대로 던지다보면 결국 0.5에 수렴하기 때문..

전체 글

티스토리툴바