◼️ 모든 글 ◼️

📌 선형모델의 확장 : 부분집합 선택법 우선 부분집합 선택법을 간단히 알아봅시다. 선형모델의 적합절차를 수행하기 위해 p개인 설명변수의 가능한 조합 각각에 대해서 최소제곱회귀를 적합합니다. 쉽게 설명한다면 단 하나의 설명변수를 포함하는 모델 p개 두 개의 설명변수를 포함하는 모델 p(p-1)/2 개 ... 이런 식으로 모든 모델들을 적합합니다. 그 다음 이 모델들중에 가장 좋은 모델을 찾아내는 것이죠. 예시로 설명해봅시다. 설면변수가 3개 있다면 이를 A, B, C로 놓아 봅시다. 이에 대해 가능한 모델 조합은 y = x y = Ax / y = Bx / y = Cx y = Ax_1 + Bx_2 / y = Ax_1 + Cx_2 / y = Bx_1 + Cx_2 y = Ax_1 + Bx_2 + Cx_3 이렇게..
오늘은 교차검증을 주재로 포스팅을 하려고 합니다. 흔히 기계 학습을 할 때 우리는 타당도를 위해 교차검증을 합니다. 교차검증을 이해하기 위해 먼저 training set : 훈련 세트와 test set : 시험 세트를 이야기 해봅시다. Train set, Test set 훈련 세트와 시험 세트 우리가 특정 변수를 분류하기 위한 모델을 개발했다고 합니다. 이 모델이 얼마나 일반적으로 작동하는지 성능을 평가해야 합니다. 즉, 우리가 모델을 만드는데 사용한 데이터 뿐 아닌 다른 새로운 데이터에 대해서도 잘 작동하고 잘 분류하는지 알아야 합니다. *이를 위해 우리는 데이터 세트를 훈련 세트와 시험 세트로 나눕니다. * 데이터 세트를 임의로 두개 세트로 즉, 훈련 세트와 시험 세트로 나누어 성능을 평가합니다. 훈..
앞서 단순 선형 포스팅을 확인해주세요. 단순 선형회귀 📌 단순 선형회귀 하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다. 이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다. 위 식을 x에 대한 Y의 회 datanovice.tistory.com 📌 다중 선형회귀 단순선형회귀는 단일 설명변수(x1)을 기반으로 반응변수를 예측하는 기법입니다. 하지만 실제로 하나의 변수만으로 예측이 가능할까요? 실제로는 하나보다 많은 설명변수가 필요합니다. 예를 들어, 내일 비올 확률을 계산해봅시다. 단순히 습도만 가지고 예측하기는 어렵죠. 습도, 바람, 고도 등 많은 설명변수가 필요합니다. 그렇다면 각각의 설명변수를 이용해 세 개의 단순선형회귀를 만들어서 사용하면 어떨까요? 비..
📌 단순 선형회귀 하나의 설명변수 X에 기초하여 양적변수 Y를 예측합니다. 이 기법은 X와 Y 사이 선형 상관관계가 있다고 가정하며 아래의 식으로 나타낼 수 있습니다. 위 식을 x에 대한 Y의 회귀라고 합니다. 여기서 $beta_0$는 선형모델의 절편(intercept)를 말하고, $beta_1$은 기울기를 나타냅니다. 이를 모델 계수 혹은 parameter(파라미터)라고 합니다. 훈련 데이터(training data)를 이용하여 파라미터에 대한 추정치 을 구하면 예측식은 다음과 같아집니다. 여기서 $\hat{y}$는 X가 x일 때 Y의 예측값을 나타냅니다. ◼️ 계수 추정 하지만 실제로 $beta_0$과 $beta_1$은 알려져 있지 않습니다. 그러므로 우리는 전체 데이터를 이용하여 계수를 추정해야 합..
앞서 1편과 2편을 보고와주세요. 적어도 1편은 봐주세요! 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단 하나의 모델이 아닌 여러 개의 모델을 독립적으로 학습시킨 후에 결과를 투표 방식(Catrgorical 일 때) 혹은 평균으 datanovice.tistory.com 2. Bagging(배깅) : Out of bag error estimation 📌 Out of Bag(OOB) error estimation 앞서 배깅 1편을 보고와주세요. 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단..
📌 Out of Bag(OOB) error estimation 앞서 배깅 1편을 보고와주세요. 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단 하나의 모델이 아닌 여러 개의 모델을 독립적으로 학습시킨 후에 결과를 투표 방식(Catrgorical 일 때) 혹은 평균으 datanovice.tistory.com 1편에 이어서 설명하겠습니다. Bagging을 할 때, 부트스트랩으로 원 데이터 안에서 여러 하위 데이터들을 뽑아 낸다고 했습니다. 평균적으로, 각 부트스트랩 트리는 복원 추출이기 때문에 원 데이터의 2/3 정도를 사용합니다. 복원 추출에서 뽑히지 않은 나머지 1/3을 Out-of-Bag(OOB..
베이지안 통계입니다. 아래 간단한 설명을 한 글이 있습니다. https://datanovice.tistory.com/entry/%EB%B2%A0%EC%9D%B4%EC%A7%80%EC%95%88-%EC%9D%B4%EB%A1%A0vs-%EB%B9%88%EB%8F%84%EC%A3%BC%EC%9D%98 베이지안 이론(vs 빈도주의) 베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 datanovice.tistory.com 📌 베이지안 정리 우리가 알고싶은, 관심있는 파라미터를 $\theta$라고 해봅시다. 빈도주의의 경우 이 $\theta$를 알려지지 않은 상수라고 봅니다. 반..
베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 하는 것이니까요. 📌 베이지안 vs 빈도주의 아마 베이지안에 대해 공부하시면 많이 들으셨을 주제 입니다. 정말 쉽게 설명해봅시다. 빈도주의 확률을 성공 횟수/전체 횟수의 극한으로 봅니다. 동일한 수행이 무한히 반복했을 때의 빈도를 말합니다. 말이 어렵지만 예를 들어봅시다. 동전 던지기입니다. 우리는 당연하게도 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5로 알고 있습니다. 왜 일까요? 동전은 5번 던졌을 때, 앞면이 4번이 나올수도 있습니다. 하지만 동전을 무수히 즉, 무한대로 던지다보면 결국 0.5에 수렴하기 때문..
블로그 처음에 태그가 적용이 되어있었나.. 기억이 안나네요.. 내가 지웠나.. 태그를 쓰고 싶은데 안되더라구요 ㅜㅜ 그래서 저같은 분들을 위해 정리해놓으려고 합니다. 📑 tag-archive.md 생성 우선 해당 파일을 생성해 줄건데요. 📂_pages 파일로 들어가시면 카테고리 파일이 나올겁니다. 네 바로 거기에 태그 파일도 만들어줄거에요! Add file을 누르고 제목을 tag-archive.md로 만들어주세요! 그리고 아래의 코드를 복사하여 본문에 넣어주세요. --- title: "Posts by Tag" # 태그를 클릭하였을 때 페이지의 제목입니다. 원하는 제목으 permalink: /tags/ layout: tags author_profile: true ---커밋 해주시면 됩니다. 📑 naviga..
오늘은 블로그에 breadcrumbs를 적용하는 법과 글씨 크기를 변경하는 법을 포스팅 하려고 합니다! breadcrumbs는 아래와 같이 포스팅의 맨 위에 경로를 알려주는 효과에요. 제가 적용해보려고 찾아봤는데 내용이 별로 없더라구요 ㅜㅜ 그래서 혹여 저처럼 어려움을 겪는 사람이 있을 까 포스팅 해봅시당. 🧮 breadcrumbs 적용법 우선 📑_config.yml에 들어가줍니다. 거의 상단에 아래 코드와 같이 # Site Settings란이 있을 거에요. # Site Settings locale : "ko-KR" title : "데이터를 파고파는 사람 ⛏️" title_separator : "-" subtitle : # site tagline that appears below site title in..
Data_novice
'분류 전체보기' 카테고리의 글 목록 (10 Page)