데이터 노트 📝

2. Bagging(배깅) : Out of bag error estimation

2023.10.12· 🌞 Statistics for AI/Machine learning

📌 Out of Bag(OOB) error estimation 앞서 배깅 1편을 보고와주세요. 1. Bagging(배깅) : 왜 여러 모델을 쓰는가? 📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단 하나의 모델이 아닌 여러 개의 모델을 독립적으로 학습시킨 후에 결과를 투표 방식(Catrgorical 일 때) 혹은 평균으 datanovice.tistory.com 1편에 이어서 설명하겠습니다. Bagging을 할 때, 부트스트랩으로 원 데이터 안에서 여러 하위 데이터들을 뽑아 낸다고 했습니다. 평균적으로, 각 부트스트랩 트리는 복원 추출이기 때문에 원 데이터의 2/3 정도를 사용합니다. 복원 추출에서 뽑히지 않은 나머지 1/3을 Out-of-Bag(OOB..

베이지안 통계(Bayesian Statistics)

2023.10.12· 📊 Statistics for Basic/Bayesian(베이지안 통계)

베이지안 통계입니다. 아래 간단한 설명을 한 글이 있습니다. https://datanovice.tistory.com/entry/%EB%B2%A0%EC%9D%B4%EC%A7%80%EC%95%88-%EC%9D%B4%EB%A1%A0vs-%EB%B9%88%EB%8F%84%EC%A3%BC%EC%9D%98 베이지안 이론(vs 빈도주의) 베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 datanovice.tistory.com 📌 베이지안 정리 우리가 알고싶은, 관심있는 파라미터를 $\theta$라고 해봅시다. 빈도주의의 경우 이 $\theta$를 알려지지 않은 상수라고 봅니다. 반..

베이지안 이론(vs 빈도주의)

2023.10.11· 📊 Statistics for Basic/Bayesian(베이지안 통계)

베이지안 이론은 머신러닝에 있어서 아주 중요합니다. 보통 ML에서 쓰이는 데이터는 일반 확률론으로는 한계가 있고 ML자체가 특정 가성의 확률을 높이는 최적화된 모델을 찾는 것을 목적으로 하는 것이니까요. 📌 베이지안 vs 빈도주의 아마 베이지안에 대해 공부하시면 많이 들으셨을 주제 입니다. 정말 쉽게 설명해봅시다. 빈도주의 확률을 성공 횟수/전체 횟수의 극한으로 봅니다. 동일한 수행이 무한히 반복했을 때의 빈도를 말합니다. 말이 어렵지만 예를 들어봅시다. 동전 던지기입니다. 우리는 당연하게도 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5로 알고 있습니다. 왜 일까요? 동전은 5번 던졌을 때, 앞면이 4번이 나올수도 있습니다. 하지만 동전을 무수히 즉, 무한대로 던지다보면 결국 0.5에 수렴하기 때문..

[Minimal mistakes, Github 블로그] tag 넣기

2023.10.10· 🔐 Git/Bolg(폐쇄)

블로그 처음에 태그가 적용이 되어있었나.. 기억이 안나네요.. 내가 지웠나.. 태그를 쓰고 싶은데 안되더라구요 ㅜㅜ 그래서 저같은 분들을 위해 정리해놓으려고 합니다. 📑 tag-archive.md 생성 우선 해당 파일을 생성해 줄건데요. 📂_pages 파일로 들어가시면 카테고리 파일이 나올겁니다. 네 바로 거기에 태그 파일도 만들어줄거에요! Add file을 누르고 제목을 tag-archive.md로 만들어주세요! 그리고 아래의 코드를 복사하여 본문에 넣어주세요. --- title: "Posts by Tag" # 태그를 클릭하였을 때 페이지의 제목입니다. 원하는 제목으 permalink: /tags/ layout: tags author_profile: true ---커밋 해주시면 됩니다. 📑 naviga..

[Minimal mistakes, Github 블로그] breadcrumbs 설정

2023.10.10· 🔐 Git/Bolg(폐쇄)

오늘은 블로그에 breadcrumbs를 적용하는 법과 글씨 크기를 변경하는 법을 포스팅 하려고 합니다! breadcrumbs는 아래와 같이 포스팅의 맨 위에 경로를 알려주는 효과에요. 제가 적용해보려고 찾아봤는데 내용이 별로 없더라구요 ㅜㅜ 그래서 혹여 저처럼 어려움을 겪는 사람이 있을 까 포스팅 해봅시당. 🧮 breadcrumbs 적용법 우선 📑_config.yml에 들어가줍니다. 거의 상단에 아래 코드와 같이 # Site Settings란이 있을 거에요. # Site Settings locale : "ko-KR" title : "데이터를 파고파는 사람 ⛏️" title_separator : "-" subtitle : # site tagline that appears below site title in..

[Minimal mistakes, Github 블로그] 글씨 크기 변경

2023.10.10· 🔐 Git/Bolg(폐쇄)

블로그를 좀 보다 보니까 글씨 크기가 큰 느낌이더라구요? 큼직큼직한게 보기는 좋은데 오히려 너무 크니까 잘 안읽히는 느낌이 강했습니다. 그래서 글씨 크기를 변경하는 겸 포스팅 하려고 합니다. 생각보다 간단해요~ 그럼 깃허브 블로그 글씨 크기를 변경해봅시다. 📑 _reset.scss 변경 📑_reset.scss에서 변경해주면 간단하게 바뀝니다! 해당 경로는 _sass/minimal-mistakes/_reset.scss입니다. html { /* apply a natural box layout model to all elements */ box-sizing: border-box; background-color: $background-color; font-size: 17px; @include breakpoint..

[Minimal Mistakes, Github 블로그] 블로그 스킨, 테마 변경

2023.10.10· 🔐 Git/Bolg(폐쇄)

지금 블로그 색상도 마음에 들긴 하는데, 뭔가 보면 볼수록 테크블로그 같지는 않달까..? 좀 모바일 중소기업 사이트 느낌이 들더라구요 하하.. 그래서 색상을 좀 변경할 겸 포스팅을 하려고 합니다! 우선 원래 제 블로그 입니다.(2023-06-28 기준.. 보고있는 지금은 또 어떻게 바뀌었으려나) | 👉 색상 선택 우선 바꿀 색상을 선택해줘야겠죠? 저는 해당 사이트를 애용하는 편입니다. HTML 색상 코드 차트 🎨 해당 사이트에서 원하는 색상을 선택해주세요! 저의 경우 분홍색의 테마 색상을 좀더 붉은 빨강으로 바꿔줄거에요. 원래는 보는 분들 눈이 아플까봐 연한색으로 한건데, 어처피 보러 오시지 않는 흑흑 ㅜㅜ 아래와 같이 원하는 색상을 찍은뒤 아래 #xxxxxx처럼 여섯자리 코드를 복사해주세요! 📑 _co..

[Minimal mistakes, Github 블로그] LaTex 문법 적용

2023.10.10· 🔐 Git/Bolg(폐쇄)

학과 특성상 과제나 공부를 할 때 Latex 문법을 많이 사용합니다. 공부한 내용들을 포스팅 할 때마다 Latex를 Word에서 따로 작성하여 캡쳐하고 붙여넣기 하고.. 너무나 번거로워서 결국 Git 블로그에 LaTeX 적용해보려고 합니다. 실제로 이 글을 기준으로 전 글들은 다 캡쳐본! 📑 _config.yml 변경 📑_config.yml 파일 내용을 변경해주어야 합니다. 우리가 익숙한 markdown을 latex를 지원하는 kramdown으로 변경해줍니다. # Conversion markdown: kramdown highlighter: rouge lsi: false excerpt_separator: "\n\n" incremental: false 최근 시기에 블로그를 시작한 분이라면 이미 이렇게 적용되..

1. Bagging(배깅) : 왜 여러 모델을 쓰는가?

2023.10.10· 🌞 Statistics for AI/Machine learning

📌 Bagging(배깅) 배깅(Bagging)은 앙상블 학습 방법 중 하나입니다. 단일 모델, 즉 단 하나의 모델이 아닌 여러 개의 모델을 독립적으로 학습시킨 후에 결과를 투표 방식(Catrgorical 일 때) 혹은 평균으로(Continuous 일 때) 집계합니다. 쉽게 말하면 범주형 변수의 경우 10개의 모델 중에 8개 모델이 A로, 2개의 모델이 B로 예측하였을 경우, 투표방식으로 최종 A로 분류합니다. 연속형 변수의 경우 10개 모델의 결과를 평균을 내어 예측 값을 결정합니다. 이 bagging 방법은 다양한 모델을 학습하고 예측을 결합함으로써 모델의 분산을 줄이고, 예측 정확도를 향싱시킬 수 있습니다. 이름이 Bagging인데는 이유가 있습니다. 바로 Bootstrap aggregation(부트..

Pruning(프루닝, 가지치기) with Tree model

2023.10.10· 🌞 Statistics for AI/Machine learning

📌 PRUNING Tree 모델의 과적합을 막고 계산량을 줄이기 위해서 PRUNING이라는 것을 할 수 있습니다. Pruning은 가지치기라고 합니다. 하부 tree를 제거하여 깊이가 줄어드는 방법을 이용합니다. 아래와 같은 가정을 해봅시다. $T$ : 나무의 개수 $|T|$ : 나무의 터미널 노드 개수(맨 마지막 노드) $T_1, T_2, ..., T_k$ : 나무의 터미널 노드들 $r(T_i)$ : $T_i$노드에 할당된 class $L(i,j)$ : 손실 행렬 $P(T_i) = \sum_{j=1}^C \pi_jP(T_i,|j)$ : 여기서 $\pi_j$는 클래스 j에 대한 사전 확률 위 가정으로 $T_i$의 risk는 아래와 같습니다. $$ R(T_i) = \sum_{j=1}^C p(j|T_i)L(..

전체 글

티스토리툴바