전체 글

공부한 걸 정리하고 공유하며 틀린 부분을 함께 고쳐나가는 블로그입니다.
짦은 기초 통계 2에서 중심 경향값에 대해 살펴보았습니다.중심 경향값과 함께 때놓을 수 없는 것이 바로 분산입니다. 사실 거의 대부분의 통계 모델들이 이 중심 경향값과 변산성으로 이루어져 있습니다. 때문에, 잘 알아 두어야 합니다.  📌 변산성(Variability)  변산성은 분포에서 점수들 간의 차이에 대한 양적 측정값입니다. 아주 극히 쉽게 표현하자면, '데이터들이 퍼져 있는 정도'라고 말할 수 있습니다. 이 변산성은 아래 두 가지 특성이 있습니다.1. 점수들의 분포를 알려줌2. 한 점수가 전체 점수 분포를 얼마나 잘 대표하는지를 알려줌  사실 어떻게 보면 중심 경향값보다 중요한 부분이 이 변산성이 아닐 까 쉽습니다. 왜냐하면 분산이 같고, 평균이 다른 경우보다 분산이 다르고 평균이 같은 경우에 ..
중심 경향값에 대한 내용입니다. 내용 자체는 단순 합니다. 평균은 통계를 하지 않아도 많이들 알고 계시고, 분산과 표준편차 또한 많이들 알고 계실 겁니다. 하지만, 이를 왜 알아야하는 가에 대해 알아보려고 합니다. 📌 중심 경향값(central tendency) : 집단을 대표하는 표현 중심 경향값은 분포의 중심을 정의하는 단일 점수를 결정하는 통계 수단입니다.전체 집단에서 가장 일반적이거나 가장 대표적인 단일 점수를 찾기 위해 사용합니다. 쉽게 말하면 내가 가진 데이터 분포를 하나의 수로 표현하기 위한 방법을 중심 경향값이라고 하는 것입니다.  1. 평균(mean)  우리가 잘 알고있는 평균입니다. 보통은 산술 평균을 사용합니다. 분포의 모든 값들을 더한 후 사례의 수로 나누어 계산합니다. - 모집단..
📌 통계(Statistics) 용어 정리 먼저, 용어를 정리하고 가야합니다. 해당 용어의 의미를 헷갈리실 경우 후의 내용을 이해하는 데 어려움이 있을 수 있습니다. 간단하고 알아야할 용어들만 나열해봅시다. - 모집단(population) : 특정 연구에서 연구 대상이 되는 모든 개인의 집합 (예 : 'A' 기업의 전체 소비자) - 모수(parameter) : 모집단을 설명하는 값, 모집단에 해당하는 개인을 측정해 얻은 값 (예 : 'A'기업의 전체 소비자 만족도 점수) - 표본(sample) : 모집단에서 선택된 개인 집합. 모집단을 대표하기 위한 것 (예 : 'A' 기업의 소비자 남녀 각각 50명) - 통계량(statistic) : 표본을 설명하는 값. 표본에 해당하는 개인을 측정해 얻은 값 (예 :..
딥러닝(Deep Learning)은 인공지능(AI)의 한 분야로, 인간의 뇌가 정보를 처리하는 방법을 모방하여 데이터를 학습하는 기술입니다.(뉴런!). 최근 핫한 컴퓨터 비전, 자연어 처리, 음성 인식 등등 모두 딥러닝이 베이스가 된 기술들입니다.  때문에 인공지능 분야를 공부하는 분들은 딥러닝이 매우 기초가 된다는 것을 알 것이라 생각합니다. 하지만, 머신러닝과 다르게 딥러닝에 대한 지식이 부족한 분들이 많을 것이라 생각합니다. 머신 러닝을 좀 더 깊이 바라본 것이지만 그 안의 내용은 머신러닝을 뛰어넘는 지식을 요구하는 경우가 많습니다. 그럼 딥러닝의 기본 개념과 구성 요소 등을 한 번 알아보겠습니다. 📌 딥러닝 기본 개념딥러닝은 기본 적으로 다층 신경망(Deep Neural Network, DNN)..
지금은 대 생성형 AI 시대이다. 즉? 대 GPT의 시대라고 해도 거짓말이 아니다. 물론 주변에 실제로 사용하는 사람은 얼마 안되는 것 같지만??.. 본인은 GPT가 처음 나왔을 때 이제 새로운 도구나 방법을 기존 것과 비교하여 거부를 할게 아니라 받아들여야 남들보다 빨리 앞설 수 있을 것 같다고 생각했다. 실제로 그런 시대가 되었고, 현실적으로 따라가기 벅찬 ㅋㅋㅋ 어쨋든 나는 GPT 뿐 아닌 여러 생성형 AI를 사용하고 있다. 사용하기 전과 후의 가장 큰 차이점은 학습의 속도이다. 옜날 같았으면 일주일의 시간이 소모될게 지금은 단 몇시간 만에 가능하다... 개인이 이정도의 도움을 받는데 기업에선 당연히 쓸것이다. 그래서 이번 "생성형 AI 도움받고 취업 성공하기"를 보자마자 신청해보았다. 역시 생각보..
2024년 4월 27일 토요일에 이화여자대학교에서 열렸던 춘계 학술대회에 참가했다. 생각해보니까 사진을 안찍었다.. 찍은 사진은 했던 연구 2개 뿐!!! 우선 가는길이 정말 매우 더웠다 ㅜㅜ 이제 더워지는가 보다... 이화여자 대학교는 내가 남자라 처음 가봤는데 정말 너무 이쁜 학교였다 ㅜㅜㅜ 중대는 진짜 작고 작은걸 새삼 다시 느끼는 ㅜㅜ 어찌 됐든 중요한건 학회 내용인데 오전에는 충북대학교 이우열 교수님께서 일반화 선형 혼합효과 모형을 소개해주셨다. 사실 '선형'이란 것에 나는 요즘 시대에 있어서 좀 달갑지는 않은? 그렇지만 사실 심리학 분야에서는 선형 효과를 보이는 변수들이 많다. 애초에 연구가 선형 효과를 확인하기 위한 연구가 많기도 하다. 내용은 심리자료의 특성, 설문 등 문항에 대한 설명, 변..
https://brilliant.org/wiki/gaussian-mixture-model/https://towardsdatascience.com/gaussian-mixture-models-explained-6986aaf5a95  📌 가우시안 혼합 모델 가우시안 혼합 모델은 전체 모수 내에서 정규 분포를 따르는 하위 집단들을 나타내기 위한 확률 모델입니다.일종의 비지도 학습의 한 형태로 모델이 자동으로 하위 집단을 분류해내도록 하는 알고리즘입니다. 예를 들어, 사람의 키 데이터를 모델링 할 때, 남성은 평균 키가 약 175, 여성은 평균 키가 약 165라고 가정해봅시다. 만약 우리에게 데이터가 있고, 해당 데이터가 성별 할당 없이 단지 키 데이터만 주어졌다면? 이 모든 키의 분포는 남성과 여성의 두 정규..
앞서 포스팅에서 확률과 가능도에 대해 알아보았습니다.마지막 글을 보시면 의미심자한 말이있죠?  가능도(Likelihood) vs 확률(Probability)통계를 공부한다면 확률은 많이 들어보셨을 겁니다. 더욱 깊이 들어가 ML과 같은 여러 알고리즘을 접하면 자연스레 가능도에 대해서도 듣게 되죠. 확률과 가능도. 매우 비슷해 보이지만 해당 의datanovice.tistory.com 오늘은 이렇게 가능도를 최대화 하는 방향으로 파라미터를 추정하는 방법에 대해 알아볼 것입니다. 이를 최대 우도 추정 혹은 최대 가능도 추정법이라고 합니다.짧게 MLE(Maximum Likelihood Estimation)라고 하겠습니다.  📌 MLE 일반적으로 통계 모델의 매개변수를 추정하..
통계를 공부한다면 확률은 많이 들어보셨을 겁니다. 더욱 깊이 들어가 ML과 같은 여러 알고리즘을 접하면 자연스레 가능도에 대해서도 듣게 되죠. 확률과 가능도. 매우 비슷해 보이지만 해당 의미와 방법에 차이가 있습니다. 한번 확인해 봅시다. 📌 확률(Probability) 아주 친숙한 확률입니다. 통계나 수학을 공부하지 않아도, 일반 사람들이라면 확률에 대해 많이 이야기 합니다. 확률은 특정 사건이 발생할 가능성을 수치적으로 표현한 것으로 0과 1사이의 값을 가지게 됩니다. 여기서 0은 사건이 절대 발생하지 않음을 나타내고, 1은 사건이 반드시 발생함을 의미합니다. 또한, 확률은 일반적으로 사전에 알려진 정보 혹은 긴 기간의 관찰 결과에 기반하여 결정됩니다. 동전 던지기를 예로 들어봅시다. 앞면과 뒷면이 ..
부스팅 알고리즘에 대해 공부하시는 분들이라면 CATBoost를 들어보셨을 것 같습니다. CATBoost를 Yandex라는 러시아 검색 엔진 인터넷 기업에서 개발한 그래디언트 부스팅 라이브러리입니다. 범주형 데이터를 다루는데 최적화 되어 있으며, XGBoost와 함께 여러 분야에서 사용하는 모델입니다. 📌 기존 부스팅과의 차이점(Ordered Boosting) 먼저, CATBoost는 Ordered Boosting(순서 부스팅)이라는 기법을 사용하여 데이터의 순서에 따라 모델을 학습시킵니다. 기존의 부스팅 모델들을 모든 훈련 데이터를 대상으로 잔차를 계산하여 트리를 적합해 나간다. CATBoost의 경우 학습 데이터의 일부만을 사용하여 잔차를 계산한 뒤, 해당 결과를 통해 모델을 만들어나간다. 이때 ord..
Data_novice
데이터 노트 📝