📊 Statistics for Basic

이전 포스팅에서 t-test를 다루었습니다.(링크)t-test의 경우 최대 비교하려는 집단의 수가 2였습니다. 그렇다면 비교 집단이 두 개 이상이라면 어떨까요?? 이때의 집단 간 평균 차이 검정을 어떻게 진행할까요? 아래와 같은 예를 봅시다. 위와 같이 두 개 이상의 집단 간 평균의 차이에 대한 t-test 통계적 추론은 아래와 같습니다. 이렇게 세 개 이상의 집단을 두 집단씩 짝지어 총 3번을 진행할 경우 1. 유의 수준이 매우 엄격해지고, 이에 따라 제 1종 오류의 팽창이 일어납니다. 또한, 2. 반복되는 데이터 사용으로 인해 독립성 가정에 위배될 수 있습니다. 저번 포스팅에서 설명한 것과 같이 제 1종 오류 즉, 실제로 처치의 효과가 없는 데 있다고 결과를 잘못 도출할 가능성이 높아집니다. 아래 식..
오늘은 저번 z 점수에 이어서 가설 검정을 확인하려고 합니다. 가설 검정은 연구에 있어서 필수적인 부분이라고 할 수 있습니다.(최근에는 가설 검정보다 탐색적 연구가 더 많은 것 같기도 합니다.) 추가로 t 검정에 대해서도 간단하게 확인할 예정입니다.  📌 가설 검정 가설 검정이란 표본 자료를 사용하여 모집단에 대한 가설을 확인하는 통계적 방법입니다. 앞서 확인했던 z-score, 확률, 표본 평균의 분포등을 결합하여 사용되는 통계적 절차로 크게 4가지 논리로 진행됩니다. 1. 모집단에 대한 가설을 세움(모수에 대한 가설)ex. 매년 설 연휴에 한국 성인들은  3kg의 몸무게가 증가한다. 2. 가설을 사용하여 표본이 어떤 특성을 나타낼지 예측ex. 모집단에서 평균적인 몸무게 증가가 3kg라고 예상했으니 ..
오늘은 저번 확률에 이어서 표본 평균의 분포를 알아보려고 합니다. 표본도 알고 평균도 알고 표본의 평균도 아는데 통계에 있어서 왜 표본 평균의 분포가 중요한 것일까요?? 우리는 표본을 통해 모집단을 일반화 합니다. 하지만 의문점은 과연 표본이 모집단을 대표할만한 대표성을 가지고 있느냐가 문제겠지요. 이에 따라서 우리는 어떠한 가정이 필요합니다. 이러한 가정들을 알기 위해서 표본 평균의 분포를 알아보는 것입니다.  살펴볼 가정들이 존재하기 때문에 우리가 모은 표본을 통해 연구가 가능한 것입니다. 이러한 가정이 없다면 '표본이 결국은 모집단이랑 다른거 아니에요?'라는 질문에 답변할 수 없게 됩니다. 실제로 많은 연구들에서 재현성의 문제가 있다고 연구 결과도 있는 만큼 표본의 중요성은 여러번 강조됩니다.  ?..
저번 중심경향값과 변산성에 이어 z-score를 살펴보려고 합니다.  📌 z 점수 z 점수는 원점수(: 직접적으로 측정된 원래 점수)를 더 의미있고 더 많은 정보를 포함한 새로운 점수로 변환한 값입니다.중요 포인트는 더 많은 정보를 포함했다는 점입니다. 그렇다면 어떠한 정보를 포함하고 있는가?? z 점수는 원점수에서 평균과 표준편차를 이용하여 표준화화기 때문에, 분포내에 원점수의 위치를 확인할 수 있게 됩니다. 즉, 1. z 점수는 원점수와 다르게 분포내에서 해당 점수가 어디에 위치하는지를 내포하고 있는 것입니다. 또한, 2. 표준화 방법으로 다른 분포들을 서로 직접적으로 비교할 수 있도록 해주기도 합니다. - 공식$$z = \dfrac{X- \mu}{\sigma}$$ - z 점수를 원점수로 변환하는 ..
짦은 기초 통계 2에서 중심 경향값에 대해 살펴보았습니다.중심 경향값과 함께 때놓을 수 없는 것이 바로 분산입니다. 사실 거의 대부분의 통계 모델들이 이 중심 경향값과 변산성으로 이루어져 있습니다. 때문에, 잘 알아 두어야 합니다.  📌 변산성(Variability)  변산성은 분포에서 점수들 간의 차이에 대한 양적 측정값입니다. 아주 극히 쉽게 표현하자면, '데이터들이 퍼져 있는 정도'라고 말할 수 있습니다. 이 변산성은 아래 두 가지 특성이 있습니다.1. 점수들의 분포를 알려줌2. 한 점수가 전체 점수 분포를 얼마나 잘 대표하는지를 알려줌  사실 어떻게 보면 중심 경향값보다 중요한 부분이 이 변산성이 아닐 까 쉽습니다. 왜냐하면 분산이 같고, 평균이 다른 경우보다 분산이 다르고 평균이 같은 경우에 ..
중심 경향값에 대한 내용입니다. 내용 자체는 단순 합니다. 평균은 통계를 하지 않아도 많이들 알고 계시고, 분산과 표준편차 또한 많이들 알고 계실 겁니다. 하지만, 이를 왜 알아야하는 가에 대해 알아보려고 합니다. 📌 중심 경향값(central tendency) : 집단을 대표하는 표현 중심 경향값은 분포의 중심을 정의하는 단일 점수를 결정하는 통계 수단입니다.전체 집단에서 가장 일반적이거나 가장 대표적인 단일 점수를 찾기 위해 사용합니다. 쉽게 말하면 내가 가진 데이터 분포를 하나의 수로 표현하기 위한 방법을 중심 경향값이라고 하는 것입니다.  1. 평균(mean)  우리가 잘 알고있는 평균입니다. 보통은 산술 평균을 사용합니다. 분포의 모든 값들을 더한 후 사례의 수로 나누어 계산합니다. - 모집단..
📌 통계(Statistics) 용어 정리 먼저, 용어를 정리하고 가야합니다. 해당 용어의 의미를 헷갈리실 경우 후의 내용을 이해하는 데 어려움이 있을 수 있습니다. 간단하고 알아야할 용어들만 나열해봅시다. - 모집단(population) : 특정 연구에서 연구 대상이 되는 모든 개인의 집합 (예 : 'A' 기업의 전체 소비자) - 모수(parameter) : 모집단을 설명하는 값, 모집단에 해당하는 개인을 측정해 얻은 값 (예 : 'A'기업의 전체 소비자 만족도 점수) - 표본(sample) : 모집단에서 선택된 개인 집합. 모집단을 대표하기 위한 것 (예 : 'A' 기업의 소비자 남녀 각각 50명) - 통계량(statistic) : 표본을 설명하는 값. 표본에 해당하는 개인을 측정해 얻은 값 (예 :..
앞서 포스팅에서 확률과 가능도에 대해 알아보았습니다.마지막 글을 보시면 의미심자한 말이있죠?  가능도(Likelihood) vs 확률(Probability)통계를 공부한다면 확률은 많이 들어보셨을 겁니다. 더욱 깊이 들어가 ML과 같은 여러 알고리즘을 접하면 자연스레 가능도에 대해서도 듣게 되죠. 확률과 가능도. 매우 비슷해 보이지만 해당 의datanovice.tistory.com 오늘은 이렇게 가능도를 최대화 하는 방향으로 파라미터를 추정하는 방법에 대해 알아볼 것입니다. 이를 최대 우도 추정 혹은 최대 가능도 추정법이라고 합니다.짧게 MLE(Maximum Likelihood Estimation)라고 하겠습니다.  📌 MLE 일반적으로 통계 모델의 매개변수를 추정하..
통계를 공부한다면 확률은 많이 들어보셨을 겁니다. 더욱 깊이 들어가 ML과 같은 여러 알고리즘을 접하면 자연스레 가능도에 대해서도 듣게 되죠. 확률과 가능도. 매우 비슷해 보이지만 해당 의미와 방법에 차이가 있습니다. 한번 확인해 봅시다. 📌 확률(Probability) 아주 친숙한 확률입니다. 통계나 수학을 공부하지 않아도, 일반 사람들이라면 확률에 대해 많이 이야기 합니다. 확률은 특정 사건이 발생할 가능성을 수치적으로 표현한 것으로 0과 1사이의 값을 가지게 됩니다. 여기서 0은 사건이 절대 발생하지 않음을 나타내고, 1은 사건이 반드시 발생함을 의미합니다. 또한, 확률은 일반적으로 사전에 알려진 정보 혹은 긴 기간의 관찰 결과에 기반하여 결정됩니다. 동전 던지기를 예로 들어봅시다. 앞면과 뒷면이 ..
📌 초기하 분포(hypergeometric distribution) 초기하 분포란 비복원추출에서 모집단 N 중에 n번 추출했을 때, 원하는 것이 k번 나올 확률에 대한 분포입니다. 이렇게 보면 굉장히 어려워보이는데 별거 없습니다. 이항분포에서 복원추출이 아닌 비복원추출을 하는 것이라고 간단히 이해하고 있으면 됩니다. 자세히 한번 봅시다! 예를 들어 상자 안에 공 7개가 있고, 빨간 공 4개와 파란공 3개가 있다고 해봅시다. 우리는 총 4개의 공을 뽑아서 빨간 공 3개를 뽑으려고 합니다. 모집단인 N = 7이고, n = 4번 추출하며, 원하는 빨간 공이 k = 3번 나올 확률에 대한 분포를 보는 것입니다. 이 때 초기하확률변수 X = 3이 되는겁니다. ➕ 초기하 분포의 확률 질량 함수 모집단 N 총 시행 ..
Data_novice
'📊 Statistics for Basic' 카테고리의 글 목록