수식이 나오지 않는다면 새로고침(F5)을 해주세요
모바일은 수식이 나오지 않습니다.
📌 통계(Statistics) 용어 정리
먼저, 용어를 정리하고 가야합니다. 해당 용어의 의미를 헷갈리실 경우 후의 내용을 이해하는 데 어려움이 있을 수 있습니다. 간단하고 알아야할 용어들만 나열해봅시다.
- 모집단(population) : 특정 연구에서 연구 대상이 되는 모든 개인의 집합 (예 : 'A' 기업의 전체 소비자)
- 모수(parameter) : 모집단을 설명하는 값, 모집단에 해당하는 개인을 측정해 얻은 값 (예 : 'A'기업의 전체 소비자 만족도 점수)
- 표본(sample) : 모집단에서 선택된 개인 집합. 모집단을 대표하기 위한 것 (예 : 'A' 기업의 소비자 남녀 각각 50명)
- 통계량(statistic) : 표본을 설명하는 값. 표본에 해당하는 개인을 측정해 얻은 값 (예 : ''A) 기업의 소비자 남녀 각각 50명의 만족도 점수)
- 표집 오차(sampling error) : 표본 통계량과 해당 모집단의 모수 사이에 존재하는 자연적으로 발생하는 불일치 또는 오류 (예 : 'A' 기업의 전체 소비자 만족도 차이와 'A' 기업의 소비자 남녀 각각 50명의 만족도 점수의 우연한 차이)
✔︎ 이들이 왜 중요한가??
우리는 표본은 가지고 실험 및 연구를 진행하여 통계적 추론을 합니다. 이의 목적은 일반화에 있습니다. 즉, 우리가 뽑은 표본을 가지고 전체 모집단에 일반화 시키는 것입니다.
(예 : 'A' 기업의 프로모션에 대해 소비자 남녀 각각 50명의 만족도가 전과 비교하여 상승하였으니 전체 소비자들도 상승했을 것이다 등).
그러니까 우리는 사실 A 기업의 특정 남녀 50명에 관심이 있는 것이 아닙니다. A 기업의 소비자 남녀 전체에 대한 관심을 확인하기 위해 이 표본을 사용하는 것입니다. 이 차이를 알고 있지 않으면, 통계적으로 의미가 있어도 실제로 유용한 결과가 아니게 될 수 있습니다.
또한, 표집 오차라는 개념도 중요합니다. 알고 모르고의 차이는 통계 방법론을 바라볼 때 시야가 달라지게 되니까요. 현재 우리는 빅데이터 시대에 살고있습니다. 실제로 모수를 모두 측정할 수 있을지도 모릅니다. 현 상황일수록 빅데이터와 소수 데이터의 차이를 알아야 합니다. 단순히 양이 많으니까 좋은거 아니야? 라고 끝날 부분이 아니라는 것입니다.
자 그럼 한가지 의문이 생길 수 있습니다. 애초에 그럼 샘플은 안좋은거 아닌가??.. 라는 의문을 가지게 됩니다. 중요한건 표본이 지닌 대표성이라는 것입니다. 우리의 표본은 대표성을 지닌다는 가정이 있기 때문에 표본을 사용할 수 있습니다(후에 다룰 예정). 즉, 우리가 뽑은 이 표본은 대표성을 지닌 표본이기 때문에 모집단을 대표할 것이라고 가정하는 것입니다.
📌 기술 통계와 추론 통계
통계(Statistics) 는 데이터를 수집, 분석, 해석 표현 및 조직화하는 과학/기술 입니다. 이는 크게 두 가지로 나뉠 수 있습니다.
1. 기술 통계(Descriptive Statistics)
: 데이터의 요약과 묘사에 중점을 둡니다.
데이터 집합의 특성을 설명하기 위해 평균, 중앙값, 표준편차 등의 통계량을 사용하는 것입니다.
예를 들어, 남성 88명(37.6%), 여성 146명(62.4%), 연령 총 평균 23.2... 이런식으로 기술하고 설명하는 통계입니다.
2. 추론 통계(Inferential Statistics)
: 샘플 데이터를 사용하여 전체 모집단에 대한 결론을 도출하는 과정
표본으로부터 모집단의 특성을 추정하거나 가설 검정을 통해 통계적 결론을 내리는 것.
추론 통계를 예로 들면
영가설 : ㄱ 대학교와 ㄴ 대학교 학생 간의 학업 성취도는 차이가 없을 것이다.
대립가설 : ㄱ 대학교와 ㄴ 대학교 학생 간의 학업 성취도는 차이가 있을 것이다.
이를 t-test를 통해 통계적 유의성을 확인하는 등이 될 수 있습니다.
📌 이산 변수와 연속 변수
먼저 변수(variable)란? 여러 개인에 따라 값이 달라지거나 변하는 특성 또는 조건입니다. 쉽게 말하면 IQ 테스트, 행복도 등이라 보시면 됩니다.
- 이산 변수(discrete variable) : 점수 간에 분리된 개별 범주로 구성. 두 범주 사이에 어떤 값도 존재 X
이산 변수의 예로는 남녀, 10대/20대/30대 등이 있습니다. 즉, 어떤 범주로 나뉘어진 변수입니다.
- 연속 변수(continous variable) : 연속된 값으로 구성된 변수. 두 범주 사이에 무수한 값이 존재
이산 변수와 다르게 연속된 값으로 구성된 변수입니다. 키, 몸무게, 나이와 같은 예가 있습니다. 무게가 71kg, 70kg여도 이 두 값 사이에는 70.05kg, 70.94kg, 70.0000...과 같이 무수한 값이 존재 할 수 있습니다.
✔︎ 이 들을 구분하는 것이 왜 중요한가?
사실 아주 쉬운 개념입니다. 그래도 후에 통계를 깊이 들어간다면 중요한 개념입니다. 연속 변수이냐 이산 변수이냐에 따라 전통적인 통계 방법이든, AI기반 방법론이든 적용할 수 있는 통계 기법이 달라집니다.
특정한 경우 연속 변수를 이산 변수로 변환해 사용할 것이냐(나이를 10대/20대 등 범주로 바꾸는)와 같은 고민이 필요한 경우도 존재할 수 있습니다.
📌 측정 척도의 종류
- 명목 척도(nomial scale) : 데이터를 이름이나 범주로 분류하는 데 사용. 데이터 간 순서나 크기의 의미가 없다.
명목 척도는 말그대로 이름과 같습니다. 예를 들어 성별, 혈액형, 국가 등 정보가 많이 있지 않고 특히 데이터 간 순서나 크기 비교가 불가능합니다.
- 서열 척도(ordinal scale) : 데이터 간 서열을 나타냅니다. 하지만 값 간의 차이나 비율을 알 수는 없습니다.
서열 척도는 명목척도에서 좀 더 나가서 이름과 서열을 나타냅니다. 예를 들어 학점, 달리기 결과 등이 있습니다. 하지만 이들 간의 차이를 알 수는 없습니다.(A학점과 B학점간 어느정도의 차이가 있는가?)
- 등간 척도(interval scale) : 데이터 간 순서 + 값 간의 차이가 일정한 척도. 하지만 절대적인 0이 존재하지 않습니다.
등간 척도는 서열 척도에서 값 간의 차이도 알 수 있는 척도입니다. 예를 들어 섭씨 온도나 연도 등이 있습니다. 절대적인 0이 존재하지 않는다는 것은 '0 = 없다'라는 의미가 아니라는 것입니다.
온도가 0도 라는것이 온도가 없다는 뜻이 아닌 것과 같습니다.
- 비율 척도(ratio scale) : 데이터간 순서 + 간격도 나타내지만 절대적인 0이 존재합니다.
비율 척도는 등간 척도와 비슷하지만 절대적인 0이 존재합니다. 예를 들어 키, 무게, 수입과 같이 '0=없다'와 같은 의미를 지닙니다.
✔︎ 이 들을 구분하는 것이 왜 중요한가?
앞서 살펴본 이산 변수와 연속 변수와 같은 이유입니다. 분석의 목적에 따라서 척도의 종류가 중요한 역할을 할 수 있습니다. 실제로 통계의 깊은 공부를 하신다면 각 척도마다 다른 방법론이 개발되고 사용되시는 것을 알 수 있습니다.
📌 독립 변수와 종속 변수 + 가외변수
실험과 관련한 변수입니다. 아마 많이 들어보셨을 것으로 생각됩니다.
- 독립 변수(independent variable) : 연구자가 조작하는 변수. 실험 참가자나 대상에게 적용하는 처치 조건으로 구성됩니다.
'독립'인 이유는 다른 변수에 의해 영향을 받지 않기 때문입니다. 오로지 연구자의 의도에 의해서 주어지는 변수입니다.
- 종속 변수(dependent variable) : 처치의 효과를 평가하는 것으로 관찰되는 변수
'종속'인 이유는 독립 변수에 영향을 받아 종속되어 상태가 변화하기 때문입니다.
이들을 예로 보면 'A 커피와 B 커피 간 섭취에 따른 각성도 차이 확인'이 연구라면 독립 변수는 커피 브랜드, 종속 변수는 각성도가 될 수 있습니다.
- 가외 변수(extraneous variable) : 독립 변수와 종속 변수 간의 관계에 영향을 미칠 수 있는 변수. 연구자가 의도하지 않은 것.
+ 통제 변수(control variable) : 실험에서 일정하게 유지하거나 통제하는 변수. 가외 변수가 실험 결과에 미치지 않도록 하기 위함
앞선 커피 실험을 예로 들면 가외변수는 수면 시간, 나이가 될 수도 있습니다. 이들은 연구자가 의도하지 않았지만 종속 변수인 각성도에 영향을 미칠 수 있습니다. 만약 연구자가 참가자들의 수면시간을 모두 동일하게 만든다면 이 수면시간은 통제 변수가 되는 것입니다.
✔︎ 가외 변수를 어느정도 통제해야 할까?
연구 목적에 따라 다르겠지만, 우선 모든 변수를 통제할 수는 없습니다. 또한, 너무 과한 통제의 경우 결과의 일반화를 해할 수 있습니다. 독립 변수와 종속 변수 사이에 정말로 큰 영향을 미칠 수 있는 것을 통제하는 것이 좋습니다.
'📊 Statistics for Basic > 기초 통계' 카테고리의 다른 글
짧은 기초 통계 3 : 변산성, 불편 추정량(제약식과 자유도) (1) | 2024.06.16 |
---|---|
짧은 기초 통계 2 : 중심 경향값과 편포(+ 로그/제곱근 변환) (0) | 2024.06.15 |
최대 우도 추정법(최대 가능도 추정법)[Maximum Likelihood Estimation] (0) | 2024.04.23 |
가능도(Likelihood) vs 확률(Probability) (0) | 2024.04.23 |
확률 변수(이산과 연속) (0) | 2023.11.15 |