통계학을 공부하거나 방송에서 설문조사 또는 통계를 이야기할 때 자주 듣게 되는 용어 중의 하나가 모집단과 표본이라는 용어입니다. 간단히 이야기 하면 모집단(population)이란 연구의 대상이 되는 전체 집단을 말하고, 표본(sample)이란 모집단에서 일정한 기준에 따라 선택된 일부분을 의미한다고 이야기 할수 있습니다. 예를 들어, 한국의 모든 성인 남성의 키를 조사하고 싶다면, 모집단은 한국의 모든 성인 남성이 되고, 한국의 성인 남성 1000명을 무작위로 뽑아서 키를 측정한다면, 표본은 1000명의 성인 남성이 됩니다.
모집단과 표본(Sample)의 차이점
- 모집단은 연구의 대상이 되는 전체 집단이고, 표본은 모집단에서 선택된 일부분.
- 모집단은 보통 무한하거나 매우 크기 때문에 모든 요소를 조사하기 어렵고, 표본은 보통 유한하고 작기 때문에 조사하기 용이.
- 모집단은 고정된 값이 아니라 변할 수 있고, 표본은 선택된 시점에서 고정된 값.
- 모집단은 모수(parameter)라는 숫자로 요약되고, 표본은 통계량(statistic)이라는 숫자로 요약.
모집단에서 데이터를 수집하는 방법
어떤 데이터를 수집하던지 전체 모집단을 대상으로 데이터를 수집하는 것이 가장 좋은 데이터 수집 방법이라고 할 수 있습니다. 더 크고 더 분산된 모집단의 경우 모든 대상으로부터 데이터를 수집하는 것이 어렵거나 불가능한 경우가 많기 때문에 표본 추출을 사용하여 모집단에 대해 추론을 하는 방법을 취하기도 합니다.
모집단 데이터를 수집하는 방법은 크게 전수조사와 표조사 두 가지로 나눕니다.
전수조사(census)
모집단의 모든 요소를 조사하는 방법으로, 대한민국에서 진행하는 대표적인 전수조사는 인구주택총조사입니다. 전수조사는 가장 정확한 정보를 얻을 수 있지만, 비용과 시간이 많이 들고, 실시하기 어려운 경우가 많습니다.
인구주택총조사
통계법 제5조의3, 통계법 시행령 제2조의 2에 따라 우리나라의 모든 사람과 주택을 조사하여 정책수립 및 평가의 기초자료를 제공하고, 각종 인구 및 가구 대상 조사의 표본 추출틀 제공, 대학·연구기관·민간 기업체 등 각종 학술연구와 경영 기초 자료로 활용하고자 하는 목적으로 1925년 인구 총조사에서부터 실시된 통계조사로 1960년부터 주택 총조사를 포함하여 매 5년마다 실시하고 있습니다. 대한민국 정부 수립 이후 최조의 총조사는 1949년에 실시되었습니다.
2015년 이후부터는 등록센서스 방식으로 전수항목을 매년 공표하고 있습니다 .(표본 항목은 5년 주기 현장 조사)
조사 대상은 기준 시점 대한민국 영토내에 상주하는 모든 내, 외국인과 이들이 살고 있는 거처이며, 15개 기관 27종의 행정 자료를 활용한 등록 센서스 방식으로 진행합니다.
표본조사(sampling)
모집단에서 일부분을 추출하여 조사하는 방법으로, 여론조사나 시장조사가 대표적입니다. 표본조사는 비용과 시간을 절약할 수 있지만, 표본오차(sampling error)가 발생할 수 있습니다.
표본오차란
모집단에서 무작위로 추출한 표본의 통계량이 모집단의 모수와 차이가 나는 것을 말합니다. 예를 들어, 한국의 성인 남성의 평균 키가 170cm라고 할 때, 100명의 성인 남성을 무작위로 뽑아서 키를 측정하면, 표본의 평균 키는 170cm와 정확히 일치하지 않을 것입니다. 이때, 표본의 평균 키와 모집단의 평균 키 사이의 차이를 표본오차라고 합니다.
표본오차는 무작위로 발생하는 오차이므로, 표본의 크기를 크게 하거나, 여러 번 반복해서 샘플링하면 줄일 수 있습니다. 표본오차는 통계적으로 분석하고 추정할 수 있으며, 보통 표준오차(standard error)라는 단위로 표현합니다. 표준오차는 표본의 통계량이 모집단의 모수를 얼마나 잘 추정하는지를 나타내는 척도입니다.
표본의 선택
표본조사에서는 표본을 어떻게 선택하느냐가 결과의 신뢰성을 담보하기 때문에 매우 중요합니다. 표본은 모집단을 대표할 수 있어야 하고, 편향이 없어야 합니다. 이러한 표본을 선택하는 방법에는 확률적인 방법과 비확률적인 방법이 있습니다.
확률적인 방법은 모집단의 각 요소가 표본에 선택될 확률이 알려져 있고, 무작위로 선택하는 방법.
예) 단순 무작위 추출법, 계통 추출법, 층화 추출법, 군집 추출법 등
비확률적인 방법은 모집단의 각 요소가 표본에 선택될 확률이 알려져 있지 않고, 연구자의 판단이나 편의에 따라 선택하는 방법.
예) 편의 추출법, 판단 추출법, 할당 추출법, 눈덩이 추출법 등
방법 | 장점 | 단점 | 적용 |
단순 무작위 추출법 | 표본의 대표성을 보장할 수 있고, 통계적 분석이 용이하다. | 모집단의 명단이 필요하고, 비용과 시간이 많이 든다. | 모집단의 크기가 작고, 명단이 쉽게 구할 수 있을 때 |
계통 추출법 | 단순 무작위 추출법보다 편리하고 빠르게 표본을 추출할 수 있다. | 모집단의 순서에 따라 편향이 발생할 수 있다. | 모집단의 순서가 무작위일 때 |
층화 추출법 | 모집단의 다양성을 반영하고, 표본오차를 줄일 수 있다. | 모집단을 적절한 층으로 나누는 것이 어렵고, 비용과 시간이 많이 든다. | 모집단에 이질적인 층이 존재하고, 각 층의 크기와 변동성이 알려져 있을 때 |
군집 추출법 | 조사의 범위를 축소하고, 비용과 시간을 절약할 수 있다. | 표본의 대표성을 보장하기 어렵고, 표본오차가 커질 수 있다. | 모집단이 넓은 지역에 분포하고, 각 군집이 비슷한 특성을 가질 때 |
편의 추출법 | 접근하기 쉽고, 비용과 시간이 적게 든다. | 표본의 대표성과 편향을 검증하기 어렵고, 통계적 분석이 제한적이다. | 탐색적이고 예비적인 연구에 적합하고, 모집단의 특성과 변동성이 알려져 있지 않을 때 |
판단 추출법 | 연구자의 전문지식과 경험을 활용할 수 있다. | 표본의 대표성과 편향을 검증하기 어렵고, 통계적 분석이 제한적이다. | 연구의 목적이 특정한 경우나 모집단의 특성과 변동성이 알려져 있지 않을 때 |
할당 추출법 | 모집단의 구조와 비율을 반영할 수 있다. | 모집단의 구조와 비율을 정확하게 알기 어렵고, 통계적 분석이 제한적이다. | 모집단에 이질적인 층이 존재하고, 각 층의 비율이 알려져 있을 때 |
눈덩이 추출법 | 접근하기 어려운 모집단에서 표본을 확보할 수 있다. | 표본의 대표성과 편향을 검증하기 어렵고, 통계적 분석이 제한적이다. | 모집단의 크기와 범위가 알려져 있지 않고, 접근하기 어려울 때 |
표본 편향(sampling bias)
모집단에서 비무작위로 추출한 표본의 통계량이 모집단의 모수와 차이가 나는 것.
예) 한국의 성인 남성의 평균 키를 조사하기 위해, 서울에서만 성인 남성을 뽑아서 키를 측정하면, 표본의 평균 키가 모집단의 평균 키와 다를 가능성이 높습니다. 이때, 표본의 평균 키와 모집단의 평균 키 사이의 차이를 표 편향이라고 합니다.
표본 편향은 비무작위로 발생하는 오차이므로, 표본을 선택하는 방법에 따라 발생하거나 줄일 수 있습니다. 표본 편향은 통계적으로 분석하고 추정하기 어렵고, 신뢰도를 떨어뜨리는 요인이기 때문에 표본편향을 방지하기 위해서는 확률적인 방법으로 샘플링을 하거나, 모집단의 구조와 비율을 반영하는 방법으로 표본을 추출해야 합니다.
모집단 모수와 표본 통계량
모수(parameter)
모집단의 특성을 나타내는 숫자. 예를 들어, 모평균(μ), 모분산(σ^2), 모비율(p) 등이 있습니다. 모수는 보통 알기 어려운 값이기 때문에, 표본을 이용하여 추정하거나 검정하는 것이 통계학의 주요 목적 중 하나입니다.
통계량(statistic)
샘플의 특성을 나타내는 숫자. 예를 들어, 표본평균(x̅), 표본분산(s^2), 표본비율(p̂) 등이 통계량의 예입니다. 통계량은 샘플링에 따라 변할 수 있는 확률변수(random variable)이며, 모수를 추정하거나 검정하는 데 사용됩니다.
모집단 모수와 표본 통계량의 관계
- 모집단 모수는 고정된 값이고, 표본 통계량은 변할 수 있는 값입니다.
- 모집단 모수는 알기 어렵고, 표본 통계량은 알기 쉽습니다.
- 모집단 모수는 표본 통계량으로부터 추정하거나 검정할 수 있습니다.
- 모집단 모수와 표본 통계량은 샘플링 분포(sampling distribution)라는 개념으로 연결됩니다.
연습 문제
- 다음 중 단순 무작위 추출법으로 샘플링한 것이 아닌 것은?
- (a) 복권 당첨자를 뽑는다.
- (b) 전화번호부에서 100명의 이름을 무작위로 고른다.
- © 학교에서 10명의 학생을 무작위로 고른다.
- (d) 인터넷 설문조사에 참여한 사람들을 분석한다.
정답 : (d
- 다음 중 층화 추출법으로 샘플링한 것은?
- (a) 학생들을 학년별로 나누고, 각 학년에서 무작위로 표본을 뽑는다.
- (b) 사람들을 성별로 나누고, 각 성별에서 무작위로 표본을 뽑는다.
- © 사람들을 지역별로 나누고, 각 지역에서 무작위로 표본을 뽑는다.
- (d) 모두 층화 추출법으로 샘플링한 것이다.
정답 : (d)
- 다음 중 군집 추출법으로 샘플링한 것은?
- (a) 학생들을 반별로 나누고, 몇 개의 반을 무작위로 선택하여 조사한다.
- (b) 사람들을 직업별로 나누고, 몇 개의 직업을 무작위로 선택하여 조사한다.
- © 사람들을 소득별로 나누고, 몇 개의 소득 구간을 무작위로 선택하여 조사한다.
- (d) 모두 군집 추출법으로 샘플링한 것이다.
정답 : (d)
- 다음 중 모수가 아닌 것은?
- (a) 모평균
- (b) 표본평균
- © 모분산
- (d) 모비율
정답 : (b)
- 다음 중 통계량이 아닌 것은?
- (a) 표본평균
- (b) 표본분산
- © 표본비율
- (d) 모비율
정답 : (d)
'논문, 통계학 공부' 카테고리의 다른 글
통계 초보자의 상관관계분석이해하기 (2) | 2023.12.12 |
---|---|
신뢰수준, 유의수준, 유의확률 (1) | 2023.10.29 |
논문과 변수 유형 (3) | 2023.10.28 |
통계 분석의 5단계 (3) | 2023.10.24 |
통계란 무엇인가? (1) | 2023.10.24 |