통계는 기업, 정부, 제조업 뿐만 아니라 물리학, 인문학, 사회과학등 사실상 모든 분야에서 사용되는 학문 분야입니다. 통계학은 미적분학과 선형대수학을 포함한 수학적 도구를 확률이론에 적용하면서 발전된 응용 수학의 한 분야라고 할 수 있습니다.
실제로 통계학은 소수의 객체 데이터 또는 표본의 특성을 연구함으로서 대규모의 개체 또는 집단의 속성을 파악하고자 하는 개념입니다. 전체 모집단에 대한 포괄적인 데이터를 수집하는 것은 매우 비용이 많이 들거나 어렵고, 불가능한 경우가 많기 때문에 수집이 가능한 수준의 데이터를 관찰하고, 그 데이터를 통해 전체 데이터를 대변할 수 있는 지를 판단하게 됩니다.
통계학자는 이러한 통계를 진행하기 위해 표본의 개인 또는요소에 대한 데이터를 측정하고, 수집한 이후 데이터를 분석하여 기술 통계를 생성하고, 표본데이터를 통해 관찰된 특성들을 사용하여 집단 또는 전체특성에 대해 추론을 진행합니다.
기술 통계와 추론 통계
통계의 두 가지 주요 영역은 표본 및 모집단의 데이터 속성을 설명하는 기술 통계와 이러한 속성을 사용하여 가설을 테스트하고 결론을 동출하는 추론 통계로 구분합니다.
기술 통계
기술 통계는 주로 샘플 데이터의 경향성, 변동성 및 분포에 중점을 두고 표본 또는 모집단의 전형적 특성을 추정하는 등의 수집한 데이터를 요약하고 정리하는 통계 기법입니다. 다시 말하면 기술통계는 표본 자체의 속성을 파악하는 데 주안점을 두는 데이터 분석통계로, 주로 표본에 속한 대상자들의 인구통계학적 속성과 함께 연구문제나 연구가설에 포함된 변수들의 분포와 특성을 살펴봅니다.
예) 평균, 중위수, 모드, 범위, 분산, 표준편차 등의 수치적 요약
이러한 수치들은 데이터의 중심 경향과 산포도를 나타내며, 산점도, 막대그래프, 히스토그램, 원그래프 등의 그래프적 요약이 가능합니다.
추론 통계
데이터를 바탕으로 모집단의 특성이나 관계를 추정하고 검증하는 방법으로, 표본집단의 통계량을 토대로 모집단의 특성을 추론하는 통계 기법을 말합니다. 추론통계는 모집단에 대한 추론을 하기 위해서 모집단으로부터 추출한 샘플을 사용하며, 전체 모집단의 모든 요소들을 조사할 수 없을 때 유용하게 이용합니다.
예) 추정, 가설 검정
추정과 가설검정
1. 추정 : 표본을 통해 모집단의 평균이나 비율과 같은 모수를 추측하는 과정.
점추정 : 모수를 하나의 값으로 추측하는 것
구간추정 : 모수가 포함될 것이라고 확신할 수 있는 구간을 추측하는 것
2. 가설검정은 모집단에 대한 어떤 주장이 올바른지 그렇지 않은지 판정하는 과정.
귀무가설 : 기본적으로 받아들여지는 가설
대립가설 : 입증하고자 하는 가설
추론 통계에서 중요한 것은 추정 또는 가설 검정을 통해 모집단의 특성에 대한 결론을 도출하고 그 결론의 신뢰성을 얼마나 확신할 수 있는가입니다. 사람은 누구나 잘못된 추정을 하거나 가설을 통해 결론을 도출하였으나 가설 자체가 잘못되었거나 거짓된 가설이 결과로 도출될 수도 있기 때문에 검정과정을 통해 잘못된 판단의 가능성을 최대한 줄이는 것이 중요합니다.
기준 | 기술통계 | 추론통계 |
의미 | 데이터의 간결한 요약 정보를 제공하는 통계 | 데이터를 바탕으로 모집단의 특성을 추정하고 검증하는 통계 |
목적 | 표본 자체의 속성을 파악하는 것 | 모집단에 대한 추론을 하는 것 |
결과 형식 | 도표, 그래프, 테이블 등 | 확률, 신뢰 구간, 가설 검정 등 |
사용 방법 | 데이터를 정리하고 요약하고 시각화하는 것 | 데이터를 비교하고 테스트하고 예측하는 것 |
예시 | 평균, 중위수, 모드, 분산, 표준편차 등 | 회귀 분석, 카이 제곱 검정, t-검정 등 |
통계 데이터의 이해
통계는 변수에 의해 이루어집니다.
변수
변수란 각 측정단위에 대해서 측정하고자 하는 특성으로, 항목의 특성이나 속성을 표시하는 셀수 있는 데이터의 집합을 의미하며, 변수는 값이 특정지어지지 않아 임의의 값을 가질 수 있는 문자의 형태를 갖고 있습니다.
예를 들어 사람의 키, 학생의 성적 , 자동차 색상과 같은 것이 변수입니다.
변수의 종류
질적 변수
비수치적인 특정한 속성
변수의 값이 자료를 특정 카테고리에 포함시키는 변수.
예) 성별, 혈액형, 종교 등
질적변수는 수량적인 의미를 가지지 않으며, 분류나 구분만 하는 역할을 합니다. 질적변수는 서열이 있는 변수와 서열이 없는 변수로 나눌 수 있는데, 서열이 있는 변수는 학력과 같이 순위를 매길 수 있는 변수, 서열이 없는 변수는 성별이나 인종과 같이 순위가 없는 변수를 의미합니다.
양적 변수
수치적으로 연구되는 특성
양적변수는 변수의 값이 수로 나타낼 수 있는 변수.
예) 키, 몸무게, 소득 등
양적변수는 수량적인 의미를 가지며, 산술적인 연산이 가능하며, 연속변수와 이산변수로 나눌 수 있습니다.
연속변수 : 주어진 범위 내에서 어떤 값도 될 수 있는 변수, 예) 키
이산변수 : 특정한 값을 취할 수 있는 변수 예) 주사위 눈
통계의 측정
통계의 측정이란 어떤 대상의 속성에 숫자를 부여하는 과정입니다. 예를 들어, 사람의 키나 몸무게, 자동차의 속도나 연비, 학생의 성적이나 출석률 등이 통계의 측정 대상이 될 수 있습니다. 통계의 측정은 데이터를 수집하고 분석하고 해석하는 데 필요한 첫 단계입니다.
통계의 측정은 측정 수준에 따라 4가지로 구분할 수 있습니다. 측정 수준이란 측정된 데이터가 가지는 정보량과 연산 가능성을 나타내는 척도입니다. 측정 수준에 따라 적절한 통계적 방법을 선택하고 결과를 해석해야 합니다.
측정 수준은 다음과 같습니다.
명목척도
변수의 값이 서로 다른 범주로 구분하는 정보만 갖는 척도입니다. 예를 들어, 성별, 혈액형, 국적 등이 명목척도의 예입니다. 명목척도는 숫자로 바꿔도 그 값이 크고 작음을 나타내는 것이 아니라 단순히 분류만 하는 역할을 합니다.
순서척도
변수의 값이 서로 다른 범주로 구분할 수 있는 구별성에 대한 정보와 측정치 간에 대소관계가 성립되어 서열적 정보를 갖는 척도입니다. 예를 들어, 학력, 선호도, 신용등급 등이 순서척도의 예입니다. 순서척도는 서열에 관한 정보를 담고 있지만, 서열 간의 간격이 일정하지 않기 때문에 연산은 할 수 없습니다.
등간척도
변수의 값이 서로 다른 범주로 구분할 수 있는 구별성과 서열성에 대한 정보와 함께 구간이나 구간 사이의 간격이 의미가 있는 자료입니다. 예를 들어, 온도, 지수, 시험점수 등이 등간척도의 예입니다. 등간척도는 구간 간의 간격이 일정하기 때문에 덧셈과 뺄셈은 할 수 있지만, 곱셈과 나눗셈은 할 수 없습니다.
비율척도
변수의 값이 서로 다른 범주로 구분할 수 있는 구별성과 서열성과 등간성에 대한 정보와 함께 절대영점이 존재하여 비율성에 대한 정보를 갖는 척도입니다. 예를 들어, 키, 몸무게, 시간, 물건 개수 등이 비율척도의 예입니다. 비율척도는 절대영점이 존재하기 때문에 모든 사칙연산이 가능합니다.
통계 표본 추출 기법
통계표본 추출기법이란 모집단에서 일부 데이터를 선택하는 방법으로, 크게 확률 표본추출과 비확률 표본추출로 나눌 수 있습니다.
확률 표본추출
모집단의 모든 단위가 표본에 선택될 확률을 알 수 있는 방법으로, 표본의 대표성과 정확성이 높으며, 통계적 추론이 가능합니다.
- 단순임의 추출: 모집단의 모든 단위가 동일한 확률로 선택될 수 있는 방법.
- 층화추출: 모집단을 동질적인 여러 층으로 나눈 후, 각 층에서 단순임의 추출을 하는 방법.
- 계통추출: 모집단을 일정한 간격으로 나눈 후, 무작위로 하나의 시작점을 정하고 그 이후 매 간격마다 하나씩 선택하는 방법.
- 집락추출: 모집단을 인접한 기본단위들로 구성된 집락으로 나눈 후, 무작위로 몇 개의 집락을 선택하고 그 안의 모든 단위를 조사하는 방법.
비확률 표본추출
모집단의 모든 단위가 표본에 선택될 확률을 알 수 없는 방법으로, 표본의 대표성과 정확성이 낮으며, 통계적 추론이 어렵습니다.
- 편의추출: 조사자나 면접원이 편리한 장소와 시간에 접촉하기 쉬운 대상들을 표본으로 선택하는 방법.
- 할당추출: 인구통계적 특성이나 거주지 등의 측면에서 사전에 정해진 비율에 따라 모집단 구성원들을 할당하는 방법.
- 판단추출: 조사자가 조사목적에 적합하다고 판단되는 구성원들을 표본으로 선택하는 방법.
- 눈덩이추출: 조사자가 적절하다고 판단되는 조사대상자들을 선정한 다음 그들로 하여금 또 다른 조사대상자들을 추천하도록 하는 방법.
통계의 용도
통계학은 불확실한 현상을 대상으로 데이터를 수집하고 분석하여 의사결정을 돕는 학문으로, 과학연구와, 사회조사, 그리고 산업 및 비즈니스를 통해 사용하며, 정보에 입각한 결정을 내리는 데 사용합니다.
- 과학 연구: 실험의 설계, 데이터의 수집, 분석, 해석, 검증 등 과학적 방법론의 핵심적인 부분으로, 물리학, 화학, 생물학, 의학, 심리학 등 다양한 과학 분야에서 연구의 질을 높이고 신뢰성을 확보하는 이용합니다.
- 사회 조사: 인구, 경제, 교육, 건강, 범죄 등 사회적 현상을 조사하고 분석하는 데 사용하는데, 인구 센서스, 여론조사, 시장조사 등 다양한 사회 조사의 방법과 결과를 제공하며, 사회 문제의 원인과 해결책을 찾고 정책을 수립하는 데 기여합니다.
- 산업 및 비즈니스: 금융, 투자 산업 및 비즈니스 분야에서 품질 관리, 공정 제어, 생산 계획, 재고 관리, 마케팅 전략, 금융 분석 등 다양한 의사결정을 지원하며, 산업 및 비즈니스의 경쟁력을 강화하고 효율성을 높이는 데 사용됩니다.
'논문, 통계학 공부' 카테고리의 다른 글
통계 초보자의 상관관계분석이해하기 (2) | 2023.12.12 |
---|---|
신뢰수준, 유의수준, 유의확률 (1) | 2023.10.29 |
모집단(population)과 표본(Sample) 그리고 표본 추출(sampling) (3) | 2023.10.28 |
논문과 변수 유형 (3) | 2023.10.28 |
통계 분석의 5단계 (3) | 2023.10.24 |