회귀분석
회귀분석(regression analysis)은 두 변수 간의 관계를 수학적으로 모델링하는 방법입니다.
예를 들어, 교육과 소득의 관계를 회귀분석을 통해 다음과 같이 표현할 수 있습니다.
는 독립변수 (x)의 주어진 값에 대한 종속 변수로 소득
는 교육, 는 (x)가 0일때 y의 예측값인 절편,
기울기),
는 추정치의 오차 또는 회귀 계수의 추정치에 변동이 얼마나 있는 지를 나타내는 오차항입니다.
이 모델은 교육이 소득에 얼마나 영향을 미치는지를 나타내는데, 의 값이 크면 클수록 교육이 소득에 더 큰 영향을 준다는 것을 의미합니다. 회귀분석을 통해 인과관계를 증명하려면, 다음 두 가지 가정을 만족해야 합니다.
- 오차항 는 교육 와 상관관계가 없다. 즉, 교육과 소득 외에 다른 요인이 소득에 영향을 주지 않는다.
- 교육 는 소득 에 영향을 준다. 즉, 교육이 소득의 원인이고, 소득이 교육의 결과이다.
이 두 가정이 만족된다면, 회귀분석을 통해 구한 기울기 은 교육이 소득에 미치는 인과적인 효과를 나타냅니다.
하지만, 이 두 가정이 만족되지 않는 경우가 많습니다.
예를 들어, 교육과 소득 외에도 지능, 성격, 가정환경 등 다른 요인이 소득에 영향을 줄 수 있습니다. 이러한 요인들은 오차항 에 포함되므로, 오차항 은 교육 와 상관관계가 있을 수 있습니다.이를 선택편향(selection bias)이라고 합니다.
또한, 교육 가 소득 에 영향을 줄 뿐만 아니라, 소득 가 교육 에도 영향을 줄 수 있습니다.
예를 들어, 소득이 높은 사람은 더 많은 교육을 받을 수 있습니다. 이를 역인과관계(reverse causality)이라고 합니다.
이러한 경우에는, 회귀분석을 통해 구한 기울기 은 교육이 소득에 미치는 인과적인 효과가 아니라, 단순히 두 변수 간의 상관관계를 나타냅니다. 즉, 회귀분석만으로는 인과관계를 증명할 수 없습니다.
이중차분법 (difference-in-differences)
이중차분법(difference-in-differences)은 두 그룹의 차이를 비교하기 전후의 차이를 비교하는 방법입니다. 예를 들어, 코로나19 백신의 효과를 검증하기 위해, 두 지역의 코로나19 감염률을 비교합니다. 한 지역은 백신을 접종하고, 다른 지역은 접종하지 않습니다. 그런데, 두 지역은 접종 여부 외에도 인구, 기후, 문화 등 다른 요인에 차이가 있을 수 있습니다. 이러한 차이는 코로나19 감염률에 영향을 줄 수 있습니다. 이를 편향(bias)이라고 합니다. 이중차분법은 이러한 편향을 제거하기 위해, 두 지역의 코로나19 감염률을 접종 전후로 나누고, 접종 후의 감염률에서 접종 전의 감염률을 빼는 방법입니다. 이렇게 하면, 접종 전후의 차이는 접종 여부에만 영향을 받고, 다른 요인은 상쇄되기 때문입니다. 이중차분법은 다음과 같은 공식으로 표현할 수 있습니다.
Δy=(yˉ1t−yˉ0t)−(yˉ1t−1−yˉ0t−1)
여기서 yˉ1t는 접종한 지역의 접종 후의 평균 감염률, yˉ0t는 접종하지 않은 지역의 접종 후의 평균 감염률, yˉ1t−1는 접종한 지역의 접종 전의 평균 감염률, yˉ0t−1는 접종하지 않은 지역의 접종 전의 평균 감염률입니다. Δy는 접종한 지역과 접종하지 않은 지역의 접종 전후의 감염률 차이의 차이입니다. 이 값이 음수라면, 접종한 지역의 감염률이 접종하지 않은 지역의 감염률보다 더 많이 감소했다는 것을 의미합니다. 즉, 백신이 코로나19 감염을 예방하는 인과관계가 있다고 할 수 있습니다. 이중차분법은 다음과 같은 장점이 있습니다.
- 두 그룹의 차이를 제거하기 위해 접종 전후의 차이를 비교하는 방법이므로, 랜덤화된 대조실험을 흉내낼 수 있습니다. 즉, 두 그룹은 접종 여부 외에는 다른 요인에 영향을 받지 않습니다.
- 접종 전후의 차이를 비교함으로써, 접종이 감염률에 미치는 영향을 정량적으로 측정할 수 있습니다. 즉, 접종이 감염률에 얼마나 기여하는지 알 수 있습니다.
하지만, 이중차분법은 다음과 같은 가정을 만족해야 합니다.
- 두 그룹은 접종 전후에 다른 요인에 영향을 받지 않는다. 즉, 접종 여부 외에는 감염률에 영향을 주는 다른 요인이 변하지 않는다.
- 두 그룹은 접종 전에는 감염률의 변화에 대해 동일하게 반응한다.
- 두 그룹은 접종 전에는 감염률의 변화에 대해 동일하게 반응한다. 즉, 접종 전에는 두 그룹의 감염률이 동일한 추세를 보인다. 이를 **공통 추세 가정(common trend assumption)**이라고 합니다.
도구변수법 (instrumental variable method)
도구변수법은 원인과 결과 사이에 인과적인 연결을 찾는 방법입니다. 예를 들어, 교육과 소득의 관계를 분석하기 위해, 교육과 소득 외에도 영향을 주는 다른 요인을 제거하고, 교육이 소득에만 영향을 주는 요인을 찾는 방법입니다. 이러한 요인을 **도구변수(instrumental variable)**이라고 합니다. 도구변수는 다음 두 가지 조건을 만족해야 합니다.
- 도구변수는 교육에 영향을 준다. 즉, 도구변수가 변하면 교육도 변한다.
- 도구변수는 소득에 영향을 주지 않는다. 즉, 도구변수가 변해도 소득은 변하지 않는다.
이 두 가지 조건이 만족된다면, 도구변수를 통해 교육이 소득에 미치는 인과적인 효과를 측정할 수 있습니다. 도구변수법은 다음과 같은 장점이 있습니다.
- 도구변수를 통해 교육과 소득 사이의 선택편향과 역인과관계를 제거할 수 있습니다. 즉, 도구변수는 교육과 소득 외에는 다른 요인에 영향을 받지 않습니다.
- 도구변수를 통해 교육이 소득에 미치는 영향을 정량적으로 측정할 수 있습니다. 즉, 교육이 소득에 얼마나 기여하는지 알 수 있습니다.
하지만, 도구변수법은 다음과 같은 어려움이 있습니다.
- 도구변수를 찾기가 쉽지 않습니다. 즉, 교육과 소득 외에는 영향을 주지 않고, 교육에만 영향을 주는 요인을 찾기가 어렵습니다.
- 도구변수가 만족해야 하는 조건을 검증하기가 쉽지 않습니다. 즉, 도구변수가 교육에 영향을 주고, 소득에 영향을 주지 않는다는 것을 증명하기가 어렵습니다.
이러한 어려움 때문에, 도구변수법은 신중하게 사용해야 합니다. 도구변수법에 대해서는 다음 장에서 자세히 설명하겠습니다.
2023.12.13 - [논문, 통계학 공부] - 통계 초보자의 인과관계 이해하기
'논문, 통계학 공부' 카테고리의 다른 글
통계 초보자의 인과관계 이해하기 (3) | 2023.12.13 |
---|---|
통계 초보자의 상관관계분석이해하기 (2) | 2023.12.12 |
신뢰수준, 유의수준, 유의확률 (1) | 2023.10.29 |
모집단(population)과 표본(Sample) 그리고 표본 추출(sampling) (3) | 2023.10.28 |
논문과 변수 유형 (3) | 2023.10.28 |