인과관계부터 공부해야했는데 상관관계부터 공부하긴 했습니다. 오늘은 인과관계에 대해 공부해보고자합니다. 통계학에서 매우 중요한 개념중의 하나인 인과관계.
인과관계란 무엇이고, 어떻게 분석할 수 있는지, 그리고 왜 상관관계와 혼동되어서는 안되는지에 대해 이야기 해보겠습니다.
인과관계의 정의와 예시
인과관계란 하나의 사건(원인)이 다른 사건(결과)을 일으킬 때 둘의 관계를 말합니다.
예를 들어, 비가 오면 땅이 젖는다면, 비가 오는 것이 땅이 젖는 것의 원인이고, 땅이 젖는 것이 비가 오는 것의 결과입니다. 이때, 비가 오는 것과 땅이 젖는 것은 인과관계에 있다고 합니다.
이처럼 인과관계는 일상생활에서 많이 볼 수 있는 현상입니다.
예를 들면
- 담배를 피우면 폐암에 걸릴 확률이 높아진다.
- 공부를 열심히 하면 성적이 좋아진다.
- 코로나19 백신을 맞으면 면역력이 향상된다.
- 설탕을 많이 먹으면 치아우식에 걸릴 확률이 높아진다.
- 운동을 하면 체중이 감소한다.
이러한 인과관계는 우리가 세상을 이해하고, 문제를 해결하고, 미래를 예측하는 데 도움이 된다고 이야기들 합니다.
예를 들어, 담배를 피우면 폐암에 걸릴 확률이 높아진다는 인과관계를 알고 있다면, 우리는 담배를 피우지 않거나 줄이는 방법을 찾게 될 겁니다. 물론 담배가 더 좋아서 그냥 피울수도 있죠..
다른 것을 예를 들어 보면 공부를 열심히 하면 성적이 좋아진다는 인과관계가 정답이라면 공부를 더 열심히 할 수 있습니다. (현실은 그렇지 않긴 하지만요.다양한 원인이 있을수 있으니가요.)
즉, 인과관계는 우리가 원하는 결과를 얻기 위해 어떤 원인을 조작하거나 제어할 수 있도록 알려줍니다.
인과관계의 증명과 방법
그렇다면, 어떻게 인과관계를 증명할 수 있을까요? 인과관계를 증명하려면 다음 세 가지 조건을 만족해야 합니다.
- 원인이 결과에 선행한다. 즉, 원인이 결과보다 먼저 발생한다.
- 결과가 원인에 의존한다. 즉, 원인이 없으면 결과도 없다.
- 다른 요인이 결과에 영향을 주지 않는다. 즉, 원인과 결과 사이에 다른 변수가 개입하지 않는다.
이 세 가지 조건을 만족하는 가장 확실한 방법은 랜덤화된 대조실험(randomized controlled experiment)을 하는 것입니다.
랜덤화된 대조실험
랜덤화된 대조실험이란, 연구 대상을 무작위로 두 그룹으로 나누고, 한 그룹에는 원인을 가정한 요인을 적용하고, 다른 그룹에는 적용하지 않는 방법입니다.
예를 들어, 코로나19 백신의 효과를 검증하기 위해, 사람들을 무작위로 두 그룹으로 나누고, 한 그룹에는 백신을 접종하고, 다른 그룹에는 접종하지 않습니다.
그리고, 두 그룹의 코로나19 감염률을 비교합니다.
이때, 백신을 접종한 그룹의 감염률이 접종하지 않은 그룹의 감염률보다 낮다면, 백신이 코로나19 감염을 예방하는 인과관계가 있다고 할 수 있습니다.
랜덤화된 대조실험은 다음과 같은 장점이 있습니다.
- 랜덤화로 인해 두 그룹은 평균적으로 동일하다고 가정할 수 있습니다. 즉, 두 그룹은 원인을 가정한 요인 외에는 다른 요인에 영향을 받지 않습니다.
- 원인을 가정한 요인을 적용한 그룹과 적용하지 않은 그룹을 비교함으로써, 원인이 결과에 미치는 영향을 정량적으로 측정할 수 있습니다. 즉, 원인이 결과에 얼마나 기여하는지 알 수 있습니다.
하지만, 랜덤화된 대조실험은 항상 가능한 것은 아닙니다.
예를 들어, 담배와 폐암의 인과관계를 증명하기 위해, 사람들을 무작위로 두 그룹으로 나누고, 한 그룹에는 담배를 피우게 하고, 다른 그룹에는 피우지 않게 하는 것은 윤리적으로 문제가 있음을 다들 아실겁니다.
또한, 인과관계를 증명하려는 원인과 결과가 너무 오래 걸리거나, 비용이 많이 들거나, 다른 요인에 영향을 받기 쉬운 경우에도 랜덤화된 대조실험을 하는 것은 어렵습니다.
예를 들어, 교육과 소득의 인과관계를 증명하기 위해, 사람들을 무작위로 두 그룹으로 나누고, 한 그룹에는 교육을 제공하고, 다른 그룹에는 제공하지 않는 것은 시간이 많이 걸리고, 비용이 많이 들고, 다른 요인에 영향을 받기 쉽습니다.
이러한 경우에는, 랜덤화된 대조실험 외에 다른 통계적 방법을 사용해야 합니다.
다른 통계적 방법에는 회귀분석, 이중차분법, 도구변수법 등이 있습니다. 이러한 방법들은 랜덤화된 대조실험을 흉내내거나, 원인과 결과 사이의 다른 요인을 제거하거나, 원인과 결과 사이의 인과적인 연결을 찾는 방법입니다.
상관관계와 인과관계의 차이는?
가끔 이런이야기를 들을때가 있습니다. 상관관계는 인과관계를 의미하지 않습니다. 상관과 인과는 관련된 두가지 개념이긴 하지만 같지는 않습니다. 상관관계는 변수간 통계적 연관성이 있음을 의미하지만, 인과관계는 한변수의 변화가 다른 변수의 변화를 가져온다는 것을 의미하기 때문입니다.
다시 이야기 해보면
상관관계는 변수 A와 B의 연관성에 대해서 설명하는 것입니다. A가 변화하면 B도 변화할수 있음을 알려주는 것입니다. 하지만 이러한 변화는 꼭 이루어 지는 것은 아니며 변화할 수도 있고, 변화 안할 수도 있습니다. 그리고 원하지 않았던 형태로 변화할수도 있습니다.
상관관계는 인과관계를 의미하지 않지만 인과관계는 항상 상관관계를 의미합니다.
상관관계가 인과관계가 아닌 이유는 두가지로 볼수 있습니다.
첫째, 상관관계는 두 변수나 사건이 함께 움직이는 경향을 나타내지만, 하나가 다른 하나를 발생시키는 원인이 되는 것은 아닙니다.즉, 상관관계는 원인과 결과의 관계를 보장하지 않습니다.
예를 들어, 아이스크림 판매량과 범죄율이 상관관계가 있다고 해서, 아이스크림 판매량이 범죄율을 증가시키거나 감소시키는 것은 아닙니다. 아이스크림 판매량과 범죄율은 온도와 같은 다른 요인에 의해 영향을 받기 때문입니다.
둘째, 상관관계는 시간적인 선후관계를 고려하지 않습니다. 즉, 상관관계는 두 변수나 사건이 어느 것이 먼저 발생했는지를 구분하지 않습니다. 인과관계는 원인이 결과에 선행한다는 조건을 만족해야 합니다.
예를 들어, 교육수준과 소득수준이 상관관계가 있다고 해서, 교육수준이 소득수준을 결정하는 것은 아닙니다. 교육수준과 소득수준은 부모의 교육수준, 지역의 경제상황, 개인의 능력과 성향 등 다른 요인에 의해 결정될 수 있습니다.
인과관계는 어떻게 분석해야할까요?
일상생활속에서 발생하는 다양한 사건들에 대해 인과관계를 이해한다는 것은 대단히 어려운 일입니다. 실제로 우리가 삶속에서 알게되는 다양한 사건들의 변수들을 다 알수는 없는 경우들이 많습니다. 그리고 서로 다른 변수들을 분리하고 어떠한 영향을 주고 있는지를 파악하는 것 또한 매우 어려운 일입니다.
그래서 인과관계를 분석하기위한 연구들은 통제된 실험으로 인과관계 분석을 진행하게 됩니다.
연구논문이나 연구 보고서 등에서는 이러한 형식을 가설이라는 형식을 통해 예측을 하고, 인과관계를 설정하여 연구를 진행합니다.
그래서 이러한 연구는 실험 설계를 통해 진행하게 됩니다.
실험 설계란 연구자가 원인이 되는 변수를 인위적으로 변화시키고, 그로인해 나타나는 결과를 측정하는 연구 방법으로, 실험 설계를 통해 인과관계를 증명하기 위해서는 다음과 같은 조건을 만족해야합니다.
실험 설계의 조건
- 독립변수의 조작: 연구의 초점이 되는 현상의 원인이 되는 변수를 실험자가 인위적으로 변화시키는 것입니다.
- 외생변수의 통제: 연구의 대상이 되는 현상과 관련된 독립변수와 종속변수 이외의 기타변수로서, 종속변수에 영향을 미칠 수 있는 변수를 제거하거나 조절하는 것입니다.
- 실험대상의 무작위화: 실험 결과를 모집단 전체로 일반화하기 위하여 실험연구의 대상자를 무작위로 선정하고, 실험집단과 통제집단으로 나누는 것입니다.
순수실험설계, 유사 실험설계, 원시실험설계
이 세 가지 조건을 모두 충족하는 실험설계를 순수실험설계라고 합니다. 순수실험설계는 인과관계를 증명하는 가장 확실한 방법입니다. 순수실험설계의 예로는 다음과 같은 유형이 있습니다.
- 통제집단 사전사후검사 설계: 연구 대상을 실험집단과 통제집단으로 구분해 무작위로 배치, 양 집단의 동질성을 확보하고, 양 집단을 사전검사함. 그리고 실험진단에만 독립변수의 조작, 즉 실험적 처리를 가한 뒤 사후검사를 실시하여 그 결과 간의 차이를 비교함.
- 통제집단 사후검사 설계: 통제집단 사전사후검사 설계에서 사전검사를 실시하지 않는 방법, 연구대상에 대한 무작위할당으로 이미 실험집단과 통제집단이 어느 정도 동질성을 가지고 있다 가정하고 사후검사만을 통해 집단 간 차이를 비교하는 설계유형.
- 솔로몬 4집단 설계: 통제집단 사전사후검사 설계와 통제집단 사후검사 설계를 조합하여 양자가 지닌 약점을 보완하기 위한 설계. 내적 타당도 저해요인을 통제할 수 있을 뿐만 아니라 사전검사와 실험적 처리와의 상호작용도 통제할 수 있어 내적 타당도와 외적 타당도를 다 높일 수 있는 설계이나 4개 집단 무작위 선정하는 어려움과 복잡성, 비용문제 등 현실적으로 이용하는 어려움이 많아 실험성이 뛰어나지만 실제 거의 사용되지 않음.
이 세 가지 조건 중 한두 가지가 결여된 실험설계를 유사실험설계라고 합니다. 유사실험설계는 인과관계를 증명하기 어렵습니다. 유사실험설계의 예로는 다음과 같은 유형이 있습니다.
- 시계열 설계: 통제집단을 두지 않고 실험집단을 대상으로 독립변수를 도입하기 전후 일정 기간 몇 차례 종속변수를 측정해 점수 또는 경향을 조사하는 방법. 개입 이전 변화는 일어나지 않고 개입시점 이후부터 변화가 나타나 내적 타당도를 낮추는 것을 통제함.
- 복수시계열 설계: 단순 시계열 설계에 통제집단을 추가한 설계유형, 시계열 설계에 비동일설계를 포함한 설계임.
- 비동일 통제집단 설계: 비동일통제집단설계는 순수실험설계에서 통제집단 사전사후검사 설계와 유사하나 무작위 배정에 의해 실험집단과 통제집단을 배정하지 않는다는 점이 다름.
이 세 가지 조건 중 한 가지 조건만을 만족하는 실험설계를 원시실험설계라고 합니다. 원시실험설계는 인과관계를 증명할 수 없습니다. 원시실험설계의 예로는 다음과 같은 유형이 있습니다.
- 일회 사례 설계: 어떤 단일집단에 실험적 개입을 실시하고, 그 후에 종속변수의 특성을 검사하여 결과를 평가하는 설계.
- 단일집단 사전사후검사 설계: 조사대상자에 대해서 사전검사를 실시하고 독립변수를 도입한 후 사후검사를 실시해 종속변수의 변화를 측정해 독립변수의 효과를 얻는 설계.
- 정태적 집단비교 설계: 조사대상을 두 개의 집단으로 나눠 실험개입을 하는 집단, 실험 개입을 하지 않는 집단으로 구분해 측정결과를 비교하는 설계유형.
이상으로 실험설계에 대해 자세히 설명드렸습니다. 실험설계는 연구의 목적과 조건에 따라 적절한 유형을 선택하고, 내적 타당도와 외적 타당도의 균형을 맞추는 것이 중요합니다.
인과관계와 관련된 다른 통계적 방법에 대해서는 다음 글에서 하나씩 하나씩 알아보도록 하겠습니다.
2023.12.13 - [논문, 통계학 공부] - 통계초보자의 인과관계 이해하기 2부 - 회귀분석, 이중차분법, 도구변수법
'논문, 통계학 공부' 카테고리의 다른 글
통계초보자의 인과관계 이해하기 2부 - 회귀분석, 이중차분법, 도구변수법 (3) | 2023.12.13 |
---|---|
통계 초보자의 상관관계분석이해하기 (2) | 2023.12.12 |
신뢰수준, 유의수준, 유의확률 (1) | 2023.10.29 |
모집단(population)과 표본(Sample) 그리고 표본 추출(sampling) (3) | 2023.10.28 |
논문과 변수 유형 (3) | 2023.10.28 |