통계적 가설 검정에서 사용되는 값으로 많이 쓰이기도 하고 가장 기본적으로 쓰이는 것이 신뢰 수준, 유의확률 P value와 유의 수준입니다. P value는 T-검정, 회귀 분석 등 다양한 통계 분석에서 사용되며, 가설검정의 통계적 유의성을 판단하기 위해 사용합니다. 이글에서는 신뢰 수준, 유의확률 (P value)과 유의 수준에 대해서 알아보고 올바른 해석에 대해서 이야기해보고자 합니다.
신뢰 수준
연구에 있어서 데이터 전체를 조사하고 분석하는 것이 현실적으로 어렵기 때문에 대부분 표본 조사와 통계적 분석을 통해 신뢰도를 확보하고자 합니다. 그렇기 때문에 통계를 100% 신뢰하는 것은 매우 위험하다고 생각될 수도 있습니다. 하지만 100% 신뢰는 못하더라도 일반적으로 95% 이상 신뢰할 수 있으면 통계적으로 유의미하다고 판단하는데 이를 신뢰 수준이라고 합니다. 즉 신뢰 수준은 연구자가 설정한 가설이 채택되는 기준을 일반적으로 95% 합니다.
유의확률 P value 란
유의 확률(P value)은 귀무가설(null hypothesis)이 참일 때 관측된 결과와 같거나 더 극단적인 결과가 얻어질 확률을 나타냅니다. 즉 실제 연구에서 가설이 기각될 가능성을 의미하며 보통 P value, p 값이라고 합니다.
※ P값을 이해하려면 먼저 귀무가설과 대립 가설이라는 용어를 이해해야 합니다.
모든 실험에는 검증하려는 가설이 있습니다. 이러한 가설은 검증을 통해 데이터가 적합한지를 증명하기도 하고 데이터 간의 차이가 있음을 보이기도 합니다.
통계적 가설 검정에서 사용되는 두 가지 가설 : 귀무가설, 대립가설
▷귀무가설 : 연구자가 기각하고자 하는 가설로, 보통 연구에 관심이 있는 효과나 차이가 없다고 주장하는 가설
▷대립 가설 : 귀무가설과 반대되는 가설로, 보통 연구에 관심이 있는 효과나 차이가 있다고 주장하는 가설.
예를 들어, 어떤 신약의 효과를 검증하기 위해 다음과 같은 가설을 세울 수 있습니다.
▷귀무가설: 신약은 효과가 없다.
▷대립 가설: 신약은 효과가 있다.
이때, 귀무가설을 기각할 수 있는 충분한 증거가 있다면, 대립 가설을 채택할 수 있습니다. 반대로, 귀무 가설을 기각할 수 없다면, 대립 가설을 채택할 수 없습니다. 이러한 과정을 통해 연구자는 데이터를 바탕으로 합리적인 결론을 도출할 수 있습니다.
유의 수준(significance level)이란
유의 수준이란 연구자가 귀무가설을 기각하기로 결정하는 확률의 기준값을 나타내며, 일반적으로 알파(α)로 표시합니다.
대부분의 경우 유의 수준은 0.01 또는 0.05로 설정하며, 이는 99% 또는 95%의 신뢰도를 기준으로 한다는 것을 의미합니다. 가설 검정의 결과를 판단할 때는 유의확률과 유의 수준을 비교하게 되는데, 유의 확률이 유의 수준보다 작으면 귀무가설을 기각하고, 크면 귀무가설을 채택하게 됩니다.
예를 들어, 어떤 약의 효과를 연구하는 경우 귀무가설은 "약이 효과가 없다"라고 설정할 수 있습니다. 연구 결과에서 P Value가 0.03라면, 귀무가설이 참일 때(즉, 약이 효과가 없을 때) 이와 같거나 더 극단적인 결과가 얻어질 확률이 3%라는 것입니다. 만약 연구자가 유의 수준을 0.05로 설정했다면, P Value가 유의 수준보다 작기 때문에 귀무가설을 기각하고, 약이 효과가 있다고 결론을 내릴 수 있습니다.
유의확률 P Value 올바른 해석
P value에 대해 정확하게 이해해야만 연구 결과 해석에 오류가 생기지 않습니다.
어떤 가설을 검증하던지 통계적 분석과 해석은 데이터에 담긴 정보를 기초로 하게 됩니다. 하지만 연구를 통해서 나오는 데이터의 결과는 항상 옳은 결과나 가설에 적합한 데이터만 나오는 것이 아니기 때문에 해석에 있어서 잘못된 오류에 빠질 수 있습니다.
통계적 가설 검정에서 발생할 수 있는 오류에는 1종오류와 2종 오류가 있는데,
- 제1종오류 (Type I error) : 귀무가설이 참인데 기각하는 오류
- 제2종오류 (Type II error) : 귀무가설이 거짓인데 채택하는 오류
※ 1종 오류와 2종 오류는 서로 상충하는 관계에 있습니다. 1종 오류를 줄이면 2종 오류가 증가하고, 반대로 2종 오류를 줄이면 1종 오류가 증가합니다. 따라서 연구자는 유의 수준(1종 오류 확률)과 검정력(1 - 2종 오류 확률)을 조절하여 이러한 오류의 균형을 맞추어야 합니다.
※ 1종 오류를 범할 확률 최대값을 알파 (α) 라 표기하고 이 α 값을 유의 수준이라 합니다.
귀무가설이 참 | 귀무가설이 거짓 | |
귀무가설 기각 | 1종오류 (α) | 올바른 결정 |
귀무가설 채택 | 올바른 결정 | 2종오류 (β) |
예를 들어 어떤 범죄사건의 용의자를 판결하기 위해 다음과 같은 가설을 세울 수 있습니다.
- 귀무가설: 용의자는 무죄이다.
- 대립가설: 용의자는 유죄이다.
이때, 1종 오류는 용의자가 무죄임에도 불구하고 유죄라고 판결하는 경우이고, 2종 오류는 용의자가 유죄임에도 불구하고 무죄라고 판결하는 경우입니다.
1종 오류는 무고한 사람을 감옥에 가두는 부당한 판결이고, 2종 오류는 범인을 놓치는 공정하지 못한 판결입니다.
검정력: 통계적 가설 검정에서 대립가설이 사실일 때, 이를 사실로서 결정할 확률.
즉, 표본 데이터가 귀무가설에 적합하지 않다고 판단할 수 있습니다.
예를 들어, 어떤 신약의 효과를 검증하기 위해 귀무가설을 신약은 효과가 없다고 하고, 대립 가설을 신약은 효과가 있다고 할 때, 검정력은 신약이 효과가 있음에도 불구하고 효과가 없다고 결론 내리는 2종 오류를 범할 확률입니다. 검정력이 높을수록 2종 오류를 줄일 수 있습니다.
검정력은 다음과 같은 요인들에 영향을 받습니다.
▶유의 수준: 유의 수준이 커질수록 (예. 5%에서 10%로), 즉 신뢰도가 나빠질수록 검정력은 좋아집니다.
▶ 표준편차: 표준편차가 커지면 검정력은 나빠집니다.
▶ 두 모집단 간의 차이: 이 차이가 작을수록 검정력은 나빠집니다.
▶ 표본크기: 표본의 크기가 클수록 검정력은 증가합니다.
P Value 해석에 있어서 주의해야 하는 것
특정 데이터를 분석하면서 P <.05라는 유의 확률을 나타낸 데이터 지표를 해석할 때 일반적으로 다음과 같이 생각할 수 있습니다.
"연구자의 주장이 유의 수준 P <.05을 나타내고 있으므로, 유의한 차이(95%보다 높은 수준으로 적합한 데이터를 보임)를 나타내고 있기 때문에 귀무가설이 잘못되었다."
※ 중요한 것은 유의 수준과 유의 확률(p값)은 가설이 맞고 틀림을 나타내는 것이 아니라 확률을 표시한다는 것을 꼭 주의해야 합니다.
예를 들어 유의 수준이. 05일 때 독립 변수에 따른 종속변수의 차이를 분석한 결과에서 p값이.03이라면 독립 변수에 따라 종속 변수의 차이가 없을 가능성이 약 3% 라는 의미이고, 차이가 있을 가능성이 약 97%라는 의미입니다. 결국 차이가 있을 가능성이 95%가 넘어가므로 이는 통계적으로 유의한 차이가 있다고 이야기할 수 있습니다.
하지만 이 결과가 가설의 데이터의 참과 거짓을 의미하지는 않습니다.
그렇기 때문에 대립 가설이 주장하는 바가 97% 맞고, 귀무가설이 주장하는 바가 3% 정도 맞다고 해석하는 것이 아니라, '귀무가설이 옳으나 귀무가설을 기각하고 대립가설을 채택할 확률(1종 오류)이 3% 미만이다. 그렇기 때문에 해당 데이터는 신뢰도가 매우 높고 유의미한 데이터이다'라고 해석해야 합니다.
P Value가 높은 경우
연구 결과를 분석하다 보면 다양한 데이터의 p값을 보게 됩니다. 단순히 p값이 높다고 해서 그 데이터가 유의미하지 않다고 해석할 것이 아니라. 다른 조치를 취하거나 다른 관점으로 해석할 여지가 없는지를 확인해야 합니다.
일반적으로 P Value가 높은 경우, 귀무가설을 기각할 충분한 증거가 없다고 판단합니다. 이 경우에 다음과 같은 과정을 거쳐볼 수 있습니다.
- 데이터 수집 방법을 개선하거나, 더 많은 데이터를 수집하여 검정력을 높여 볼수 있습니다..
- 연구 설계를 수정하거나, 다른 통계적 검정 방법을 사용하여 결과를 다시 검토해 볼 수 있습니다.
- 귀무가설을 채택하고, 연구 가설을 수정하거나 새로운 연구 가설을 설정할 수 있습니다.
유의 수준을 0.01 또는 0.05로 설정하는 이유
유의 수준은 통계적 가설 검정에서 귀무 가설을 기각하는 기준이 되는 확률로, 보통 0.05나 0.01과 같은 작은 값으로 설정합니다. 일반적으로 유의 수준은 0.05로 설정하는 것이 관례입니다. 이는 연구자가 내린 판단이 오판일 확률을 5%로 보기 때문입니다. 또한, 이 값은 통계학자인 R.A. Fisher가 제시한 값으로 널리 받아들여져 왔습니다.
유의 수준이 너무 낮으면 귀무 가설을 기각할 확률이 줄어들어 1종 오류(false positive)를 줄일 수 있지만, 2종 오류(false negative)의 위험이 커집니다. 반대로 유의 수준이 너무 높으면 1종 오류의 위험이 커지고, 2종 오류의 위험이 줄어듭니다.
따라서, 연구자는 1종 오류와 2종 오류의 균형을 맞추기 위해 유의 수준을 적절하게 설정해야 합니다.
예를 들어, 신약의 부작용은 환자에게 치명적일 수 있으므로 100명 중 1명, 아니 1000명 중 1명 이하로 부작용이 나타나야 안전하다고 할 수 있습니다. 이러한 경우에는 부작용이 일어날 가능성을 최대한 낮춰야 하기 때문에 0.05보다 더 엄격한 0.01 또는 0.001을 기준으로 사용하는 것이 합리적일 것입니다.
반대로, 작은 차이도 중요한 경우에는 유의 수준을 낮추고, 큰 차이만 중요한 경우에는 유의 수준을 높이는 것이 좋습니다. 예를 들어, 마케팅 조사에서는 0.05나 0.01보다는 낮은 0.1이나 0.2를 유의 수준으로 사용할 수 있습니다.
논문에서는 일반적으로 p 값을. 05를 기준으로 하며. 05 미만이면 통계적으로 유의하다고 합니다.
연구의 성격에 따라 유의 수준과 검정력을 조절해야 하는 이유는?
▶ 오류의 중요성: 연구의 성격에 따라 1종 오류와 2종 오류 중 어느 것이 더 중요한지가 달라질 수 있습니다.
예를 들어, 의학 연구에서는 1종 오류를 줄이는 것이 더 중요할 수 있으므로, 유의 수준을 낮추어 귀무가설을 기각할 기준을 더 엄격하게 설정할 수 있습니다.
▶ 통계적 검정력: 검정력은 연구에서 귀무가설이 거짓일 때 이를 기각할 확률을 의미합니다. 연구의 성격에 따라 검정력을 높이기 위해 표본 크기를 증가시키거나, 다른 통계적 분석 방법을 사용할 수 있습니다. 검정력이 높을수록 연구 결과의 신뢰성이 높아집니다.
▶ 연구 대상자 수와 비용: 연구 대상자 수를 증가시키면 검정력이 높아지지만, 동시에 연구 비용도 증가합니다. 따라서 연구의 성격과 목적에 따라 적절한 표본 크기를 설정하고, 유의 수준과 검정력을 조절하여 연구 비용과 효과의 균형을 맞출 필요가 있습니다.
▶ 연구의 성격에 따라 유의 수준과 검정력을 조절함으로써, 연구 결과의 신뢰성을 높이고 오류의 위험을 줄일 수 있습니다. 각 연구 상황에 맞게 유의 수준과 검정력을 결정하는 것이 중요하며, 이를 통해 연구의 효과와 비용의 균형을 맞출 수 있습니다.
'논문, 통계학 공부' 카테고리의 다른 글
통계 초보자의 인과관계 이해하기 (3) | 2023.12.13 |
---|---|
통계 초보자의 상관관계분석이해하기 (2) | 2023.12.12 |
모집단(population)과 표본(Sample) 그리고 표본 추출(sampling) (3) | 2023.10.28 |
논문과 변수 유형 (3) | 2023.10.28 |
통계 분석의 5단계 (3) | 2023.10.24 |