통계학에서 많이 배우는 내용이기도 하지만 논문작성 초기에 많이 고민하게 되는 부분 중의 하나는 연구 설계 과정에서 측정하고자 하는 변수의 설정을 어떻게 할 것인지에 대한 것입니다. 그리고 측정 변수를 선택하는 것은 연구 설계에서 매우 중요한 부분이기 때문에 정확한 개념을 가지고 있어야 합니다.
논문을 작성하려면 연구 방법을 선택하고, 변수를 설정하고, 데이터를 수집한 이후 결과를 분석하고, 해석하는 과정을 거치게 됩니다 여기서 어떤 유형의 변수를 선택하느냐에 따라 연구 결과의 분석과 해석이 달라질 수 있기 때문에 변수의 유형을 구분하고, 내 연구에 필요한 변수를 선택하는 것은 매우 중요한 일이기도 합니다.
변수 유형
데이터는 변수의 측정값으로, 데이터 시트에 기록되는 값입니다. 변수는 이러한 데이터 즉 관찰되는 개체의 속성을 기록한 것으로, 데이터의 종류에 따라 양적 변수와 질적 변수로 나눌 수 있습니다.
양적변수(quantitative variable)
양적 변수는 변수의 값이 숫자로 표현되고 숫자가 크기나 순서를 나타내는 것처럼 수치화할 수 있는 변수를 말하며, 이산변수와 연속변수로 구분하며, 등간 변수와 비율 변수도 양적 변수에 속합니다.
예 ) 사람의 키, 몸무게, 나이, 소득 등
이산변수 (discrete variable)
셀 수 있는 변수로 표현되는 변수로, 최소단위가 존재하며 0.5나 1.3과 같은 값은 존재하지 않습니다.
예) 아파트의 층 수, 한 회사의 직원의 수, 불량품의 개수 등.
연속변수 (continuous variable)
변수의 값이 셀 수 없는 실수로 표현되고, 변수의 각 값 사이에 무수히 많은 다른 값들이 존재하는 경우를 말하며, 최소단위가 존재하지 않습니다.
예) 사람의 키는 170cm와 171cm 사이에도 무수히 많은 값이 존재할 수 있습니다. 다른 예로는 몸무게, 온도, 시간 등이 있습니다.
→ 이산변수와 연속변수의 차이는 정수와 실수의 차이 정도로 생각하면 이해하기 좋습니다.
등간변수 (interval variable)
측정 대상의 순서와 측정 대상 간의 간격을 알 수 있는 변수.
예) 온도, 시험 점수, IQ, 학년 등.
등 간변수는 명목변수나 순위변수보다 높은 수준의 변수로, 산술적인 연산이 가능하지만, 0이 절대적인 의미를 가지지 않으므로, 비율이나 곱셈, 나눗셈은 의미가 없습니다.
예를 들어, 온도가 0도라고 해도 온도가 없다는 것은 아니며, 온도가 20도인 것이 10도인 것보다 2배 더 높다고 할 수도 없습니다.
비율변수 (ratio variable)
등간 변수의 특성을 모두 갖고 있으며, 변수의 값이 숫자로 표현되고 숫자가 크기나 순서를 나타내는데 더하여, 0이 절대적인 의미를 가지고 비율이나 곱셈, 나눗셈이 가능한 변수.
예) 연령, 무게, 시간, 거리 등.
비율변수와 등간변수의 차이점은 0의 의미입니다. 등간변수에서 0은 인위적으로 정한 지점을 나타내며, 0이라고 해도 값이 없다는 것은 아닙니다.
예를 들어, 온도가 0도라고 해도 온도가 없다는 것은 아니며, 온도가 20도인 것이 10도인 것보다 2배 더 높다고 할 수도 없습니다. 하지만 비율변수에서 0은 절대적으로 값이 없음을 나타내며, 0이 아닌 값들 간에는 비율이나 곱셈, 나눗셈이 의미가 있습니다. 예를 들어, 무게가 0kg이면 정말 무게가 없다는 것을 알고, 무게가 20kg인 것이 10kg인 것보다 2배 더 무겁다고 할 수 있습니다.
양적 변수의 유형구분
유형 | 정의 | 예시 |
이산변수 (discrete variable) | 셀 수 있는 정수로 표현되는 변수로, 최소단위가 존재. | 가족 수, 동전 던지기에서 앞면이 나온 횟수, 시험에서 맞힌 문제 수 등 |
연속변수 (continuous variable) | 셀 수 없는 실수로 표현되는 변수로, 최소단위가 존재하지 않음. | 사람의 키, 몸무게, 온도, 시간 등 |
등간변수 (interval variable) | 변수의 값이 숫자로 표현되고 숫자가 크기나 순서를 나타내는데 더하여, 0이 절대적인 의미를 가지지 않고 비율이나 곱셈, 나눗셈이 불가능한 변수. | 온도, 시험 점수, IQ, 학년 등 |
비율변수 (ratio variable) | 변수의 값이 숫자로 표현되고 숫자가 크기나 순서를 나타내는데 더하여, 0이 절대적인 의미를 가지고 비율이나 곱셈, 나눗셈이 가능한 변수. | 연령, 무게, 시간, 거리 등 |
질적변수(qualitative variable)
변수의 값이 특정한 범주(category)에 속하는 경우로, 숫자로 표현되지 않거나 숫자가 크기나 순서를 나타내지 않는 경우를 말하며 명목변수와 순위변수로 나뉩니다.
예) 사람의 이름, 성별, 혈액형, 취미 등이 질적변수입니다.
명목변수(nominal variable)
변수의 값이 단순히 범주를 구분하는 데 사용되는 경우로, 범주 간에 순위나 크기의 의미가 없습니다.
예) 성별은 남자와 여자라는 두 개의 범주로 구분할 수 있지만, 남자가 여자보다 크거나 작다고 할 수는 없습니다. 혈액형, 국적, 종교 등
서열변수 (ordinal variable)
변수의 값이 범주를 구분하는 동시에 범주 간에 순위나 순서의 의미가 있는 경우입니다.
예) 학점은 A, B, C, D, F라는 다섯 개의 범주로 구분할 수 있으며, A가 B보다 높고 B가 C보다 높다는 순위관계를 나타냅니다. 만족도, 선호도, 등급 등
※ 변수의 유형은 측정의 목적과 방법에 따라 달라질 수 있고, 변수가 한 가지 이상의 유형으로 작동되는 경우도 있습니다.
예를 들어,
▷ 제품 리뷰에서 별 등급은 순서형(1~5 별)이지만 평균 별 등급은 정량적입니다. 이는 별 등급이 각각의 범주를 나타내는 동시에 범주 간에 순서와 크기의 의미를 가지기 때문입니다. 따라서, 별 등급을 평균하거나 합산하는 등의 통계적 연산을 할 수 있습니다.
▷ 교육 수준이라는 변수는 순위변수로 분류될 수 있지만, 명목변수로도 사용될 수 있습니다. 교육수준이 높을수록 소득이나 직업과 같은 다른 변수들과 관련이 있다고 가정할 때, 순위변수로 분석할 수 있습니다. 하지만, 교육수준이 단순히 사람들을 구분하는 데 사용되고, 교육수준 간에 순위나 크기의 의미가 없다고 가정할 때, 명목변수로 분석할 수 있습니다.
변수의 유형을 결정하는 데에는 명확한 기준이 없으며, 연구자의 판단과 목적에 따라 달라질 수 있습니다. 따라서, 변수의 유형을 정하기 전에 변수가 어떤 의미를 가지고 어떻게 측정되었는지를 확인하는 것이 중요합니다. 또한, 변수의 유형에 따라 적절한 통계분석 방법을 선택하는 것도 중요합니다.
예를 들어, 명목변수와 순위변수는 중심경향치(mean)나 표준편차(standard deviation)와 같은 기술통계(descriptive statistics)를 사용할 수 없으며, 이산변수와 연속변수는 카이제곱검정(chi-square test)나 교차분석(cross-tabulation analysis)과 같은 범주형 분석(categorical analysis)을 사용할 수 없습니다.
논문연구에서 많이 사용되는 변수는 독립 변수와 종속 변수 그리고 통제 변수, 매개변수와 같은 변수들입니다
독립변수(independent variable)와 종속변수(dependent variable)
변수들 간에 인과관계가 있다고 가정할 때, 원인을 나타내는 변수를 독립변수(원인일 수 있다고 생각되는 변수, 다른 수에 영향을 미치는 변수)라고 하고 결과를 나타내는 변수를 종속변수(효과일 수 있다고 생각되는 변수, 다른 변수에 영향을 받는 변수)라고 합니다. 예를 들어, 광고비와 판매량 사이에 인과관계가 있다고 할 때, 광고비는 독립변수가 되고 판매량은 종속변수가 됩니다.
통제변수(control variable)와 매개변수(mediator variable)
변수들 간에 인과관계를 분석할 때, 다른 변수들의 영향을 제거하거나 조절하기 위해 사용되는 변수를 통제변수라고 하고 인과관계의 매개 역할을 하는 변수를 매개변수라고 합니다. 예를 들어, 교육 수준과 소득 사이에 인과관계가 있다고 할 때, 성별이나 나이와 같은 다른 변수들의 영향을 제거하기 위해 통제변수로 사용될 수 있으며, 직업이나 직무능력과 같은 변수들이 교육수준과 소득 사이의 인과관계를 매개하는 매개변수로 사용될 수 있습니다.
변수 | 정의 | 예시 |
독립변수 (independent variable) | 다른 변수에 영향을 주는 원인이 되는 변수로, 연구자가 의도적으로 변화시키는 변수이다. | 교육수준, 광고비, 스트레스 등 |
종속변수 (dependent variable) | 다른 변수에 영향을 받는 결과가 되는 변수로, 연구자가 독립변수의 변화에 따라 알고 싶어하는 변수이다. | 소득, 판매량, 우울감 등 |
통제변수 (control variable) | 독립변수와 종속변수 간의 관계에 있어서 영향을 미치는 제3의 변수로, 연구자가 고정시켜서 영향을 제거하거나 조절하는 변수이다. | 성별, 나이, 자기효능감 등 |
매개변수 (mediator variable) | 독립변수와 종속변수 사이에 강하면서도 불확정적인 효과를 미치는 변수로, 이 변수가 존재할 때만 독립변수와 종속변수 사이의 이론적 관계가 성립된다. | 체질, 식사량, 자녀의 자발성 등 |
독립변수, 종속변수, 통제변수, 매개변수 수식
독립변수와 종속변수의 관계를 수식으로 표현하면 다음과 같습니다.
Y=f(X)
여기서 Y는 종속변수, X는 독립변수, f는 함수를 나타냅니다. 이 수식은 독립변수 X의 변화에 따라 종속변수 Y가 어떻게 변화하는지를 나타내는 함수 관계를 의미합니다.
통제변수가 있는 경우, 독립변수와 종속변수의 관계를 수식으로 표현하면 다음과 같습니다.
Y=f(X, Z)
여기서 Z는 통제변수를 나타냅니다. 이 수식은 통제변수 Z를 고정시킨 상태에서 독립변수 X의 변화에 따라 종속변수 Y가 어떻게 변화하는지를 나타내는 함수 관계를 의미합니다.
매개변수가 있는 경우, 독립변수와 종속변수의 관계를 수식으로 표현하면 다음과 같습니다.
Y=f(M)
M=g(X)
여기서 M은 매개변수를 나타냅니다. 이 수식은 독립변수 X가 매개변수 M에 영향을 주고, 매개변수 M이 종속변수 Y에 영향을 주는 함수 관계를 의미합니다.
통제 변수를 사용하는 경우는?
통제 변수는 독립변수와 종속변수 간의 관계에 영향을 미칠 수 있는 제3의 변수로, 연구자가 고정시켜서 영향을 제거하거나 조절하기 위해 사용하는 변수입니다. 예를 들어, 교육 수준이란 독립변수와 소득이란 종속변수 간 관계에서 성별이나 나이와 같은 다른 변수들의 영향을 제거하기 위해 통제변수로 사용될 수 있습니다.
통제 변수를 사용하는 목적
→ 연구자가 관심을 갖는 독립변수와 종속변수 간의 인과관계를 명확하게 밝히기 위해, 다른 변수들이 인과관계를 왜곡하거나 혼동하는 것을 방지하기 위해 사용합니다.
→ 연구자가 관심을 갖는 독립변수와 종속변수 간의 인과관계의 강도나 방향을 측정하기 위해, 다른 변수들이 인과관계에 미치는 영향의 정도나 방식을 파악하기 위해 사용합니다.
→ 연구자가 관심을 갖는 독립변수와 종속변수 간의 인과관계를 일반화하기 위해, 다른 변수들이 인과관계에 따라 변화하는 것을 고려하기 위해 사용합니다.
매개 변수를 어떤 경우에 사용하나요?
매개변수란 독립변수와 종속변수 사이에 강하면서도 불확정적인 효과를 미치는 변수로, 이 변수가 존재할 때만 독립변수와 종속변수 사이의 이론적 관계가 성립된다고 가정하는 변수입니다. 예를 들어, 교육수준이 소득에 영향을 미친다고 할 때, 교육 수준은 소득에 직접적인 영향을 주는 것이 아니라, 지식이나 기술과 같은 매개변수를 통해 간접적으로 영향을 주는 것이라고 볼 수 있습니다.
매개변수를 사용하는 목적.
독립변수와 종속변수 사이의 인과관계를 보다 정확하고 심층적으로 설명하기 위해 사용합니다. 예를 들어, 교육 수준과 소득 사이의 관계만 보면, 교육수준이 높을수록 소득도 높다는 단순한 결론을 내릴 수 있지만, 매개변수를 고려하면, 교육수준이 높을수록 지식이나 기술도 높아지고, 이것이 소득을 증가시키는 원인이 된다는 보다 구체적이고 복잡한 결론을 내릴 수 있습니다.
독립변수와 종속변수 사이의 인과관계의 유효성을 검증하기 위해 사용합니다. 예를 들어, 교육수준과 소득 사이의 관계가 매개변수에 의존한다면, 매개변수를 제거하거나 변화시키면 인과관계가 약해지거나 사라질 것입니다. 따라서, 매개변수를 조작하거나 통제하여 인과관계의 강도나 방향을 측정할 수 있습니다.
외생변수(exogenous variable)와 내생변수(endogenous variable)
연구자가 설정한 연구 모형에서 변수의 역할에 따라 구분하는 개념으로 변수들 간에 상호작용이 있다고 가정할 때, 외생변수는 연구 모형의 바깥에서 결정되는 변수( 외부에서 주어지거나 결정되는 변수 )로, 연구 모형은 외생변수를 주어진 것으로 받아들입니다. 예를 들어, 국가의 정책, 기후 변화, 자연재해 등이 외생변수로 볼 수 있습니다. 내생변수는 연구 모형의 내부에서 결정되거나 영향을 받는 변수로, 연구 모형이 설명하고자 하는 변수입니다.
소비자의 수요, 기업의 생산량, 국민의 행복도 등이 내생변수로 볼 수 있습니다. 외생변수와 내생변수의 관계는 인과관계로 표현될 수 있습니다. 즉, 외생변수가 변하면 내생변수도 변하게 됩니다.
예) 정부가 최저임금을 인상하는 정책을 시행하면(외생변수), 노동시장의 공급과 수요가 변하고(내생변수), 실업률이나 물가가 영향을 받게 됩니다(내생변수).
국가의 경제성장률과 소비자물가지수 사이에 상호작용이 있다고 할 때, 경제성장률은 외생변수가 되고 소비자물가지수는 내생변수가 됩니다.
억압변수(suppressor variable)
변수들 간에 인과관계를 분석할 때, 인과관계를 약화시키거나 숨기는 역할을 하는 변수(독립변수와 종속변수 사이에 있으며, 두 변수 간의 관계를 숨기거나 왜곡하는 역할을 하는 변수)를 억압변수라고 합니다.
예)
스트레스와 우울감 사이에 인과관계가 있다고 할 때, 자기 효능감이나 사회적 지지와 같은 변수들이 스트레스와 우울감 사이의 인과관계를 약화시키는 억압변수로 작용할 수 있습니다.
교육 수준과 소득 사이에는 억압변수로 지역이 있을 수 있습니다. 지역은 교육수준과 소득 모두에 영향을 주는 변수이므로, 지역을 통제하지 않으면 교육수준과 소득 사이의 관계가 약해지거나 없어지는 것처럼 보일 수 있습니다.
억압변수는 가식적 영관계 변수, 왜곡변수라고도 불립니다. 억압변수를 발견하고 통제하는 것은 연구의 유효성과 타당성을 높이는 데 중요한데, 압변수를 발견하고 통제하는 것은 두 변수 사이의 참된 인과관계를 밝히고, 설명력을 높이고, 일반화 가능성을 확장하는 데 도움이 됩니다.
억압변수를 발견하는 방법
억압 변수를 발견하기 위해서는 연구자가 독립변수와 종속변수 간의 인과관계에 대한 이론적인 배경을 충분히 파악하고, 이론적으로 가능한 억압변수들을 사전에 예측하고, 적절한 측정도구를 사용하여 데이터를 수집하고 분석해야 합니다.
연구자는 독립변수와 종속변수 간의 상관관계를 분석하고, 다른 변수들과의 상관관계도 함께 분석하여, 억압변수의 후보들을 선정하고, 통제변수로 넣어서 회귀분석 등의 통계적 방법을 사용하여 억압변수의 영향력을 검증할 수 있습니다. 이러한 과정을 통해 연구자는 독립변수와 종속변수 간의 인과관계를 실험적으로 조작하고, 억압변수의 후보들을 실험조건으로 설정하여, 실험군과 통제군 간의 차이를 비교하고, 억압변수의 유무에 따라 인과관계가 변화하는지를 관찰하는 것입니다.
변수의 특성을 파악하고 있다는 것은 통계적 추론에서 굉장히 중요합니다. 개념 정리를 꼭 해보시기 바랍니다.
'논문, 통계학 공부' 카테고리의 다른 글
통계 초보자의 상관관계분석이해하기 (2) | 2023.12.12 |
---|---|
신뢰수준, 유의수준, 유의확률 (1) | 2023.10.29 |
모집단(population)과 표본(Sample) 그리고 표본 추출(sampling) (3) | 2023.10.28 |
통계 분석의 5단계 (3) | 2023.10.24 |
통계란 무엇인가? (1) | 2023.10.24 |