최근 수정 시각 : 2022-06-09 23:42:53

변인

통계학
Statistics
{{{#!wiki style="word-break: keep-all; margin:0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#!wiki style="letter-spacing: -1px"
<colbgcolor=#efefef> 자료 시각화 도표( 그림그래프 · 막대그래프 · 선 그래프 · 원그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점
수리통계학 확률론 사건 · 가능성 · 확률변수 · 확률분포( 표본분포 · 정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · [math(t)]분포 · [math(z)]분포 · [math(F)]분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙( 무한 원숭이 정리 · 던파확률의 법칙) · 중심극한정리
통계량 평균 · 기댓값 · 편차( 절대편차 · 표준편차) · 분산( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
통계적방법 추론 가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계
방법론 회귀 분석 · OLS · 분산분석 · 주성분 분석( 요인 분석) · 시계열분석 · 패널분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 }}}}}}}}}}}}

1. 개요
1.1. 유사 개념들
2. 종류
2.1. 독립 변인2.2. 종속 변인2.3. 제3의 변인들
2.3.1. 조절 변인2.3.2. 매개 변인2.3.3. 외생 변인2.3.4. 통제 변인
3. 관련 문서4. 둘러보기

1. 개요

변인() 혹은 변수()는 variable의 번역어로, 어떤 연구의 대상이 되는 일련의 관찰된 특성의 집합이며, 특정 개념이 조작적 정의를 통해 둘 이상의 서로 다른 관찰값을 갖도록 정량화가 가능하게 된 것이다. 조작적 정의는 자신이 연구하고자 하는 것들을 객관적인 값으로 볼 수 있게 하는 것을 말한다. 예를 들면 똑똑함이라는 개념에 조작적 정의를 가하면 IQ라는 수치로 표현이 된다. 물론 IQ가 똑똑함의 다는 아니다.

이를 더 세밀하게 구분하자면, 정숫값을 취할 수 있는 이산 변인(discrete variable)과, 존재하는 모든 실숫값들을 취할 수 있는 연속 변인(continuous variable)으로 나누어 볼 수 있다. 이산 변인은 불연속 변인이라고도 한다. 이에 따라 통계적 분석 방법도 바뀌는데, 이산 변인만 가지고 분석할 경우에는 카이자승 분석을 해야 한다. 넓은 의미에서는 연구의 대상이 될 수 있는 잠재성을 지닌 모든 특성의 집합으로 말할 수도 있다. 약간 다른 방향에서 말하자면, 구성(construct)이라는 개념을 조작화한 것이라고도 할 수 있다.

연구 현장에서는 숨쉬는 것처럼 자연스럽게 통하는 용어지만 막상 하나하나 설명하기는 굉장히 까다로운 것. 변인은 크게 두 가지 정도의 특성을 갖고 있다. 첫째, 이론 속의 특정 개념(concept)에 대응하지만, 경험적 실증세계에서 지표를 통해 측정이 가능하다. 즉, 어떤 개념이 연구를 위해 조작적으로 정의되면 그때부터는 연구용으로 적합한 "변인" 이 된다. 둘째, 모든 변인은 값(value)으로든 범주(category)로든 간에 둘 이상의 서로 다른 값을 갖는다. 예를 들어 값의 수가 가장 적은 변인인 " 성별"(sex)의 경우에도 " 남성", " 여성" 의 두 가지 값이 나온다. 물론 "참가자(participant) 학생의 전교 석차" 처럼 많은 값을 가질 수도 있고, "특정 행동의 관찰 빈도" 처럼 사실상의 양수 범위 전체가 값이 될 수 있으며, 사실 이런 경우가 더 많다.

변인의 문제는 특히 사회과학에서 굉장히 강조되는데, 이는 사회가 워낙에 복잡 다양해서 그런지 "완벽하게 통제된 연구 환경" 을 조성하기가 극도로 까다롭기 때문이다. 결과적으로 어느 정도씩은 불필요한 변인이 개입하여 연구 데이터를 왜곡시킬 가능성을 감수해야만 한다. 그렇기 때문에 자료분석이나 조사방법에 있어서 변인은 항상 중요하게 다루어지고 있다.

1.1. 유사 개념들

유사하지만 혼동되어서는 안 되는 것으로 요인(factor)이 있다. 요인이란 미가공 데이터 상에서 직접적으로 드러나지 않은 잠재적 구성으로서, 데이터의 패턴이 그러하게 나타나게 하도록 영향을 끼쳤다고 의심될 수 있는 하나 또는 다수의 유관한 구성을 의미한다. 요인의 개수와 정체를 확인하는 통계적 방법이 다름아닌 요인분석(factor analysis)이며, 요인분석으로 연구된 가장 유명한 성과가 바로 성격요인이론의 간판이라고 할 수 있는 Big5이다.

흔히 "처치" 라고 번역되는 treatment의 경우 실험적 환경에서 일부 집단에게 인위적으로 특수한 조건을 할당하는 것을 의미한다. 자연과학과 뇌과학, 의약학 분야에서는 이 용어가 주로 쓰이지만, 사회과학 분야에서는 조작(manipulation)이라는 단어가 더 많이 쓰인다. 통제집단과 실험집단 문서 참고.

2. 종류

파일:IV-DV.png
왼쪽이 독립변인, 오른쪽이 종속변인이다.
화살표의 방향에 주목할 것.

2.1. 독립 변인

Independent Variable (IV[1] )
(흔히 [math(X)] 혹은 [math(x)]로 쓴다.)

독립 변수(independent variable), 설명 변수(explanatory variable), 선행 변인 또는 예측 변인이라고도 한다.

종속 변인[2]에 선행하면서, 종속 변인에 영향을 줄 것으로 기대되거나 종속 변인의 변화를 예측(predict)할 수 있다고 여겨지는 변인이다. 사실상 연구의 주제가 되며, 연구자의 처치(treatment)가 가해지는 변인이기도 하다. 대부분의 실험 연구는 어떤 독립 변인이 특정 종속 변인과 인과관계를 갖고 있는 게 맞는지 검토하는 방식으로 이루어진다.

한 마디로 말하자면 원인, 수학x 값. 함수에서도 그렇듯이, 독립 변인은 연구자 맘대로 조절할 수 있다. 다시 말해서 취급이 자유롭다. 쉽게 비유하자면 이렇다. 종속 변인은 독립 변인의 변화에 따라 자기 값을 일정하게 정해서 따라가야 하는 운명인지라 이름이 '종속 변인' 이 되었고, 독립 변인은 자신이 원하는대로 값을 정할 수 있으므로(…) 그 자유로움 덕분에 이름이 '독립 변인' 이 되었다는 것.[3]

독립 변인은 엄밀히 말하자면 "종속 변인에 영향을 주는 변인" 이 아니라 "종속 변인에 영향을 준다고 간주되는 변인" 이라고 하는 쪽이 안전하다. 왜냐하면 인과관계는 증명이 불가능하고, 어디까지나 입증의 영역이기 때문이다. 즉 연구자들은 나날이 쌓여가는 긍정적인 연구 데이터들을 토대로 해서 "이 정도라면 인과관계가 존재한다는 주장을 신뢰할 수 있겠어" 라는 결론을 얻을 따름이지, "이 변인은 종속 변인에 영향을 미친다고 확실히 증명되었어" 라는 결론을 얻지는 않는다. 물론 일상적으로는 그런 식으로 말해도 통하긴 한다.

만일 어느 대학원생에게 지도교수가 "이 변인이 독립인가 종속인가?" 라고 묻는다면, 그 의미는 "이 변인을 연구자가 조작할 수 있는가? (독립) 없는가? (종속)"와 같다.

여러 개의 독립 변인이 하나의 종속 변인에 영향을 끼친다고 간주할 경우에는, 전체 독립 변인들의 효과를 각각 나누어 분석한 주효과(main effect), 그리고 한 독립 변인 값의 변화에 따라 다른 독립 변인이 종속 변인에 끼치는 효과의 크기가 달라지게 되는 상호작용 효과(interaction effect)가 서로 구분되어야 한다. 상호작용 효과가 유의할 경우에 주효과는 결과분석에서 생략되는 경향이 있다. 그래프를 그려 보면 주효과만 유의할 때에는 두 선분이 평행하여 = 형태로 그려지지만, 상호작용 효과가 유의하다면 기울기 차이로 인해 <, >, × 모양으로 엇갈리게 그려진다. 일반적으로는 2개의 독립변인이 존재할 때 회귀식은 다음 형태로 출력된다.
[math( X_1 + X_2 + (X_1 \times X_2) + \varepsilon)]
[math(X_1)] [math(X_2)] [math(X_1 \times X_2)] [math(\varepsilon)]
독립변인 1 주효과 독립변인 2 주효과 두 변인의 상호작용 효과 오차

영문 위키피디아에 실린 대표적인 상호작용의 예시로, 진보주의자들은 교육을 많이 받을수록 지구온난화를 걱정하지만, 거꾸로 보수주의자들은 교육을 많이 받을수록 (분산이 커지기는 하나) 지구온난화를 불신한다는 연구가 있다. 상호작용 효과는 같은 처치(treatment)를 하더라도 결과가 달라질 수 있다는, 속칭 " 케바케" 를 통계적으로 엄밀하게 제시하는 것이라고도 할 수 있으며, 이 때문에 대개 연구 활동에 있어서 통찰이 매우 크다.
파일:hypothetical-main-effect.jpg 파일:hypothetical-interaction.jpg
주효과가 관찰되는 가설적 그래프. 상호작용이 관찰되는 가설적 그래프.
로그인 사용자와 IP 사용자 양쪽 모두 나무위키 편집을 많이 할수록 토론에 많은 코멘트를 다는 정적 상관의 경향이 나타나지만, IP 사용자보다는 로그인 사용자들이 어떤 경우에서든 토론에 적극 참여하려 하는 경향이 있다는 해석이 가능하다. IP 사용자들은 많은 문서들을 열람할수록 많은 편집을 하는 경향을 보이는 정적 상관의 경향이 나타나지만, 로그인 사용자들은 얼마나 많은 문서들을 열람하건 간에 어차피 자신이 관심을 갖고 주시 중인 일정량의 문서들 위주로 편집하는 경향을 보인다는 해석이 가능하다.
실제로 설문조사를 하지 않은 가설적인 기대효과임에 유의.
여기서는 두 상황에서 그래프의 모양이 이렇게 달라질 수 있다는 점에만 집중하여 보도록 하자.

독립 변인이 연구에 여러 개 포함되었다는 것은 곧 다시 말하면 그 연구가 잠재적인 상호작용 효과에 관심이 있으며 이를 통계적으로 검증해 보겠다는 의도를 지닌다는 뜻도 된다. 따라서, 만일 분석결과에서 주효과는 정말 기막히게 잘 나왔는데 상호작용 효과가 아예 존재하지 않는다면, 달랑 주효과만 해석하고 뿌듯해할 것이 아니라 상호작용 효과가 왜 나타나지 않았는지도 적절하게 설명을 해야 나중에 문제제기가 나오지 않는다.

또한 여러 독립 변인들을 따로따로 분석할 때는 그럴싸하게(?) 뽑혀나오던 데이터가 그 독립 변인들을 한꺼번에 넣고 분석했을 때는 죄다 엉망이 되어버리는 경우도 있다. 이 경우에는 이들 독립 변인들이 서로간에 상관관계가 있어서 종속 변인의 분산을 보완적으로 설명하는 것이 아니라 경쟁적으로 설명하려 하기 때문인 것은 아닌지 일차적으로 의심해 보고, 상관관계가 없다는 확신이 있다면 지도교수님이나 박사급 연구원 분들에게 도움을 요청하자.

간혹 독립 변인 그 자체를 규명하기 위해 진행되는 탐색적인 연구도 있다. 어떤 대상의 선행요인(antecedent)이나 예측요인(predictor)을 알아보기 위한 연구는 어떤 종속 변인에 영향을 줄 수 있으리라 여겨지는 가설적인 독립 변인 다수를 선정하여[4] 어떤 것이 실제로 효과를 주는지 관찰하는 것이다. 수학으로 비유하자면, 거꾸로 "만약 y 값의 절댓값이 10이 되려면 이 함수식이 성립하기 위한 x 값은 얼마가 될까?" 의 질문을 하는 것이다. 물론 여기서도 연구자가 독립 변인만 조작할 수 있다는 점은 같다.

2.2. 종속 변인

Dependent Variable (DV)
(흔히 [math(Y)] 혹은 [math(y)]로 쓴다.)

종속 변수(dependent variable) 또는 반응 변수(responsible variable).

독립 변인에 후행하면서, 독립 변인의 변화에 의해 영향을 받을 것으로 기대되는 변인이다. 연구자가 최종 단계에서 분석하게 될 데이터는 바로 이 종속 변인이다. 연구자의 통제 하에 있는 변인이 아니기 때문에, 결과가 어떻게 나올지는 연구자도 장담할 수 없다. 연구자의 기대에 부합하면 가설이 옳은 것이고, 연구자의 기대에 어긋나면 가설이 틀렸을 뿐.[5]

한 마디로 말하자면 결과, 수학의 y 값. x 값을 이래저래 넣어 봐서 y 값이 나오는 걸 보고 두 변인 사이에 어떤 관계가 존재하는지를 파악하는 것이 가장 중요하다. 특히 결과의 대조를 위해 자연 상태의 관찰대상을 하나 더 정해놓는 것(대조군 설정)도 잊어서는 안 된다. 위에서도 설명했지만 종속 변인은 연구자가 그 값을 정할 수 없다. 만일 연구자가 임의로 종속 변인의 값을 정했다면 이는 연구부정행위다!(…) 학계에서 이런 짓을 하다가 걸리면 매장당한다.

앞서 서술한 것처럼, 연구자가 어떤 대상의 원인이나 선행 사건을 확인하는 연구를 하듯이, 어떤 대상의 결과(consequence)나 후행 사건을 확인하는 연구를 할 수도 있다. 연구대상의 원인과 결과가 모두 명확히 밝혀지고 통계적으로도 잘 지지되면 이를 하나의 모형(model)이라고 부를 수 있다. 물론 이 모형은 얼마든지 확장 및 추가되거나 간략화되는 것이 가능하다. 모형이 잘 정립되면 연구자들은 비로소 어떤 대상에 대한 "인과적 메커니즘을 규명했다" 고 조심스럽게 공언할 수 있게 된다.

이제 독립 변인과 종속 변인을 확인하기 위해 간단한 예를 들어 보자.
어느 연구자가 자신의 연구주제를 " 대중매체의 폭력성이 어린이 시청자의 폭력성에 미치는 영향" 으로 삼았다. 이를 위해 이 연구자는 "대중매체의 폭력성" 이라는 개념을 조작적 정의하여 "무선추출된 10분 동안의 비디오 클립에서 관찰된 신체적, 언어적, 정서적 공격성(aggression)의 횟수의 합" 으로 정하고, "어린이 시청자의 폭력성" 이라는 개념을 조작적 정의하여 "비디오 클립 시청 후 10분 동안 관찰된 신체적, 언어적, 정서적 공격성의 횟수의 변화" 로 정했다. 연구자는 실험집단을 두 개로 나누어, 한쪽은 가벼운 폭력성이 포함된 비디오를, 한쪽은 심각한 폭력성이 포함된 비디오를 보여주기로 하였다. 연구자는 먼저 무선추출된 어린이 집단을 10분 동안 자유롭게 놀게 하며 상태를 관찰하고, 통제집단에게는 자연 다큐멘터리로 구성되고 실험집단에게는 가볍거나 심각하게 폭력적인 프로그램으로 구성된 비디오 클립을 10분 동안 보여주었으며, 이후 각각의 세 집단을 10분 동안 관찰하면서 어떤 변화가 생겼는지 관찰하기로 하였다.
이 사례에서 독립 변인은 비디오 클립 속에 포함된 공격성의 정도가 되고, 종속 변인은 비디오 시청 전후로 어린이가 보여주는 공격성의 정도가 되겠다.

독립 변인과 종속 변인 중에서 연구목적에 더 중요하게 취급되는 것은 사실 독립 변인이다. 종속 변인은 독립 변인이 중요함을 보여주기 위한 도구에 지나지 않는다. 바로 위의 예시를 보자. 연구의 결과는 대중매체의 폭력성(IV)이 어린이들의 공격성(DV)에 얼마나 위험한 효과를 갖는지를 보여주며, 실제로 유의미(meaningful)한 결과가 얻어질 경우에는 영상물 등급 제도와 같은 대책을 요구한다. 그만큼 텔레비전의 힘이 중요하다는 의미이기 때문이다. 하지만 위 연구는 우리 사회가 공격적인 어린이들에 주목해야 한다거나, 어린이들의 공격성이 (적어도 어른들의 공격성만큼) 중요한 문제라는 식으로는 해석될 수 없다. 그런 결론이 나오려면 처음부터 "유년기의 공격성이 향후 성인기 사회성 발달에 미치는 영향" 같은 식으로 연구주제가 다르게 정해졌어야 한다. 물론 위 연구의 후속연구로 진행됨으로써 대중매체 폭력성 → 유년기 공격성 → 성인기 공격성 테크트리를 모델로 만들려는 연구자들도 굉장히 많았지만, 그것도 유년기 공격성이 후속연구에서 어쨌거나 독립 변인이기에 가능한 논리다.

다른 예를 들어, 자기불구화(self-handicapping)[6] 개념에 대한 연구를 한다고 하자. 만일 ① 연구가설이 " 자존감(IV)이 높은 사람일수록 자기불구화(DV)에 더 크게 의존할 것이다" 이고 진짜로 결과도 그렇게 나왔다면, 이 연구가 중요하다고 강조하는 것은 자존감(IV)이지 자기불구화(DV)가 아니다. 자기불구화가 자존감에 '종속' 된 현상임이 드러났기 때문이다. 따라서 이 연구는 자존감 연구가 된다. 반대로 ② "자기불구화(IV)를 하면 자존감(DV)이 증진될 것이다" 라는 연구가설이 있는데 이것이 사실인 것으로 드러났다면, 이 연구에서는 자존감(DV)이 아니라 자기불구화(IV)를 강조하게 된다. 자존감을 관리한다는 면에서 자기불구화의 전략적 가치가 확인되었기 때문이다. 따라서 이 연구는 자기불구화 연구가 된다. 요약하면, '이 연구는 무엇에 대한 연구인가' 에는 종속 변인이 아니라 독립 변인을 보고 답해야 한다.

2.3. 제3의 변인들

현실적으로 세상은 그렇게 단순 명료하고 만만하지가 않다.(…) 그렇기 때문에 두 변인 사이의 간단한 인과관계로 그치는 사례는 오히려 거의 없고, 온갖 기상천외한(?) 변인들이 복잡하게 연결되어 상호작용하고 있다. 이 때문에 연구자들은 제3의 변인들의 가능성을 최대한 통제해야 한다.

연구자들의 최종적인 목표는, 실험 결과에 유의미하게 영향을 미칠 것으로 예상되기는 하지만 그래도 자기 연구에서 독립 변인으로 인정해주기는 싫은(…) 변인들을 최대한 찾아내어 통제 변인으로 바꾸는 것이다.

2.3.1. 조절 변인

파일:moderator.png
Moderator

독립 변인과 종속 변인 사이의 인과관계의 강도(strength)에 영향을 미치는 변인. 조절 변인이 변화하게 되면 독립 변인과 종속 변인 사이의 인과관계는 강해지기도 하고 약해지기도 한다. 즉 같은 종속 변인의 데이터라고 하더라도 독립 변인이 종속 변인의 값을 예언하는 정확성이 높아질 수도 있고 낮아질 수도 있는 것이다.

앞서 심리학 관찰학습 사례를 가져올 경우, 조절 변인은 "부모의 TV시청 지도" 가 될 수 있다. 적절한 TV시청 교육을 받은 어린이는 공격적 비디오를 보더라도 그 공격성을 덜 학습하게 될 것으로 기대할 수 있다. 이번에는 경영학 분야의 성과급으로 예를 들어 보자. 성과급 제도를 도입하면 사원들의 실적이 향상될 거라는 가설을 세웠을 때, 독립 변인은 성과급 시행 여부(Y/N)가 되고, 종속 변인은 사원들의 실적의 증감이 된다. 여기서 조절 변인으로 감안할 것은 관리자의 리더십이다. 만일 관리자가 권위주의적(authoritarian) 리더십을 보여준다면 성과급 제도는 실적의 증가로 이어지기 어렵게 될 수 있을 것이다.

조절 변인은 위에서 설명했었던 "상호작용 효과" 와 논리적으로 밀접한 관련이 있다. 만일 위의 리더십을 성과급 제도와 함께 2개의 독립 변인으로 고려할 경우, 종속 변인인 실적의 증가에서 상호작용 효과가 나타난다. 그러나 현실은 언제나 단순하지 않기 때문에, 어떤 변인을 조절 변인보다는 독립 변인으로 간주할 때 변화무쌍한 데이터 패턴이 좀 더 잘 탐지되는 것으로 보인다. 예컨대 상기했던 바 지구온난화와 교육수준 사이의 관계를 거론한 Hamilton(2008)의 사례처럼, 교육연수와 정치이념적 지향을 독립 변인으로, 지구온난화에 대한 믿음을 종속 변인으로 두는 경우 나타나는 상호작용 효과는, 정치이념적 지향을 조절 변인으로 두었을 때보다는 설명하기가 더 쉽다.[7]

조절 변인은 의학 약학에서 비상한 관심을 갖고 있는데, 왜냐하면 서로 다른 여러 종류의 약물들을 병행투여할 경우에 시너지 효과가 일어나면 다행이지만 서로가 서로의 약효를 저해시키는 팀킬이 발생할 위험도 있기 때문이다. 따라서 기존의 통상처치에 있어 어떤 환경적 조건이나 새로운 처방이 어떤 조절효과를 갖는지에 대해 명확히 이해한 상태로 치료를 진행할 필요가 있다.

2.3.2. 매개 변인

파일:direct-mediator.png 파일:indirect-mediator.png
직접(완전)매개변인 간접(부분)매개변인
Mediator

독립 변인과 종속 변인 사이에 끼어서 인과적인 연쇄의 고리를 형성하는 변인. 즉 처음에는 독립 변인이 종속 변인의 원인이 되는 간단한 관계라고 생각했는데, 따져보니 그게 아니라 독립 변인의 결과 매개 변인이 따라오고, 매개 변인의 결과로 종속 변인이 따라오는 복잡한 케이스라고 할 수 있다. 물론 이론상으로는 독립 변인이 매개 변인에 완전하게 의존하여 종속 변인에 영향을 미치는 케이스도 가능은 하지만, 많은 경우에는 매개 변인에게도 일정 부분 의존하면서 종속 변인에게도 직접적으로 영향을 미치기도 한다.

매개모형의 분석은 통계적 방법을 활용하는 다양한 과학적 분야들 중에서도 여러 변인들 간의 관계성에 기초한 모형을 세우고 인과적 메커니즘을 규명하는 설명(explanation)의 비중이 큰 사회심리학 등의 분야에서 매우 인기가 있지만, 그보다는 여러 변인들로 총분산을 최대한 설명해 내거나 앞으로의 추이를 예측(prediction)하는 활동의 비중이 큰 사회과학적 분야들에서는 자주 접하기 힘들다. 양적 연구라고 해도 이처럼 설명이냐 예측이냐, 차이냐 상관이냐, 빈도주의냐 베이지안이냐 같은 방법론적인 괴리는 학문분야에 따라 상당한 수준이므로, 매개변인을 연구에 고려하는 것이 그다지 의미가 없는 분야들이 꽤 많다는 점은 유의할 것.

매개 변인을 분석할 때에 가장 기본적으로 전제되는 것이 삼각형 모양의 간접매개모형이다. 여기서는 편의를 위해 독립 변인을 X, 종속 변인을 Y, 그리고 매개 변인을 M이라고 부르기로 하자. 매개효과가 존재할 경우 적어도 X→M, M→Y 화살표만큼은 유의한 관계가 나타나야 한다. 여기서 X→M의 화살표를 a, M→Y의 화살표를 b, 그리고 X→Y의 화살표를 c'(c 프라임)이라고 부르기로 하자. a와 b를 곱한 결과를 간접효과(indirect effect), c'을 직접효과(direct effect), 그리고 이 둘을 합쳐놓은 결과인 총효과(total effect)를 c로 부를 수 있다.[8] 여기서 직접매개모형은 M을 없애버리면 c'가 0이 되어 버리고, 간접매개모형은 M을 없애더라도 어쨌거나 c'는 줄어들기는 해도 아주 0이 되지는 않는 차이가 있다.

기존에는 매개효과에 대한 통계적 검정을 위해 흔히 일컬어지는 "3단계 검정"[9]에서 응용한 소벨의 검정(Sobel test)을 활용해 왔지만 이 바닥에서 워낙에 인기가 많은 것이 부트스트랩(bootstrap)이라서 그렇게 압도적인 위상은 아니다. 소벨의 검정은 표본분포의 정규성을 가정해야 하기 때문. 어쨌거나 3단계 검정에서의 논리는 연구자가 c의 회귀분석, a의 회귀분석, b의 회귀분석을 순차적으로 실시하여 각각의 단계에서 하나라도 유의한 결과가 나오지 않으면 그 즉시 fail. 이걸 모두 통과하면 어떤 형태로든 매개효과가 존재한다고 보고, 마지막 보너스(…)로 X와 M의 다중회귀분석을 돌려서 X가 유의한 경우에만 부분매개가 성립한다고 판정한다.

논문에 매개효과를 보고할 때는 비표준화 회귀계수를 가지고 보고한다. 만일 실험적 처치(조작) 또는 인구학적 변인 등의 다른 이유로 인해 독립 변인 X가 명목 수준에서 측정되었을 때는 OLS 등에서의 표준화된 회귀계수로 보고하는 것은 오히려 권장되지 않는다. 독립 변인이 명목 수준일 경우, 모형의 각 숫자들이 갖는 의미는 실험(비교)집단 간의 평균차로 엄청나게 뒤바뀐다.

매개 변인이 개입하는 순간, 매개 변인은 독립 변인에게는 종속 변인으로서의 위상을 갖게 되고, 종속 변인에게는 독립 변인으로서의 위상을 갖게 된다. 물론 실제 독립 변인과는 달리, 그 기능이 규정되어 있지 않고 비가시적인 차원에서 불확실한 수준으로 변인 관계에 개입한다.

매개 변인은 현명한 연구자가 잘 활용하기만 하면 독립 변인과 종속 변인 사이의 논리적 관계에 대한 새로운 통찰을 제공한다. 연구는 전혀 예상치 못한 새로운 국면으로 접어들 수도 있고, 차후의 연구에 대한 좋은 길잡이가 될 수도 있다.

특히 일견 비상식적(?)인 상관관계 사이에는 뜻밖의 (직접)매개변인이 숨어있는 경우가 많다. 예컨대 포스코에서는 공장 내 기계들마다 "고장이 없어서 감사합니다" 라는 문장을 써붙이자 정말로 고장률이 감소했다(?!!)는 것을 확인하여 화제가 되기도 했다. 적어도 데이터가 조작된 게 아니라면, 섣불리 유사과학 딱지를 붙이기 전에 먼저 직접매개효과에 대한 의심을 할 수 있다. 실제로 포스코 자체 조사 결과, 사내 보수관리 인원들이 그 감사의 메시지를 읽으면서 전보다 더욱 정성껏 기계를 닦고 조이고 기름쳤으며(...) 그 때문에 고장이 덜해진 것으로 밝혀졌다. 즉 보수관리 인원들의 근로의 질이 잠재적인 매개효과로 작용하면서 서로 상관없어 보이던 두 변인을 연결시킨 것이다. 다른 정보는 없는 것 같지만, 만약 이 매개변인을 일정하게 통제한다면 두 변인은 (아마도 물이 사람 말을 알아듣거나 식물이 사람 욕설을 알아듣고 발육부진에 걸리는 세상이 아닌 이상에야) 상관관계를 보이지 않을 가능성이 높다. 즉 이 관계는 간접적이라기보다는 직접적인 매개효과일 가능성이 크다.

만일 논문에서 매개효과나 조절효과를 3단계 검정을 통해 알아보고자 한다면, 반드시 추가해야 하는 레퍼런스는 Baron & Kenny(1986)이다.[10] 단, 젊은 연구자들은 점차 Hayes(2009)의 매크로 PROCESS[11]로 옮겨가는 추세이니 자기 학문분야의 트렌드를 잘 읽고 결정하자. PROCESS 무료 다운로드 앤드루 헤이스에 따르면 기존의 문헌은 직접효과와 간접효과의 +/- 값이 서로 다를 가능성을 고려하지 않아,[12] 1단계 분석에서 총효과가 나타나지 않으면 매개효과가 없다고 잘못 판단하게 될 위험이 있다고 한다.
파일:variable-mixed1.png 파일:variable-mixed2.png
혼합형. 조건화 과정 모델링(conditional process modeling)이라고 부른다.
이쯤되면 논문을 읽을 때 석사 수준까지는 슬슬 머리가 아파오기 시작한다.

복잡한 매개모형을 세울 경우 여러 개의 매개 변인들을 동시에 가정하고 분석하기도 한다. X→Y 에 더하여 X→M1→Y 와 X→M2→Y 까지 한번에 분석하는 모형은 다중매개모형이라고 하며, X→Y 에 더하여 X→M1→M2→Y 와 같은 연쇄적 인과관계까지 분석하는 모형은 직렬매개모형이라고 부른다. 여기에 조절변인까지 몇 개 추가하면 모형이 실로 크고 아름다워진다(...).

직접매개모형이든 간접매개모형이든 간에, 유념해야 할 사실은 이 복잡한 인간사 속에는 그야말로 많고 많은 매개 변인들이 잠재적으로 존재한다는 것이다. 직접매개모형을 찾았다 해서 어떤 제3의 매개 변인도 이 관계에 영향을 끼치지 않는다고는 속단할 수 없다. 간접매개모형 역시 "설명되지 않는" 효과의 존재만을 규명할 뿐, 그것이 무엇으로 설명되어야 할지를 알려주진 않는다. 같은 맥락에서, 원론적으로 직접매개모형은 통계의 관점에서 간접매개모형보다 딱히 더 환영받을 이유가 없다.[13] 이를 들어서 앤드루 헤이스는 아예 직접이네 간접이네 하는 용어 자체가 문제라고 주장하고 있다.

마찬가지로 2011년에 크라우스 피들러(K.Fiedler) 등의 연구팀이 실험사회심리학 저널에 게재한 논문에 따르면, 어떤 매개분석이 통계적으로 유의하게 나타났다고 하여 우리가 그것을 꼭 고유한 인과적 매개모형이 입증되었다고 말할 수는 없다고 한다. 이들이 수행한 통계적 시뮬레이션 결과에 따르면, 같은 데이터로 수없이 많은 대안적인 인과적 모형들이 도출될 수 있으며 기존의 모형이 의사매개변인(spurious mediator)일 가능성도 있다고 한다. 결국 매개분석은 우리가 당초 상정했던 매개모형이 통계적으로 얼마나 유의한지 정도만을 보여줄 뿐인, 흔한 오해보다 훨씬 더 소박하고 조심스러운 종류의 분석이라는 것이다.

2.3.3. 외생 변인

Extraneous Variable

독립 변인과 종속 변인 양쪽 모두에게 영향을 미치고 있어서, 실제로는 존재하지 않는 인과관계를 만들어내는 변인. 다시 말해, 변수 x 와 변수 y 의 모두의 변화를 설명할 수 있는 변인이다. 겉으로 보기에는 독립 변인이 원인, 종속 변인이 결과인 것 같지만, 한꺼풀 벗겨보면 외생 변인이 존재하기 때문에 인과관계가 존재하는 것처럼 보일 뿐이다. 만일 외생 변인이 연구자에 의해 통제되면 통제변인(control variables), 통제되지 못하면 교란변인(confounding variables)이라 부른다. 이 과정에서 쓰이는 분석이 다름아닌 공변량분석(co-variate analysis).

상관관계와 인과관계 항목에도 나오지만, 아이스크림 판매량이 증가하면 익사 사망자 수도 증가한다. 얼핏 보면 아이스크림이 사람잡는 음식인 것 같다. 사실은 여름철 더위라는 외생 변인이 존재하기 때문에 거짓 인과관계가 나타나게 되는 것.[14] 다른 예를 들면, 경찰의 수가 많은 지역일수록 범죄 사건이 많아지는 경향이 있는데, 사실 인구가 많은 지역일수록 경찰의 수와 범죄 발생 건수는 자연스럽게 증가한다.
'익사 사망자 수'와 '범죄 발생 건수' 증가를 야기한 외생 변인이자 교란 변인은 '여름 기온'과 '지역 인구'가 되는 것이고, 이들이 연구자에 의해 통제되면 통제변인이 되는 것이다.

다른 한 사례를 들자면, 통계청에서 주관한 제2회 통계 바로쓰기 공모전에서 1위로 입상한 강새하늘 씨의 보고에 따르면 남녀 임금격차에 관여할 것으로 추정되는 혼입변인으로는 주당 평균 근로시간, 퇴직소득자 근속연수, 경제활동인구 연령을 꼽을 수 있다. 그러나 이를 고려하지 않고 단순히 " 남성 평균 및 중위수 임금 vs. 여성 평균 및 중위수 임금" 으로 설명하려는 것은 데이터를 잘못 활용한 사례가 된다는 것이다. 중요한 것은 여성들의 임금 데이터 상에서 나타나는 각종 이상점을 탐지하고, 그 이면의 사회적 시사점으로서 여성의 경력단절 및 연공서열적 직장문화 등을 거론해야 한다는 것이다.

보다시피 외생 변인은 논리와도 밀접한 관계가 있다. 이 링크에서 유사한 오류들을 많이 찾아볼 수 있다. (외생 변인과는 무관한 오류의 사례들도 있으므로 유의)

2.3.4. 통제 변인

Control Variable

연구가 상정하는 가설적 모형 외부에 존재하면서도 연구 내의 변인들에 유의미한 영향을 미칠 것으로 예상되어 연구자가 통제한 변인. 쉽게 말해서, 연구 데이터를 왜곡시킬 수 있는 아까 그 개뼉다귀 변인들[15]을 블랙리스트(?)에 올려놓고, 이들이 연구 환경에 발붙이지 못하도록 실험 조건을 설정함으로써 해당 연구와는 완전히 무관하게 만들어버리는 것이다.[16] 모든 예상 변인들이 연구에 영향을 미치지 못할 것이라고 생각되면, 이제 연구자는 그 실험의 조건에 대해서 "잘 통제되었다" 고 말할 수 있다.

물론 아무리 신경을 쓰더라도 여전히 연구자가 예상치 못한 변인들이 갑툭튀해서 연구결과를 망쳐놓을 위험이 존재한다. 연구자 혼자서는 이러한 변인들을 추적하기가 쉽지 않기 때문에 동료 연구자들과 체계적으로 실험설계 내용과 실험 데이터를 교류하면서 비평을 받게 되는데, 이 과정을 동료평가라고도 한다. 즉 이 사람이 발견하지 못한 변인을 저 사람이 발견해서 "이 연구, 이러이러한 변인이 개입되었을 수 있겠는데요?" 라고 조언해 주는 것이다.

이렇게까지 하더라도 여전히 연구자들은 그들의 데이터가 실제 관계를 온전히 설명하리라고 믿지는 않는다. 단지 최대한 실제에 근사하도록 최선을 다할 뿐. 나머지 자잘한 변인들에 대해서는 약간의 위험을 감수하고 "다른 모든 조건들이 동일할 때"( ceteris paribus) 선언을 하기도 한다.[17] 일종의 가정인데, 현실을 설명하는 능력이 그나마 어느 정도 보존될 수 있으니까 써먹는 것이지, 결코 "현실을 온전히 설명할 수 있어서" 써먹는 게 아니다.(…)[18] 특히 경제학에서 이런 걸 좋아한다.

수학 통계학에서 말하는 "partial out" 이라는 표현과도 유사점이 있다. 변수 A와 변수 B의 상관을 알기 위해 변수 C를 고정시켜서 상수로 만드는 논리는 통제 변인의 논리와도 상통한다.

통제 변인에 대해 '일정하도록(혹은 실험과 무관하도록) 조작'하기 때문에 역시 독립 변인에 들어가지 않을까 생각할 수 있지만 그렇지 않다. 통제 변인을 통제(control)하는 방법은 매우 다양하며 그 중에는 실험 외적으로 통제하는 경우도 있다. 이는 조작(manipulation)이라는 개념을 지나치게 광의로 해석하려 할 때 발생하며, 시중의 통계 교과서나 유명 인강 강사들의 사회조사분석사 참고서들에서도 통제 변인이 독립 변인의 일종이라는 설명은 잘 하지 않는다. 엄밀하게 말하자면, 조작을 했다면 종속 변인에서 나타난 조작의 효과(effect)를 수리적으로 계산할 수 있어야 하는데, '통제 변인이 종속 변인에 끼친 효과'(?)를 계산하는 것이 항상 가능한 것은 아니다.[19] 통제 문서도 함께 참고.

3. 관련 문서

4. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!folding [ 펼치기 · 접기 ] <colbgcolor=#C1F3FF>📝 서론 <colbgcolor=#F7FFFF> 사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론( 이론적 조망) · 연구윤리
🔍 조사방법론 I 변인 · 정의 · 상관관계와 인과관계 · 실험( 실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
자료 · 자료수집( 면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II 표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계 통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법( 분산분석 · 회귀분석)
👔 공인 자격증 사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서 연구방법론 관련 정보
상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨
}}}||

<colbgcolor=#000> 과학 실험 · 연구
Scientific Experiment · Research
{{{#!wiki style="margin:0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
<colbgcolor=#000><rowcolor=#000,#fff> 배경 과학적 방법
탐구 귀납법 · 연역법 · 이론( 법칙 · 공리 · 증명 · 정의) · 창발 · 교차검증 · 오컴의 면도날
실험 실험설계 · 가설 · 관측 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험( 수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구
측정 ·
물리량
측도 · 단위( 차원( 물리 상수 · 무차원량 · 차원분석) · 단위계( SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구( 원기) · 오차( 불확도 · 유효숫자)
연구방법론 경험주의 · 환원주의 · 연구노트( 재현성) · 모형화( 구조방정식 · 혼동행렬 · 회귀분석) · 통계적 검정
연구윤리 뉘른베르크 강령 · 연구투명성 · 연구동의서 · 연구 부정 행위 · 표절( 표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문 ·
과학 공동체
소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식( 초록 · 인용( 양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구
연구방법론 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 }}}}}}}}}


[1] IV라고는 써놨지만 도구 변인(Instrumental Variable)과도 혼용되기에 많이 쓰진 않는다. [2] 실험이 아닌 연구에서는 기준 변인(criterion variable)이라고도 한다. [3] 함수에 다시 비유하자면 y=x+2 라는 식이 있을 때, x 에 무엇을 넣을지는 맘대로지만 y 값은 자신이 투입하는 x 값에 의해서만 결정된다고 봐도 되겠다. [4] 이 단계에서 대체로 개방형 면접법과 같은 질적 연구가 필요하다. [5] 보다 엄밀하게 다시 설명하면, 종속 변인의 변화가 연구자의 기대에 부합하면 영가설(null-hypothesis)을 기각할 수 있게 되고, 연구자의 기대에 어긋나면 영가설을 기각할 수 없게 된다. 이것도 은근 중요한 게, "영가설을 채택한다" 는 말은 존재하지 않는다. [6] 중요한 평가를 앞둔 상황에서 오히려 자신의 역량을 깎아먹는 짓을 자기불구화라고 하는데, 시험 전날 유난히 술을 마시는 학생들이 많다는 점 때문에 교육학에서 흥미롭게 논의한 주제이다. [7] 진보주의자는 교육연수와 지구온난화에 대한 믿음 사이에 정적 상관이 있지만 보수주의자는 부적 상관이 나타난다. 게다가 보수주의자의 경우 교육연수가 높아질수록 분산이 크게 나타난다. 이런 부분들을 조절효과 분석만으로 직관적으로 설명하기는 어려울 수 있다. [8] 엄밀히 정의하면, 간접효과는 X가 한 단위만큼 다를 때 M을 경유하여 Y에 끼치는 영향, 직접효과는 M이 잘 통제된 상태에서 X가 한 단위만큼 다를 때 Y에 끼치는 영향, 총효과는 X가 한 단위만큼 다를 때 Y에 끼치는 영향이 된다. 또한 총효과의 식이 c=c'+ab 로서 성립하려면 데이터 상에서 결측값이 없어야 함에 유의. [9] 실제로 실시해야 하는 회귀분석의 횟수는 4회이지만 통상 3단계로 일컬어진다. [10] 뒤집어 말하자면, 어디서 3단계 검정 이야기를 하면 이 문헌이라고 보면 된다. 이와 관련하여 나중에 제2저자인 데이비드 케니가 "난 그냥 바론이 와서 방법론 논문 쓰자고 졸라대는 통에 적당히 어울려 줬을 뿐인데 이게 이렇게 유명해질 줄은 몰랐다" 며 자뻑(?)성 회고를 했다는 후문이 떠돈다. [11] 사용법은 《매개분석ㆍ조절분석 및 조절된 매개분석》 이라는 제하의 한글 번역서를 참고하면 된다. [12] 즉 간접효과가 존재함에도 불구하고 직접효과가 이를 상쇄해 버려서 총효과의 값이 0이 되어버리는 상황. [13] 오히려 직접매개모형은 표본의 수가 적을수록 잘 나타난다. 그러나 정작 학계에서는 소표본만으로 결과를 도출하는 것에 대해서 굉장히 의심스러워하며, 재현성 연구의 대상으로 삼기도 한다. 대학원생들에게도 이런 분석은 권장하지 않는다. [14] 여름철 더위로 인한 기온 상승은 아이스크림 판매량과 피서지(바닷가, 계곡) 이용객 수를 증가시킨다. [15] 엄밀히 분류하자면 이들도 연구자에 따라서는 독립변인의 한 종류가 될 자격이 있다. 단지 연구자가 그 변인의 영향을 환영하지 않을 뿐. 이러한 불청객 변인을 가리켜서 혼입 변인(confounding variable) 또는 교락 변인이라고도 한다. [16] Mill, 1865. [17] 케테리스 파리부스. 영어로 옮기면 "All other things being equal" [18] 사실 변인을 "통제" 한다는 발상 자체가 이미 현실과 멀어지겠다는 선언을 하는 것과 다름없다. [19] 공분산분석이나 위계적 다중회귀분석을 실시하는 특수한 경우에만 제한적으로 가능하다.