최근 수정 시각 : 2024-10-11 22:27:42

상관관계와 인과관계

파일:다른 뜻 아이콘.svg  
은(는) 여기로 연결됩니다.
다른 뜻에 대한 내용은 아래 문서를 참고하십시오.
통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 ·
자료 시각화
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

<colbgcolor=#000> 과학 연구 · 실험
Scientific Research · Experiment
{{{#!wiki style="margin: 0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
<colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 과학적 방법
기반 수학( 미적분학 · 선형대수학 · 미분방정식) · 통계학( 수리통계학 · 추론통계학 · 기술통계학)
연구· 탐구 논증( 귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론( 법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계( 창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화
연구방법론 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성( 연구노트)
통계적 방법 혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형( 구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도)
측정· 물리량 물리량( 물리 상수 · 무차원량) · 차원( 차원분석) · 측도 · 단위(단위계( SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차( 불확도 · 유효숫자 · 과학적 기수법)
실험 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험( 수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구
연구윤리 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절( 표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회
논문· 과학 공동체 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식( 초록 · 인용( 양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 }}}}}}}}}


1. 상관관계
1.1. 상관계수
2. 인과관계
2.1. 인과관계의 조건 및 추론
3. 상관관계는 인과관계와 다르다
3.1. 쟁점: 설명모형에서와 예측모형에서의 상관관계의 의미
4. 관련 문서5. 둘러보기

1. 상관관계

/ Correlation

어떤 한 통계적 변인[1]과 다른 여러 통계적 변인들이 공변(共變)하는 함수관계를 말한다.

쉽게 말해서, 변인 x가 증가함에 따라 변인 y도 동시에 함께 증가하고, 이후에 변인 x가 감소함에 따라 변인 y도 동시에 감소한다면, x와 y 사이에는 상관관계가 존재한다고 말할 수 있다. 반대로, 변인 x와 y가 정반대 방향으로 움직인다 해도, 즉 x가 증가할 때 y는 감소하고 x가 감소할 때 y는 증가하는 방식이라도, 이것 역시 상관관계라고 말할 수 있게 된다. 입문자용 통계학 책에서 흔히 예로 드는 것이 '키'와 '발바닥의 넓이'의 관계다.

주로 중학교에서 배우게 된다.

둘 이상의 변인들이 "같은 방향으로"[2] 움직이는 것을 양(+)의 상관이라고 하고, "반대 방향으로" 움직이는 것을 음(-)의 상관이라고 한다.

임의로 갖다 붙인 게 아니라 실제로 상관성 모델을 그래프로 그리면 같은 방향은 양의 기울기를, 다른 방향이면 음의 기울기를 갖는다.

만일 두 변인이 제멋대로 움직이면서 따로 놀고 있다면 이는 x의 값에 증감 여부에 따른 y의 값이 증가하는지, 감소하는지 그 관계가 분명하지 않으므로 상관관계가 존재하지 않는다고 한다. 선형의 상관관계는 주로 일차함수의 식으로 나타낼 수 있다.[3]

이때 이러한 상관성의 강도를 선형 회귀로 수치화 시킨 것을 상관계수라고 한다.

산점도에서 각 점들이 한 직선에 대하여 조밀조밀하게 모여있을수록 상관관계가 강하고, 한 직선에 대하여 넓게 흐트러져 있을 경우 상관관계가 약하다고 한다. 또한 상관관계가 없는 산점도의 점들의 배치는 크게 x축 평행선, y축 평행선, 원모양으로 나눌 수 있다.

1.1. 상관계수

파일:상세 내용 아이콘.svg   자세한 내용은 상관계수 문서
번 문단을
부분을
참고하십시오.

2. 인과관계

/ Causality

과학계에서 인과관계는 선행하는 한 변인이 후행하는 다른 변인의 원인이 되고 있다고 믿어지는 관계다.

상관관계는 수학적으로 증명이 가능하지만, 인과관계는 어디까지나 충분한 재현성의 확인, 변인의 배제, 통제집단과 실험집단의 설정과 같은 환경에서 얻어진 실험 데이터를 통해서 누적적으로 뒷받침될 뿐이다. 인과관계를 규명하는 데에 있어서 과학적 방법은 사실상 끝판왕의 입지를 굳혀놓고 있으며 이보다 나은 규명방법은 적어도 아직까지는 발견된 적이 없다. 물론 과학적 방법에도 통계학적 검정의 논리가 굉장히 밀접하게 반영되어 있으며, 통계학에서도 상기된 바 있는 회귀분석 같은 것은 인과성을 가정하고 분석을 실시하므로 양자 간에 완벽하게 선긋기를 할 수는 없다.

변인 x와 변인 y가 상관관계가 존재한다는 것이 밝혀져도, 그 사이에 인과성이 존재하는지 판단하려면 좀 더 주의깊은 고찰이 필요하다. 상관관계는 곧바로 인과관계의 존재를 암시하지 않는다. 단지 인과관계가 성립되기 위한 하나의 필요조건일 뿐. 즉 어떤 상관관계가 확인되면, 잠재적 인과관계에 대해서는 다음과 같은 다섯 가지 경우가 있다.
  • 첫째, 처음부터 인과관계 같은 건 없었다. 단순한 우연의 일치였던 것.
  • 둘째, 연구에 반영되지 않았던 제3의 변인 z가 x와 y 두 변인에게 영향을 끼칠 수 있다.[4]
  • 셋째, 인과관계가 존재하기는 하는데, 서로가 서로에게 원인인 동시에 결과가 된다.[5]
  • 넷째, 인과관계가 존재하기는 하는데, x가 원인이고 y가 결과가 된다.
  • 다섯째, 인과관계가 존재하기는 하는데, y가 원인이고 x가 결과가 된다.

자연과학에서 자연법칙은 확실성의 원리를 따른다. 즉 세계 어디서든, 과거/현재/미래 등 시점에 상관 없이 1기압이라는 같은 압력에서 섭씨 100도가 되면 물은 수증기가 된다. 구름은 상승 기류가 이슬점에 도달했을 때 어디서든 형성된다. 반면 사회과학은 이 원리가 항상 성립하지 않아 인과관계의 입증이 훨씬 더 어렵고 복잡하다. 그래서 사회과학자들은 항상 조심스럽게 인과관계를 확인하며, 예외가 발생할 수 있음을 인식하고 있다.

2.1. 인과관계의 조건 및 추론

무엇와 무엇이 서로 인과관계로 이어져 있음을 판단하기 위해서는, 먼저 다음의 조건들이 성립해야 한다. 다음 내용은 각종 조사방법론 교과서들이나 사회조사분석사 참고서에도 잘 설명되어 있다. 의학적 인과관계의 추론법으론 힐의 기준이 있다.
  • 공변성(covariation): 일단 그 두 가지가 '함께 움직이는' 경향을 보여야 한다. 다시 말해, 관찰된 변인 A가 변화할 때 관찰된 변인 B도 함께 변화해야 하지, A가 변화했는데 B는 감감 무소식이거나, A는 가만히 있는데 B가 갑자기 저 혼자 변화하거나 하는 상황에서는 인과관계를 의심하기 힘들다. 일단 공변성이 드러난다면, 물론 여전히 인과관계가 없을 가능성도 있지만, 일단은 인과관계를 의심할 수 있다.
  • 선후관계(time order): 시간적으로 어느 하나가 먼저 변화했을 때 다른 하나가 뒤따라 변화하는 관계여야 한다. 즉, 변인 A의 변화에 변인 B의 변화가 수반(contingent)되어야 한다. 이 경우 먼저 변화한 쪽의 변인이 원인이 되고, 나중에 변화한 쪽의 변인이 결과가 되리라는 의심을 할 수 있다. 물론 이것만으로는 무엇이 원인이고 무엇이 결과인지 확신하기는 어렵다. 서로가 서로에게 원인이면서 결과인 관계도 많기 때문이다.
  • 비허위성(non-spuriousness): 두 변인이 공변하고, 시간적 선후관계가 존재함에 더하여, 이러한 변화의 양상이 제3의 다른 변인으로는 설명될 수 없어야 한다. 즉 다른 외생변인이 혼입되어 부지불식간에 거짓 인과관계를 형성했다는 대안적 설명이 불가능해야만 한다. 실험법에서는 이 문제를 해결하기 위해서 변인의 통제(control)에 많은 신경을 쓴다.

때로는 어떤 특정 결과를 유발하는 원인을 찾기 위해서 잠재적인 인과관계를 탐색해야 하는 경우도 있다. 예를 들어, 무엇이 범죄를 저지르게 하는지에 대한 연구(즉, "범죄를 저지름" 이라는 특정한 결과와 인과관계로 엮이는 원인을 찾는 연구)를 하고 있고, 이를 위해서 몇 가지의 가능한 원인들이 후보에 올랐다고 가정한다.
사례 원인 후보들 결과
사이코패스 성향 부모의 양육 문제 경제적 어려움 학교생활 부적응
A씨 X X O O 일반인
B씨 X O O O 살인마

하나의 방법은, 위의 예시처럼 여러 원인의 후보들이 서로 가능한 한 비슷하면서도 결과는 서로 달라지는 두 사례를 놓고 비교하는 것이다. 서로 다른 결과가 초래되었을 때, 서로 동일하게 작용한 원인 후보는 원인이 아니라고 판단하여 배제하고, 서로 다르게 작용한 원인 후보가 진짜 원인일 거라고 가정하는 것이다. 짧게 말해, 결과가 달라졌는데 원인이 같을 수는 없다. 위의 예시에 적용할 경우, A씨는 준법시민의 삶을 살고 B씨는 범죄자의 삶을 살게 된 이유는, 다른 게 아니라 부모가 적절한 훈육을 하지 않았기 때문이라고 판단할 수 있다. 이것을 종종 차이법(method of difference)이라고 부르기도 한다.
사례 원인 후보들 결과
사이코패스 성향 부모의 양육 문제 경제적 어려움 학교생활 부적응
C씨 O O O O 살인마
D씨 X O X X 살인마

또 다른 방법은, 위의 예시처럼 여러 원인의 후보들이 서로 극명하게 다르지만 어쨌든 동일한 결과가 나타난 두 사례를 놓고 비교하는 것이다. 서로 동일한 결과가 초래되었다면, 서로 다르게 작용한 원인 후보는 원인이 아니라고 판단하여 배제하고, 서로 동일하게 작용한 원인 후보를 진짜 원인으로 가정하는 것이다. 짧게 말해, 결과가 같다면 원인도 같아야 한다. 위의 예시에 적용할 경우, C씨와 D씨 모두 똑같은 악질 범죄자이지만 서로 무척 상이한 삶을 살아왔는데, 이들이 범죄자가 된 이유는 부모에게 적절한 훈육을 받지 못했다는 공통점에서 찾을 수 있다. 이를 다른 말로 일치법(method of agreement)이라고 부르기도 한다.

3. 상관관계는 인과관계와 다르다


파일:xkcd correlation ko.png
xkcd 552화. '어쩌면'이라는 답변이 걸작이다.
"cum hoc, ergo propter hoc"
(그것과 함께, 그러므로 그 때문에)
"상관관계는 곧바로 인과관계로 이어지지 않는다", "상관관계만으로는 인과관계를 장담할 수 없다", "상관관계는 인과관계를 암시하지 않는다", "상관관계는 인과관계의 필요조건(necessary condition)이다" 등등 다양한 표현들로 변용될 수 있다. 변인 A와 변인 B가 상관관계에 있다고 해서 한쪽 변인이 다른 한 쪽의 변인의 원인임이 반드시 입증되지 않는다. 원인이 되는 변인이 단 하나가 아니고 수많은 변인들이 원인으로서 작용하는 사례들이 있기 때문이다. 관련 속담으로는 " 까마귀 날자 배 떨어진다"가 있다.

다음의 사례를 보자.[6]
한 연구자가 아이스크림 판매량의 연중 증감 추이를 확인했다. 그리고 연중 익사 사망자의 증감 추이를 함께 놓고 두 변인 간의 상관분석을 시행해 보았다. 결과는 놀라웠다. 무서울 정도로 명백한 상관관계가 나타나고 있었다. 아이스크림 판매량이 급증하는 동안, 익사 사망자 수도 함께 증가하고 있었으며, 판매량이 감소하는 동안 익사 사망자 수도 감소하고 있었던 것이었다.

연구자는 몸서리를 치면서 다음과 같은 결론을 내렸다. "익사 사망자의 증감은 아이스크림이 그 원인이다."[7]

위에 서술된 내용들을 꼼꼼히 읽어보았다면 무엇이 문제인지 금세 짐작할 수 있을 것이다. 주지하다시피 이 연구자는 제3의 변인, 즉 "여름 평균온도" 라는 변인을 전혀 고려하지 않았다. 여름 평균온도가 아이스크림 판매량의 원인 중 하나이고,[8] 여름 평균온도가 익사 사망자 수의 원인 중 하나인 것이다. 보다 정확히 말하면 여름 평균온도의 증가가 피서객의 수를 증가시키고, 피서객의 수의 증가가 다시 익사자 수의 증가로 이어진다고 할 수 있겠다. 익사 사망자 수의 원인으로 꼽을 만한 다른 변인들로는 안전 불감증, 국지 기후의 변화, 해수욕장 및 수영장의 안전교육 현황, 세이프가드 및 해경요원의 수 등이 있을 것이다. 그러나 상관관계에 대한 연구만을 수행해 놓고, 정작 인과관계를 규명할 연구는 진행하지 않은 채 상관관계에 대한 결론으로 이어진 것이다.

위에서는 조금은 우스운 사례를 들었지만, 학술세계와 사회 각 영역에서 벌어지는 열띤 논쟁들 중에도 사실 상관관계와 인과관계의 차이를 감안해야 하는 것들이 많이 있다. 폭력적인 영상을 본 어린이는 폭력적인 사람으로 변하게 될까? 물론 그럴 수도 있겠지만, 폭력적인 것을 원래 좋아하기 때문에 폭력적인 영상을 보는 건 아닐까? 자살을 부추기는 음악을 반복해서 듣게 되면 멀쩡한 사람도 자살하게 될까? 그렇다고 섣불리 판단하기 전에, 애초에 우울증과 스트레스, 약물 남용으로 고통받던 사람이 자살을 부추기는 음악에 빠져드는 건 아니었을까? 종교적 교리가 멀쩡한 사람을 반지성적, 반계몽적으로 만들까? 아니면 거꾸로, 종교 의례나 공동체적 결속이 무지한 사람들에게 더 호소력을 갖고 있는 건 아닐까? (이 주제에 대해서는 이런 방식으로도 생각해 보라는 것이지, 이런 설명이 무조건 정답이라는 주장은 아니므로 유의.)

그렇다면 인과관계를 확인하려면? 답은 간단하다. 인류는 이 질문에 답하기 위해 이미 실험이라는 아주 믿을 만한 방법을 고안했다. 그리고 이 방법에 의지하면서 인과관계를 하나씩 둘씩 확인하는 사람들이 존재하는데, 우리는 그것을 자신의 직업으로 삼은 사람들을 가리켜서 과학자라고 부른다.

간혹 통계적 방법 중에서도 인과성을 반영하는 통계분석을 하기도 한다. 회귀 분석과 이를 바탕으로 개발한 심화 분석방법인 경로분석 및 구조방정식 모형(SEM)이 바로 그것. 여기서는 모형 속의 변인들 사이에 화살표를 그을 때 인과관계라는 의미로 화살표를 긋는다. 그 정당화 논리는 회귀분석에서 상관관계를 직접효과와 간접효과로 분해하고, 제3의 변인의 존재를 의미하는 의사효과, 그리고 매개효과(mediation effect)까지도 통계적으로 반영할 수 있다는 점에 있다. 하지만 비판적인 통계학자들은 그것 역시 엄밀히 말하면 경로상의 인과관계일 뿐 현실의 인과관계는 아님을 들어 반론한다. 현실의 인과관계를 통계적으로 보여주려면 우선 그 경로모형 자체가 100% 완벽해야 하는데, 이는 현실적으로 어떤 연구자에게도 불가능한 요구이거니와, 설령 그런 모형을 완벽히 세웠다고 하더라도 대개는 매우 지저분하고 복잡해지기 때문. 물론 이렇게까지 엄격하게 따지자면 실험법도 현실적으로는 할 말이 없는 건 매한가지이므로(...) 아예 다같이 연구 때려치자고 할 게 아니라면 대개의 실용주의적인 연구자들은 큰 문제 없이 최대한 타당하게 만들어 놓은 통계적 모형이 있다면 대충 인과성이 있을 거라 너그럽게 전제해 주는 편이다.

덧붙여, 변인 x 와 변인 y 사이의 상관관계와 인과관계가 모두 규명되었다고 하더라도, 그것이 변인 w 와 변인 y 사이의 상관관계나 인과관계를 보장하는 것 또한 물론 아니다. 변인 w 와 변인 y 사이의 관계를 확인하려면 다시 통계적 검증을 하든지 실험을 하든지 해서 밝혀내야 한다. 예를 들어, 일부 어르신들은 수액 만병통치약이라고 잘못 이해하는 경우가 있는데, 이것은 50~70년대에 설사에 걸린 어린이들이 끙끙 앓다가 수액을 처방받은 후 팔팔하게 뛰어다니는(…) 것을 보았기 때문이다. 그러나 수액이 설사에 효과가 있다는 것이 곧바로 수액은 다른 병에도 똑같은 효과를 보일 거라는 결론으로 이어지는 것은 아니다.

실제로, 한때 자전거를 타는 것은 건강에 몹시 좋지 않다는 주장이 퍼진 적이 있었다. 1897년에 《National Reviews》 에 등재된 주장으로서, 의학적 관점에 따르면 사이클 경기 선수들 사이에서 불면증이 퍼져 있고, 자전거를 타는 여성들 사이에서 맹장염, 두통, 갑상선염 등이 발생하는 경향이 있다는 것. 그러나 이러한 사례들은 임상적으로 어떠한 인과관계를 찾아볼 수 없는 것들 뿐이며, 오늘날 자전거를 타는 것이 이러한 문제를 일으킨다고 주장하는 사람은 어디에도 없다.

이를 비판하기 위해 아무 연관이 없는데 비슷하게 생긴 그래프들을 모아놓은 사이트도 있다

3.1. 쟁점: 설명모형에서와 예측모형에서의 상관관계의 의미

책임 있는 의사결정을 하기 위해서는 상관관계 정보만으로도 충분할까, 아니면 인과관계까지 입증되어야 할까? 놀랍게도, 학문적으로 추구하는 방향에 따라서 이에 대한 답이 달라질 수 있다. 예를 들어, 발전소를 운영하는 기업의 주식가치가 남미의 바나나 생산량과 강한 상관관계를 가지고 있지만, 둘 사이에는 상식적으로 아무런 인과관계가 없다고 기대될 수 있다. 더 극단적인 예로는 위에서 소개했던 여름철 익사사고와 아이스크림 판매량 간의 상관관계를 생각할 수 있다. 이러한 상관관계 정보에만 의지해서 어떤 의사결정을 하는 것이 '충분하다' 고 말할 수 있을까? 이것은 그 의사결정의 목적이 설명인지 아니면 예측인지에 따라서 달라지게 된다.

위의 사례들을 바탕으로 내려지는 의사결정을 위험하다고 생각했다면 설명적 모형을 바탕으로 하는 의사결정을 떠올린 것이다. 의학, 약학, 심리학 등의 분야들에서는 여러 변인들 간의 인과적 메커니즘을 엄밀하게 분해하는 것이 학술활동의 핵심이 되며, 이들은 으레 설명을 목적으로 하는 모형을 수립하게 된다. 상경계열을 제외한 일반 사회과학계에도 이 논리가 대체로 통용된다. 이 인식은 국가공인 자격시험에서도 마찬가지다. 사회조사분석사 시험범위에서는 상관관계 이상의 인과관계를 설득하려면 상기했던 '비허위성' 이 반드시 입증되어야 한다고 가르친다. 이 분야들에서는 여름철 익사사고와 아이스크림 판매량에 대해 잘못된 인과관계로 설명하는 함정에 빠지는 것을 극도로 경계한다.

반면 위의 사례들을 바탕으로 내려지는 의사결정이 현실적으로 해볼 만한 것이라고 생각했다면 예측모형을 바탕으로 하는 의사결정을 떠올린 것이다. 경제학, 경영학, 데이터과학 등의 분야들에서는 이 변인(들)의 변화를 통해 저 변인의 변화를 예측하는 것이 학술활동의 핵심이 되며, 이들은 으레 예측을 목적으로 하는 모형을 수립하게 된다.[9] 이들은 비허위성이 보장되는 인과관계를 ( 다른 모든 것이 불변한다는 전제 하에) 단순히 '특수한 종류의' 상관관계일 뿐이라고 인식한다. 심지어 국가공인 자격시험인 ADP/ADsP 시험범위에서는 빅데이터가 도래함으로써 '인과관계의 시대는 가고 상관관계의 시대가 왔다' 고까지 호언한다. 이 분야들에서는 아이스크림 판매량이 늘어날 때쯤이면 익사사고 발생건수도 늘어나리라고 무난히 예측할 수 있다고 본다.

어느 쪽이 옳은 것일까? 이것은 당초의 문제의 해결을 위해서 설명모형이 적합한지 아니면 예측모형이 적합한지를 따져봐야 하는 상황이다. "왜 익사사고가 발생하는가" 같은 질문에 대해서는 설명모형을 세워야 하고, 당연히 인과관계 정보가 필요하다. "언제 익사사고가 발생하는가" 같은 질문에 대해서는 예측모형을 세울 수 있고, 이때는 아이스크림 판매량과의 상관관계만으로도 충분히 실용적인 예측이 나온다. 하지만 사회과학 학문들 간의 인식차가 매우 크다 보니[10] 서로 다른 분야의 전공자들이 만나면 잡음이 발생하게 된다.

가상의 예를 들자면, 예측모형을 정당화하기 위해 상관관계 데이터만을 투입한 하급자 연구원에게 상급자 연구원이 왜 인과관계를 입증하지 않았느냐며 타박하는 상황을 들 수 있다. 이때 하급자 연구원은 '이런 방식의 의사결정은 업계 표준이고 대학원에서도 당연히 그렇게 하는 거라고 배웠는데 윗사람이 뭣도 모르면서 쓸데없이 꼰대질한다' 고 생각하게 마련이고, 상급자 연구원은 '통계 하나만큼은 자신있다고 해서 믿고 맡겨 봤더니 이건 뭐 기초적인 연구논리도 모르는 바보였다' 라며 줄담배를 태우게 마련이다. 이것은 윗사람은 설명모형이 필요하다고 봤던 반면 아랫사람은 예측모형으로 그 문제에 접근해도 된다고 봤기 때문이다. 이것은 문제의 정의 단계에서부터 명확하지 못했기 때문에 이런 혼선이 발생한 것이다.

정리하면, 양쪽 모두 상황에 따라서 적합할 수도 있지만 그렇지 않을 수도 있다. 설명모형이 필요한 상황에서 인과관계가 입증되지 않았다면 아예 솔직하게 "우리 손에 있는 건 그저 한 시점의 상관관계 데이터뿐이고, 이것만으로 인과관계를 분석하기엔 택도 없으니, 우리는 인과관계 분석은 포기하겠다" 고 보고하는 것이 신뢰감을 준다. 정말 까다롭게 구축한 SEM에서 가정되는 인과성조차 학자들의 맹폭격을 받는 게 비일비재한 상황에서 "상관관계만으로 인과관계를 가정하는 것은 유용하다" 는 언급은 심각하게 나이브하게 보일 수 있다. 반면 예측모형이 필요한 상황에서는 주어진 시점에서 가용한 정보에 제한이 있어 상관관계만을 파악할 수 있더라도 충분히 믿을 만한 예측이 나오고, 즉시로 적용할 수 있는 (그 시점에서의) 최선의 전략이 얻어진다. 시간이 지나 이러한 예측이 반복되다 보면 결과적으로 그 통찰은 설명모형에 가까워지면서 옳은 예측이 늘어나고 틀린 예측은 감소할 것이다. 물론 인과관계까지 입증됐을 때는 설명과 예측 모두가 가능해진다.

이것이 문제가 되는 것은 예측이 설명으로 오도되기 쉬울 때이다. X와 Y 사이에 상관관계가 명확한 반면 인과관계에 대해서는 의심받고 있다고 가정해 보자. "Y를 원한다면 X를 하면 된다" 식의 전략적 조언은 상관관계 정보만을 기초로 하는 예측적 조언임에도 불구하고, 만일 높으신 분들이나 정부 공권력 혹은 유명인사가 공식석상에서 그런 발언을 했다면, 혹은 대중에게 있어 두 변인 간의 인과관계가 통념적으로 인정되는 경우라면, 최선의 예측임에도 불구하고 인과관계가 오인되는 문제가 발생할 수 있다. 실제로 X가 증가할 때 Y가 증가하는 패턴이 발견됐다면 그 발언자는 충분히 합리적으로 그런 발언을 할 수 있겠지만, 이것이 대중적으로는 두 변인 간의 인과관계의 허위성을 은폐해 버릴 수도 있다. 상관관계 정보는 사회적으로 오용될 가능성이 크다는 것이다.

4. 관련 문서

5. 둘러보기

🏬 사회과학 조사·연구 방법론 둘러보기
{{{#!wiki style="margin: 0px -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -2px -11px"
<colbgcolor=#C1F3FF>📝 서론 <colbgcolor=#F7FFFF,#191919> 사회과학 · 과학적 방법 · 사회조사 · 연구 · 가설 · 이론( 이론적 조망) · 연구윤리
🔍 조사방법론 I 변인 · 정의 · 상관관계와 인과관계 · 실험( 실험설계 · 통제 · 통제집단과 실험집단) · 사례연구
자료 · 자료수집( 면접법 · 초점집단면접법 · 질문지법 · 관찰법) · 코딩
📈 조사방법론 II 표본조사 · 지표 · 측정 · 신뢰도와 타당도 · 지수 · 척도
📊 사회통계 통계적 방법 · 기술통계학 · 확률 및 분포 · 추론통계학 · SPSS · 분석기법( 분산분석 · 회귀분석)
👔 공인 자격증 사회조사분석사 · 빅데이터분석기사 · 국가공인 데이터분석 전문가
📂 메타 문서 연구방법론 관련 정보
상기 문서들은 한국통계진흥원 및 한국산업인력공단의 출제범위에 의거하여 엄격히 망라되어 있으며, 동 기관의 과목별 구분·명명에 의거하여 조사방법론은 2파트로 구분됨
}}}}}}}}} ||



[1] 이는 조작적 정의를 통해서 양적으로 측정 가능해야 한다. 질적 데이터는 통계적으로 다루기가 불가능하거나 극도로 까다롭다. 예를 들어, "운동 실력과 친구들 사이에서의 인기"의 상관관계를 연구하고자 한다면, 각각을 어떻게 정의해서 측정해야 할까? 운동 실력은 무엇을 기준으로 평가해야 할까? "그 아이는 완전 인기가 있어요!"라는 증언과, "그 아이는 엄청 인기쟁이예요!"라는 증언 중 어느 쪽이 더 "높은" 인기를 보여주는가? [2] 편의상 이렇게 서술하나, 논리학적으로 잘 정의되지 않은 표현이다. [3] 예를 들어 x와 y의 관계를 나타내는 것으로 가장 적절한 자료를 찾는 문제 등 [4] 하단에 한번 더 소개할 의사효과(spurious effect)가 바로 이것이다. 일단 의사효과로 판명되면, 이 역시 인과관계로 취급하지 않는다. [5] 예컨대 지역별 출산율과 지역별 산부인과 수를 고려할 수 있다. 어떤 동네 사람들이 자녀를 안 낳기 시작하면, 장사가 안 되는 산부인과 의사들이 영업을 접고 다른 곳으로 전출하거나 혹은 직종을 바꾼다. 그 결과, 동네에 산부인과가 없어서 육아여건이 열악하다는 것을 알게 된 예비 부모들이 더더욱 자녀를 낳지 않는다. 그리고 그 결과, 다시 더 많은 산부인과 의사들이 폐업하게 되는 악순환이 벌어진다. 고령화 문제로 어려움을 겪는 농어촌에서 어떻게든 보건소 산부인과에는 죽어라 예산을 퍼붓는 이유가 세금이 눈먼 돈이어서가 아니라 바로 이것이다. [6] 참고로 시중에 나와 있는 《시작하세요! 데이터 분석 with R》 초판의 211페이지에서 이 사례를 고스란히 복붙하고 "출처: 나무위키" 를 달아놓았다(…). [7] 또는 "익사자를 줄이려면 아이스크림을 덜 팔아야 한다."라는 베리에이션도 있다. [8] 아이스크림 판매량의 원인으로 꼽을 만한 다른 변인들로는 광고효과, 시장의 확대, 신제품 개발 등이 있다. 경제학을 전공했다면 단시간 내에 숱한 변인들을 찾아낼 수 있을 것이다. [9] 특히 시계열 데이터를 바탕으로 하는 예측은 예상(forecasting)이라고 불리는 특수한 예측 활동에 속하며, 예상을 가르치는 많은 교과서들은 상관관계 정보만으로도 의사결정을 하기에 충분하다고 가르치고 있다. [10] 대표적으로 경제학계의 경우 자신들을 일반적인 사회과학 분야들로부터 분리시켜 생각하는 경향이 있으며 오히려 통계학 수학계에 맹렬한 소속감을 드러내는 인물들도 있다. 문제는 학문적 정체성이 방법론적 깊이의 우열을 결정하지는 않는다는 것이다. 메타분석 논의의 깊이가 얕은 분야라고 해서 의학계보다 방법론적으로 덜 엄격하다고 말할 수 없는 것과 같다. 마찬가지로 인과관계를 모르는 상태로 내려지는 의사결정에 대해서 엄격하지 못하다고 무작정 비판하는 것도 잘못되었다.