최근 수정 시각 : 2019-04-06 18:40:38

상관관계와 인과관계

상관관계에서 넘어옴
1. 상관관계
1.1. 상관 계수
2. 인과관계3. 상관관계는 인과관계와 다르다
3.1. 예측에 있어서의 상관관계와 인과관계3.2. 상관관계와 인과관계의 구분
4. 메커니즘 밝혀내기5. 관련 문서

1. 상관관계

相關關係 / correlation

어떤 한 통계적 변인[1] 과 다른 여러 통계적 변인들이 공변(共變)하는 함수관계를 말한다.

쉽게 말해서, 변인 x 가 갑자기 확 증가하자 변인 y 도 동시에 확 증가하고, 이후에 변인 x 가 감소하자 변인 y 도 동시에 감소한다면, x 와 y 사이에는 상관관계가 존재한다고 말할 수 있다. 반대로, 변인 x 와 y 가 정반대 방향으로 움직인다 해도, 즉 x 가 증가하면 y 는 감소하고 x 가 감소하면 y 는 증가하는 방식이라도, 이것 역시 상관관계라고 말할 수 있게 된다. 입문자용 통계학 책에서 흔히 예로 드는 것이 '키'와 '발바닥의 넓이'의 관계다.

둘 이상의 변인들이 "같은 방향으로"[2] 움직이는 것을 양(+)의 상관이라고 하고, "반대 방향으로" 움직이는 것을 음(-)의 상관이라고 한다. 임의로 갖다붙인게 아니라 실제로 상관을 그래프로 그리면 같은 방향은 양의 기울기를, 다른 방향이면 음의 기울기를 갖는다. 만일 두 변인이 제멋대로 움직이면서 따로 놀고 있다면 이는 상관관계가 존재하지 않는다는 의미이다. 선형의 상관관계는 주로 일차함수의 식으로 나타내어질 수 있다.

1.1. 상관 계수

상관 계수 문서 참조.

2. 인과관계

因果關係 / causality

인과관계는 선행하는 한 변인이 후행하는 다른 변인의 원인이 되고 있다고 믿어지는 관계이다.

상관관계는 수학적으로 증명이 가능하지만, 인과관계는 어디까지나 충분한 재현성의 확인, 변인의 배제, 통제집단과 실험집단의 설정과 같은 환경에서 얻어진 실험 데이터를 통해서 누적적으로 뒷받침될 뿐이다. 인과관계를 규명하는 데에 있어서 과학적 방법은 사실상 끝판왕의 입지를 굳혀놓고 있으며 이보다 나은 규명방법은 적어도 아직까지는 발견된 적이 없다. 물론 과학적 방법에도 통계학적 검정의 논리가 굉장히 밀접하게 반영되어 있으며, 통계학에서도 상기된 바 있는 회귀분석 같은 것은 인과성을 가정하고 분석을 실시하므로 양자 간에 완벽하게 선긋기를 할 수는 없을 것이다.

변인 x 와 변인 y 가 상관관계가 존재한다는 것이 밝혀져도, 그 사이에 인과성이 존재하는지 판단하려면 좀 더 주의깊은 고찰이 필요하다. 이하에 자세히 서술되겠지만 상관관계는 곧바로 인과관계의 존재를 암시하지 않는다. 단지 인과관계가 성립되기 위한 하나의 필요조건일 뿐. 즉 어떤 상관관계가 확인되면, 잠재적 인과관계에 대해서는 다음과 같은 다섯 가지 경우가 있다.

  • 첫째, 처음부터 인과관계 같은 건 없었다. 단순한 우연의 일치였던 것.
  • 둘째, 연구에 반영되지 않았던 제3의 변인 z 가 x 와 y 두 변인과 인과관계에 있을 수 있다.
  • 셋째, 인과관계가 존재하기는 하는데, 서로가 서로에게 원인인 동시에 결과가 된다.
  • 넷째, 인과관계가 존재하기는 하는데, x 가 원인이고 y 가 결과가 된다.
  • 다섯째, 인과관계가 존재하기는 하는데, y 가 원인이고 x 가 결과가 된다.

자연과학에 있어서 다행스러운 것은, 자연 법칙이라는 것은 확실성의 원리를 따른다는 것이다. 즉 세계 어디서든, 과거이건 현재건 미래건 간에 같은 압력에서 섭씨 100도가 되면 물은 수증기가 된다. 구름은 상승기류가 이슬점에 도달했을 때 어디서든 형성된다. 불행히도 사회과학은 그렇지가 못하기 때문에 인과관계의 입증이 훨씬 더 어렵고 복잡하다. 그래서 사회과학자들은 항상 조심스럽게 인과관계를 확인하며, 예외가 발생할 수 있음을 인식하고 있다.

3. 상관관계는 인과관계와 다르다


파일:xkcd correlation ko.png
xkcd 552화. '어쩌면'이라는 답변이 걸작이다.
"cum hoc, ergo propter hoc"
(그것과 함께, 그러므로 그 때문에)
"상관관계는 곧바로 인과관계로 이어지지 않는다", "상관관계만으로는 인과관계를 장담할 수 없다", "상관관계는 인과관계를 암시하지 않는다", "상관관계는 인과관계의 필요조건(necessary condition)이다" 등등 다양한 표현들로 변용될 수 있다. 변인 A와 변인 B가 상관관계에 있다고 해서 한 쪽 변인이 다른 한 쪽의 변인의 원인임이 반드시 입증되지 않는다. 원인이 되는 변인이 단 하나가 아니고 수많은 변인들이 원인으로서 작용하는 사례들이 있기 때문이다. 관련 속담으로는 "까마귀 날자 배 떨어진다" 가 있다.

다음의 사례를 보자.
한 연구자가 아이스크림 판매량의 연중 증감 추이를 확인했다. 그리고 연중 익사 사망자의 증감 추이를 함께 놓고 두 변인 간의 상관분석을 시행해 보았다. 결과는 놀라웠다. 무서울 정도로 명백한 상관관계가 나타나고 있었다. 아이스크림 판매량이 급증하는 동안, 익사 사망자 수도 함께 증가하고 있었으며, 판매량이 감소하는 동안 익사 사망자 수도 감소하고 있었던 것이었다.

연구자는 몸서리를 치면서 다음과 같은 결론을 내렸다. "익사 사망자의 증감은 아이스크림이 그 원인이다."

위에 서술된 내용들을 꼼꼼히 읽어보았다면 무엇이 문제인지 금세 짐작할 수 있을 것이다. 주지하다시피 이 연구자는 제3의 변인, 즉 "여름 평균온도" 라는 변인을 전혀 고려하지 않았다. 여름 평균온도가 아이스크림 판매량의 원인 중 하나이고,[3] 여름 평균온도가 익사 사망자 수의 원인 중 하나인 것이다. 보다 정확히 말하면 여름 평균온도의 증가가 피서객의 수를 증가시키고, 피서객의 수의 증가가 다시 익사자 수의 증가로 이어진다고 할 수 있겠다. 익사 사망자 수의 원인으로 꼽을 만한 다른 변인들로는 안전 불감증, 국지 기후의 변화, 해수욕장 및 수영장의 안전교육 현황, 세이프가드 및 해경요원의 수 등이 있을 것이다. 그러나 상관관계에 대한 연구만을 수행해 놓고, 정작 인과관계를 규명할 연구는 진행하지 않은 채 인과관계에 대한 결론으로 이어진 것이다.

위에서는 조금은 우스운 사례를 들었지만, 학술세계와 사회 각 영역에서 벌어지는 열띤 논쟁들 중에도 사실 상관관계와 인과관계의 차이를 감안해야 하는 것들이 많이 있다. 폭력적인 영상을 본 어린이는 폭력적인 사람으로 변하게 될까? 물론 그럴 수도 있겠지만, 폭력적인 것을 원래 좋아하기 때문에 폭력적인 영상을 보는 건 아닐까? 이 주제에 대해서는 이런 방식으로도 생각해 보라는 것이지, 이런 설명이 무조건 정답이라는 주장은 아니므로 유의. 자살을 부추기는 음악을 반복해서 듣게 되면 멀쩡한 사람도 자살하게 될까? 그렇다고 섣불리 판단하기 전에, 애초에 우울증과 스트레스, 약물 남용으로 고통받던 사람이 자살을 부추기는 음악에 빠져드는 건 아니었을까? 종교적 교리가 멀쩡한 사람을 반지성적, 반계몽적으로 만들까? 아니면 거꾸로, 종교 의례나 공동체적 결속이 무지한 사람들에게 더 호소력을 갖고 있는 건 아닐까?

그렇다면 인과관계를 확인하려면? 답은 간단하다. 인류는 이 질문에 답하기 위해 이미 실험이라는 아주 믿을 만한 방법을 고안했다. 그리고 이 방법에 의지하면서 인과관계를 하나씩 둘씩 확인하는 사람들이 존재하는데, 우리는 그것을 자신의 직업으로 삼은 사람들을 가리켜서 과학자라고 부른다.

덧붙여, 변인 x 와 변인 y 사이의 상관관계와 인과관계가 모두 규명되었다고 하더라도, 그것이 변인 w 와 변인 y 사이의 상관관계나 인과관계를 보장하는 것 또한 물론 아니다. 변인 w 와 변인 y 사이의 관계를 확인하려면 다시 통계적 검증을 하든지 실험을 하든지 해서 밝혀내야 한다. 예를 들어, 일부 어르신들은 수액 만병통치약이라고 잘못 이해하는 경우가 있는데, 이것은 50~70년대에 설사에 걸린 어린이들이 끙끙 앓다가 수액을 처방받은 후 팔팔하게 뛰어다니는(…) 것을 보았기 때문이다. 그러나 위키러 여러분이 잘 이해하다시피, 수액이 설사에 효과가 있다는 것이 곧바로 수액은 다른 병에도 똑같은 효과를 보일 거라는 결론으로 이어지는 것은 아니다.

실제로, 한때 자전거를 타는 것은 건강에 몹시 좋지 않다는 주장이 퍼진 적이 있었다. 1897년에 《National Reviews》 에 등재된 주장으로서, 의학적 관점에 따르면 사이클 경기 선수들 사이에서 불면증이 퍼져 있고, 자전거를 타는 여성들 사이에서 맹장염, 두통, 갑상선염 등이 발생하는 경향이 있다는 것. 그러나 이러한 사례들은 임상적으로 어떠한 인과관계를 찾아볼 수 없는 것들 뿐이며, 오늘날 자전거를 타는 것이 이러한 문제를 일으킨다고 주장하는 사람은 어디에도 없다. 페미니즘 운동가들은 이것이 여성들로 하여금 자전거를 타지 못하게 하려는 남성들의 압제[4] 때문이라고 종종 주장하기도 한다. #

3.1. 예측에 있어서의 상관관계와 인과관계

그러나 예측을 위해서는 인과관계가 있음을 입증해야만 하는 것이 아니며, 상관관계의 존재만으로 충분하다. 예를 들어 발전소를 운영하는 기업의 주식가치가 남미의 바나나 생산량과 강한 상관관계를 가지고 있다고 하자. 그렇다면, 바나나 생산량을 사용해서 발전소 기업의 주식가치를 예측하는 것은, 상식적으로는 둘 사이에 아무 인과관계도 없지만, 실질적으로는 유용한 방법일 수 있다. 물론 이런 예측은 "바나나-주식가치"간의 상관관계를 만드는 요인이 사라진다면 틀리게 된다. 그럼에도 불구하고, 이 예측은 주어진 시점에서 최선의 예측이다. 러셀의 칠면조는 이 부분을 꼬집는 우화이다. Correlation, causation and forecasting

또한 인과관계에 대한 정보가 없더라도 상관관계에 대한 정보가 있다면 그것에 따라 행동하는게 합리적일 수 있다. 다시 위의 아이스크림 예시로 돌아가보자. 우리는 생활하면서 얻은 상식으로 인해 아이스크림이 뭐고 익사가 무엇인지 알고 있으며, 그래서 위의 예시를 보고 비웃을 수 있는 것이다. 그런데 만약 지구에 대해 아무것도 모르는 외계인 연구자라면 어떨까? 그에게 아이스크림 판매량과 익사 사망자 수라는 두 가지 자료만 주고서 사망자 수를 줄이는 방법을 예상해보라 한다면, 그는 아이스크림 판매를 줄여 보라고 할 수밖에 없다.[5] 즉 정보가 제한된 상황에서는, 상관관계만으로 추론하는 것도 합리적일 수 있다.

이와 관련된 (논란이 될 법한) 실제 사례를 들자면, 북미지역의 한 경찰이 여성을 대상으로 한 성범죄가 증가하자 여성들이 남자들의 성욕을 불러일으킬 수 있는 창녀(slut)같은 복장을 입지 말아야 한다고 말하여 여론의 집중포화를 맞은 적이 있다. # 여기서는 실제 사례를 따라 여성 피해자의 입장에서 서술되어 있지만 당연하게도 남성 또한 성범죄의 피해자가 될 수 있다. 그런데 예측은 상관관계로 충분하다는 점을 생각해보면 그의 발언은 부적절하다고 보기 어려운 부분이 있다. 물론 정치적으로 부적절한 발언임은 부정할 수 없는 사실이다.

경찰의 주장은 성욕이 발생하면 성범죄가 증가한다는 상관관계 혹은 잘못 파악한 인과관계(성욕 증가->성범죄 증가)에 기초하였다. 당연하게도, 성욕이 생긴 남성들이 범죄를 선택하는 비율을 감소시킴으로서 저러한 상관관계를 축소시킬 수 있다. 그리고 당연하게도, 실질적으로 성범죄 실행 여부는 그 순간 그 상황에 처한 남성들 스스로가 내리는 것임은 경찰도 잘 알고 있다. 그리고 이 선택은 개별 남성들의 성장 과정, 경제 수준 등 여러 가지 요인에 의해 결정된다. 여기서 문제는 경찰의 입장에서는 이 요인들을 통제할 방법이 별로 없다는 것이다. 더 많은 경찰 인력을 투입하는 것은 돈이 들며, 경찰은 치안예산을 증가시킬 수 없다. 창의적인 방법을 사용해 똑같은 예산을 가지고 더 효과적인 범죄예방을 할 수 있다면 좋지만, 그런 방법은 그렇게 쉽게 생기는 것이 아니다. 그게 그렇게 쉽게 가능했다면 진작에 그 방법을 사용했을 것이다. 결국 노오력이 부족한 것이군. 결국 경찰의 입장에서 제시할 수 있는 범죄를 줄일 것으로 예측되는 최선의 방법은 여성들이 남성의 성욕을 불러일으키는 복장을 입지 않도록 독려하는 것일 수밖에 없다. 그리고 성욕이 생긴 남성들이 범죄를 선택하는 비율을 결정하는 구조적인 요인들에 변화가 없다면, 이는 실제 효과적인 방법이 될 것이다.

3.2. 상관관계와 인과관계의 구분

위 문제들은 상관관계와 인과관계 사이의 구분이 생각보다 명료하지 않으며, 이론적 엄밀성보다는 실용성에 기반하는 것임을 보여준다.
X가 Y의 원인이라는 것, 즉 인과관계가 있다는 것은 보통 다음과 같은 성질들을 만족한다고 생각해볼 수 있다.
  1. X가 Y보다 시간적으로 먼저 발생한다.
  2. X가 있으면 Y도 있고, X가 없으면 Y도 없다. 꼭 있거나 없어야만 하는 것은 아니다. 예를 들어 다른 조건이 같다면 단시간에 비가 많이 올 수록 더 큰 침수가 일어난다. 즉 X의 발생은 Y의 발생을 예측하는데 상당한 도움을 준다.
  3. 위 1,2번과 관련하여, X보다 X의 역할에 더 적합한 변수 Z가 없다. 예를 들어 X가 Y의 원인이라 생각했지만 진짜 원인은 Z였고, Z가 Y보다는 X에 더 신속하게 영향을 미치기 때문에 X가 변하면 Y도 변하는 것으로 보이는 경우를 들 수 있다. 흔히 말하는 혼란변수 혹은 교란변수(confounding variable)이다.
  4. 위 1, 2, 3번과 관련하여, 이러한 관계가 충분히 안정적이다. 즉 시간이 지나면서 이러한 관계가 사라지거나, 다른 변수의 개입에 의해서 관계가 변동하지 않는다. 다만 다른 변수의 개입이 이런 관계에 영향을 주는 경우더라도 그 변수와 이 관계 사이의 관계가 안정적이라면 X는 Y의 원인 중 하나라고 볼 수 있을 것이다. 예를 들어 블랙-숄즈 모형을 보면 옵션 만기까지의 시간, 행사가와의 차이 등은 분명히 옵션가격 변동의 원인이다. 그러나 이 변수들이 옵션 가격에 미치는 영향은 다른 변수들의 값에 따라 변동한다.
그런데 이런 성질들을 잘 생각해보면, 인과관계란 것은 특정 조건을 만족하는 상관관계라고 할 수 있어 보인다.

위의 아이스크림 예시로 다시 돌아가보면, 인과관계는 '높은 기온 -> 수영장 출입 인원 증가 -> 사고 발생 건수 증가'라고 볼 수 있다.
그리고 높은 기온이 발생하면 아이스크림 매출도 늘기 때문에 아이스크림 매출이 사고 발생 원인이라고 우리의 외계인 연구자는 착각한 것이다.
그런데 여기에서 말하는 인과관계도 엄밀히 따질 경우 인과관계라고 보기는 어렵다. 예를 들어 기온이 높아지면 수영장에 출입하지 않고 집에서 에어컨을 켤 수도 있고, 수영장에 출입하는 사람이 많아져도 전국적으로 수영장 안전교육 등을 실시한다면 안전사고 비율은 낮아져 사고 발생 건수가 오히려 낮아질 수도 있다. 하지만 그렇다고 해서 이런 사이 사이의 중간변수들을 모두 고려해서 인과관계를 수립해야만 할까? 그렇게 하자면 관계의 흐름은 너무나도 복잡해질 것이다. 아이스크림 따위가 아니라 온도를 느끼는 피부 세포들을 구성하는 원자의 움직임부터 시작해서 인과관계를 고려해야 한다 사실 양자역학을 고려해야 한다 카더라

즉 어떻게 보면 인과관계는 특정한 조건을 만족하는 상관관계의 일종이라고 볼 수도 있는 것이다.

사실 실험의 경우도 이런 비판에서 자유로울 수만은 없는게, 아무리 무작위 표본 추출을 통해 여러 변수들의 영향을 없애고 원하는 변수만 조절하여 그 변수의 영향을 찾는다고는 하지만, 진정 무작위 표본 추출이 되었는지는 정확히 알 수 없는 노릇이기 때문이다. 이론적으로 무작위 표본 추출이 이루어진다면 관심대상이 아닌 변수들의 영향을 통제할 수 있는 것은 사실이다. 그러나 설문조사시 전화번호 목록에서 무작위 추출을 통해 조사한다면, 전화가 없는 사람들은 조사 대상에서 빠지게 된다. 이렇게, 무작위 표본추출을 하더라도 의도치 않은 구조적 문제가 생길 가능성은 제외할 수 없다. 판타지스러운 예시이지만, 예를 들어 2100년까지는 지금의 물리 법칙이 통용되지만 2101년부터는 모든 사람들이 파이어볼을 쓸 수 있도록 이 세상이 설계되었다 하자. 그러면 2100년이 되기 전까지 행해진 물리실험의 결과는 2101년 이후의 물리법칙을 구조적으로 제외해버리는 것이 된다.

사족이지만, 그럼에도 불구하고 지금까지의 물리 법칙을 2017년 현재 시점에서 받아들이는 이유는, 그 시점까지 해당 물리 법칙이 반증의 가능성이 있고 반증의 시도가 수없이 이루어졌음에도 불구하고 반박되지 않았기 때문이다. 이런 반증을 위한 노력들과 관련된 자세한 내용은 과학적 방법론 참고. 원래 이야기로 돌아가자면, 상관관계는 좋은 상관관계와 나쁜 상관관계가 있으며, 좋은 상관관계를 인과관계라 칭한다고 할 수 있을 것이다.

4. 메커니즘 밝혀내기

상관관계인지 인과관계인지 밝혀내는 가장 좋은 방법은 어떤 현상이 일어나는 메커니즘 자체를 밝히는 것이다.

어떤 원리에 의해, 어떤 과정을 거쳐서 그 현상이 일어나는지 알게 되면 당연히 인과관계인지 아닌지를 알 수 있다.

5. 관련 문서




[1] 이는 조작적 정의를 통해서 양적으로 측정 가능해야 한다. 질적 데이터는 통계적으로 다루기가 불가능하거나 극도로 까다롭다. 예를 들어, "운동 실력과 친구들 사이에서의 인기" 의 상관관계를 연구하고자 한다면, 각각을 어떻게 정의해서 측정해야 할까? 운동 실력은 무엇을 기준으로 평가해야 할까? "그 아이는 완전 인기가 있어요!" 라는 증언과, "그 아이는 엄청 인기쟁이예요!" 라는 증언 중 어느 쪽이 더 "높은" 인기를 보여주는가? [2] 이처럼, 설명의 편의를 위해 잘 정의되지 않은 표현을 사용하는 것을 양해 바란다. [3] 아이스크림 판매량의 원인으로 꼽을 만한 다른 변인들로는 광고효과, 시장의 확대, 신제품 개발 등이 있다. 경제학을 전공한 위키러라면 단시간 내에 숱한 변인들을 찾아낼 수 있을 것이다. [4] (이들에 따르면) 당시 남성들의 관점에서는 치마를 입은 채 자전거를 타거나 자전거 페달을 밟는 다리의 움직임이 정숙해 보이지 못하고(…) 남편 몰래 불륜을 범하러 멀리까지 나갈 수 있는 기회를 제공해서 그렇다나. 네? [5] 다만 이는 인과관계와 상관관계를 혼동한 경우다. 아이스크림 판매가 사망자 수의 원인이라고 잘못 해석한 것이다. 둘의 변인을 상관관계라고 인지하고 나서의 올바른 대처법은, 지난해 지역별 아이스크림 판매량 통계을 이용해 판매량이 많은 지역에 수상구조요원이나 수영을 할 수 있는 순찰인원을 투입하는 것이다. 물론 이런식의 대응이 불가능한 상황도 있다. 하지만 그렇다고 해서 외계인이 취한 행동은 연구자가 취할만한 행동은 아닌 것은 확실하다. 물론 일단 줄여보는 '실험'을 하는 거라면야...목숨이 걸린 일이란 점이 문제지만.