최근 수정 시각 : 2023-11-02 17:35:22

선택 편향

선택편향에서 넘어옴
1. 개요2. 일화3. 상세4. 논증에서 근거로 사용되면5. 관련 문서

1. 개요

선택 편향(, selection bias) 또는 표본 편향(, sampling bias)은, 표본을 잘못 선택함으로써 통계 분석이 왜곡되는 것을 뜻한다. 상당히 많은 자료들을 검토하였으나 그 자료를 선택하거나 해석함에 존재하고 있어 중요한 측면을 간과함으로써 잘못된 결론에 도달시킨다. 한때 위키 효과로 인해 ' 근시안적 귀납'으로 번역되었고, ' 비형식적 오류'에 속해있었으나, 정식 번역 용어가 아닐뿐더러 논리학 분류가 아닌 심리학, 통계학 분야이므로 유의할 것.

2. 일화

이와 관련된 사건으로 1936년 미 대선의 설문조사가 있다. 당시 미 대선은 공화당의 랜던 후보와 민주당의 루스벨트 후보의 대결이었다. 이때 리터러리 다이제스트(Literary Digest)라는 잡지사가 무려 1,000만 명의 유권자에게 설문지를 우송한 뒤 약 240만 명으로부터 응답을 회수하였는데, 회수된 설문지에서는 루스벨트가 43%의 지지율밖에 못 얻는 것으로 집계되었고, 이에 따라 이 잡지사는 랜던의 승리를 예상 발표하였다. 그러나 실제 선거 결과는 민주당의 루스벨트 후보가 62%라는 압도적인 지지로 당선되었다. 이는 이 리터러리 다이제스트의 구독자들이 부유층이었기 때문인데, 당시는 1929년의 대공황의 여파로 경제적 불황이 심한 시기였다. 뉴딜정책이라는 막대한 공공사업을 추진하려는 재원 마련을 위해 민주당은 세금을 많이 걷는 정책을 펴고 있었고, 무거운 세금에 불만을 품고 있던 부유층의 지지기반을 위해 공화당은 이를 반대하였다. 결과적으로 소득이 낮은 계층은 민주당을, 높은 계층은 공화당을 선호하였다. 리터러리 다이제스트사가 뽑은 '부유층 위주의' 표본 속에는 루스벨트 후보 지지자가 전체보다 적었기 때문에 루스벨트가 선거에서 지는 것으로 나올 수밖에 없었다. 물론 실제로는 루스벨트 후보 지지자가 더 많았기 때문에 당선된 것은 루스벨트였고. 최진기도 매해 사회문화 개념 강의 진행할 때마다 이 이야기를 꼭 한다. 이것은 통계학에서도 표본의 대표성이라는 주제로 상당히 조심하고 있는 부분이며, 표본표집 방법으로 다양한 기법들이 개발되어 있는 상태이다. 따라서 논문과 같은 매체에서는 이런 오류가 나타나는 경우가 드문 편이다. 만일은 오류가 발견되면 학계에 머지않아 숱한 반박 논문들이 쏟아져 나온다.
"...불행히도 개인들만 표본의 크기와 대표성에 무신경한 게 아니다. 마땅히 그런 부분을 잘 알아야 하는 조직도 종종 그런 행태를 보인다. 주목할 만한 사례로 《리터러리 다이제스트》(Literary Digest)가 우편 설문 조사에 의거하여 루즈벨트가 1937년 대통령 선거에서 큰 표 차로 패배할 것이라고 예측했던 사건을 들 수 있다. 사실 설문지를 작성해서 반송한 사람들은 23%에 불과했고 그들은 전반적으로 미국 시민 중에서 부유층에 쏠려 있었다."
- 《비합리성의 심리학》, 스튜어트 서덜랜드, p.283

3. 상세

사회과학 분야의 학자들이 어떤 대상을 연구할 때, 연구의 성격상 그 대상이 "대한민국 국민 전체"나 "모든 남성", "모든 대학생" 과 같이 일개 연구실에서 다루기가 곤란할 정도로 거대한 집단인 경우가 많다. 이 때문에 사회과학자들은 통계학의 힘을 빌려서 이 문제를 해결하려 한다. 그리고 문과 출신인 상경계열 대학생들은 대학교에서 통계를 공부하며 절규한다. 여기서의 통계학은 "추론통계학" 이라 하여, 전체 집단을 모두 일일이 조사할 수 없기 때문에 일부만 뽑아내서 표본으로 삼아 연구하고, 그 표본에서 얻어진 결과를 전체 집단의 결과와 대략적으로 동일시하는 것이다.

당연히, 이 표본의 결과가 전체의 결과와 아주 똑같을 수는 없고 거의 비슷해지게 만드는 게 목표인데, 표본을 잘못 선정하거나 지나치게 적게 선정하면 전체의 결과와 어긋날 가능성이 점점 더 커지게 된다.[1] 이 중에서 표본편향이라 하면 대체로 표본을 의도적으로 잘못 선정(=표집, 추출)했다는 의미가 된다.

잘못된 표본선정으로 인해 발생할 수 있는 왜곡은 의외로 흔하다. 몇 가지 예를 들자면 다음과 같다.

  • 예시 A
    • 보수 당과 진보 당 중에서 어느 쪽을 지지하는지에 대해 평일 낮 중에 가정집 전화로 물어보았다. 결론은 보수 당의 압승이었다.
      → 세계적으로 노인들의 정치 참여도 증가와 우경화는 일관되게 관찰되는데, 평일 낮에 가정집 전화로 물어보면 노인들 외에는 응답하기 힘들어진다.
  • 예시 B
    • 전국 서점의 월간 도서 판매량을 조사한 결과, 연구자들은 한국인들이 놀랍도록 책을 구매하지 않는다는 사실에 충격을 받았다.
      → 대형 서점은 전체 서점의 일부만을 차지하지만 전체 책 판매량의 대다수를 차지한다. 즉 표본에 대형 서점이 제대로 포함되지 못한 것. 이런 경우에 쓰는 것이 주로 층화추출법(stratified sampling)이다.
  • 예시 C
    • 동성결혼에 대한 입장을 묻기 위해 길거리 인터뷰를 해서 부정적인 응답을 얻었다. 연구자는 일요일 오전에 강남 대형교회 앞 길거리에 서 있었다. 한편, 이 연구자는 셧다운제에 대한 입장을 묻기 위해 길거리 인터뷰를 해서 이번에도 부정적인 응답을 얻었다. 그는 중학교 교문 앞에 서 있었다.
    • 두 연구자가 한국인들이 가장 좋아하는 스포츠 종목이 무엇인지를 알아보기 위해 길거리 인터뷰를 하였다. 연구자 A의 인터뷰 결과 야구를 좋아한다는 응답이 압도적으로 많았다. 그러나 연구자 B의 인터뷰 결과 축구를 좋아한다는 응답이 압도적으로 많았다. 연구자 A는 잠실 야구장 출입구 앞에 서 있었고, 연구자 B는 상암 월드컵경기장 출입구 앞에 서 있었다.
      → 이와 같은 길거리 인터뷰는 편의추출법(convenience sampling)이라 해서 탐색연구 이상으로는 학술적 가치가 없다. 하지만 기레기들은 좋아한다. 불행하게도, 어디서, 얼마나, 어떻게 설문을 했는지만 숨긴다면 이것으로도 대중적 여론을 왜곡하는 것은 금방이다.[2]

보다시피 표본편향은 언론플레이의 핵심이기도 하다. 각종 여론조사 매스미디어, 정당 발표자료, 오피니언 리더들이 이렇게 편향된 조사를 가지고 (그것이 어떤 결점을 지닌 조사로 얻어진 데이터인지는 쏙 빼놓은 채) 자신에게 동조하는 사람들과 함께 설레발을 치기에 바쁘다. 그리고 이렇게 분열된 여론은 제각기 자신이 선호하는 방향으로 다시 확증편향을 일으킨다... 안타깝게도 여론의 전파라는 것이 이처럼 많은 결점을 보이고 있다. 그리고 이는 당장 한국갤럽 같은 여론조사 기관들의 근로자들조차 인정하는 부분이다. 그들은 마음만 먹는다면 조사를 의뢰한 단체에게 최대한 좋게 결과를 보여줄 수 있다. 대단한 것도 아니고 통계의 아주 세부적인 조건들만 쓱싹 바꾸면 금세 가능해지는 일이다. 사회통계에 능숙한 사람일수록 잘 모르는 사람들을 속이기는 그만큼 쉽다는 것을 그들도 잘 알고 있는 것이다.

일상적으로 이런 오류가 발생하는 경우가 있다. '패배한 판을 제외하면 승률 100%' 등의 밈이 이에 해당한다. 음모론에서도 상당히 높은 확률로 등장하곤 한다.

4. 논증에서 근거로 사용되면

예문) 야구장에서 1000명에게 가장 좋아하는 스포츠에 대해 설문조사를 했더니 75%가 야구를 좋아한다고 했다. 따라서 한국사람들이 가장 좋아하는 스포츠는 야구가 틀림없다.
예문) 설문조사에 응한 60대 남자들 가운데 72%가 동성동본의 경우 혼인을 금지해야 한다고 믿고 있다. 그러므로 남자들 가운데 72%는 동성동본 혼인금지 조항을 다시 도입해야 한다고 믿고 있다.
예문) 웹사이트를 통해 설문조사를 진행한 결과 인터넷을 사용해본 적이 없다는 답변은 나오지 않았다. 그러므로 한국의 인터넷 보급률은 100%를 달성하였다고 볼 수 있다. 그건 없다는 답변을 하면 거짓말한거잖아
예문) 전화를 통해 결식 아동 숫자를 조사한 결과 결식 아동 숫자는 10%도 채 되지 않았다. 따라서 우리 학교 학생 중 결식아동은 거의 없다.[3]
예문) 전화를 통해 국민들에게 휴대전화를 쓰냐고 물어봤다. 100%에 달했다. 그러므로 우리나라의 모든 국민은 휴대전화를 가지고 있다.[4]
예문) 쇠자를 이용해 일년 내내 쇠막대기의 길이를 측정해 본 결과 쇠막대기의 끝은 언제나 같은 눈금을 가리키고 있었다. 따라서 금속이 온도의 변화에 따라 팽창한다는 이론은 거짓이다.[5]
예문) 지난 20년 동안 초등교사의 평균 봉급은 70만 원에서 140만 원으로 인상되었다. 물론 같은 시기에 중등교사의 평균 봉급도 80만 원에서 160만 원으로 인상되었다. 따라서 교사들이 봉급에 대해서 불평하는 것은 잘못이다. 20년 동안 무려 두 배나 인상되었지 않는가?[6]
예문) 최근 몇 년 동안 인터넷 쇼핑몰의 거래액은 점차적으로 증가하는 추세를 보였다. 그러므로 인터넷 쇼핑몰이야말로 대박의 지름길이다.[7]

5. 관련 문서




[1] 예를 들어, 대한민국 20세 이상 남성들의 평균 키를 조사한다고 하자. 그런데 달랑 5명(…)만 뽑아서 그들 사이의 키 평균을 낸다고 한다면, 그것이 얼마나 믿을 만할까? 기껏 평균을 냈더니 186cm 키로 나왔다면, 그것을 바탕으로 대한민국 남성들은 전부 위너! 라고 판단할 수 있을까? [2] 사실 정치인들이 "민심을 듣겠다" 며 지역구를 돌아다니는 것도 이와 유사하다. 재래시장에 가면 대형마트 비정규직 노동자들의 의견을 들을 수 없고, 자기 당 텃밭에 가면 남의 당 텃밭의 유권자들이 느끼는 바를 이해할 수 없다. 게다가 사회적 선망 편향이 작동하여, 유권자들은 한없이 공손하고 호의적인 태도로 정치인들을 대할 가능성이 높아지게 될 것이다.(…) [3] 집에 전화기를 둔다는 것은 생활수준이 어느 정도 뒷받침된다는 뜻이었다. [4] 전화를 통한 설문에 대해 답변하려면 당연히 전화가 있어야한다. 어떤 전화인지 쓰여있지는 않으나, 휴대전화가 아닌 집전화같은 유선전화기만을 현대에 가지고 있다는 건 현실성이 매우 떨어진다. 위의 웹사이트 예시처럼 사실상 없다는 답변을 하면 거짓말인 셈이다. [5] 자와 막대기의 온도를 변화시킬 요인을 기온으로 정했다는 게 문제이다. 그러니 쇠자와 쇠막대기가 동시에 팽창 또는 수축한 것이다. 올바른 실험을 하려면 쇠막대기만 가열하거나 냉각하면서 길이를 측정해야 한다. 혹은 쇠자를 가열 / 냉각해도 괜찮다. [6] 물가 상승을 무시하고 있다. 교사 월급이 2배 오를 동안 물가는 그대로였는가? [7] 인터넷 쇼핑몰 거래액이 증가할 동안 인터넷 이용자 수도 동시에 증가하고 있었고, 결정적으로 인터넷 쇼핑몰의 수도 동시에 증가했다는 사실을 간과하고 있음으로써 오류를 범하고 있다.


파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 문서의 r1677에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r1677 ( 이전 역사)
문서의 r113 ( 이전 역사)