최근 수정 시각 : 2024-11-03 19:23:13

통계학

교호작용에서 넘어옴
과학의 범위
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px; word-break: keep-all"
좁은 의미 [[자연과학|
자연과학
]] 물리학 · 화학 · 생물학 · 천문학 · 지구과학( 지질학 · 해양학 · 대기과학)
넓은 의미 [[형식과학|
형식과학
]] 논리학 · 수학 · 시스템 과학 · 전산학 · 통계학
[[응용과학|
응용과학
]] 간호학 · 거대과학 · 건축학 · 공학 · 농학 · 임학 · 수산학 · 수의학 · 약학 · 의학 · 치의학 · 동양의학( 한의학, 중의학)1
[[사회과학|
사회과학
]] 심리학 · 사회학 · 정치학( 행정학 · 정책학) · 경제학 · 교육학 · 군사학 · 미디어학 · 법학 · 경영학 · 사회복지학 · 인류학 · 지리학 · 지역학
비과학 [[인문학|
인문학2
]] 언어: 언어학3 / 예술: 문학 · 미술사학 · 음악사학 / 역사: 사학4 · 과학사학 · 고고학4 / 사상: 철학 · 종교학4 · 신학5
변경지대의 과학
비학문 병적 과학 · 쓰레기 과학 · 유사과학( 대체의학) · 반과학
1 대부분의 국가에서는 유사과학의 일종인 대체의학으로 분류하나, 한국, 중국, 북한, 대만 4개국에는 독립된 한의학부가 존재하여 의학사에 준하는 학위를 부여한다.
}}}}}}}}}

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 ( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식)
기술통계학 ·
자료 시각화
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

형식과학의 일반적 분류
논리학
Logic
수학
Mathematics
통계학
Statistics
시스템 과학
System Science
이론 컴퓨터 과학
Computer Science
[[파일:statistics_graph.jpg
width=100%]]| 통계학의 일부를 내포하는 이미지[1]
1. 개요2. 용어
2.1. 공통2.2. 대표값2.3. 산포도2.4. 기술 통계학2.5. 추론 통계학
3. 다른 학문과의 관계
3.1. 사회과학3.2. 자연과학과 공학3.3. 의학, 약학3.4. 수학
4. 세부 분야
4.1. 기초 분야4.2. 데이터의 형태에 따른 각론4.3. 기타 각론
5. 수험과목으로서의 통계학6. 관련 저널7. 통계 소프트웨어(데이터분석)8. 각종 오해와 통념들9. 통계학의 주요 인물10. 관련사이트11. 관련 문서

1. 개요

/ Statistics

통계학은 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다.[2]

표준국어대사전에 따르면 사회 현상을 통계에 의하여 관찰ㆍ연구하는 학문. 불확실성에 대한 논리를 부여하는 학문으로 경험과학의 한 분야이자 대부분 학문의 기초를 담당한다.[3]

한국 통계법에 의하면 통계작성기관이 정부정책의 수립·평가 또는 경제·사회현상의 연구·분석 등에 활용할 목적으로 산업·물가·인구·주택·문화·환경 등 특정 집단이나 대상 등에 관하여 직접 또는 다른 기관이나 법인, 단체 등에 위임 위탁하여 작성하는 수량적 정보(통계법 제3조 제1호)로서 통계는 주로 숫자(numbers)를 의미하는 것으로 되어있다.

통계학에 대한 여러 정의가 있는데 모두 축약하면 자료를 연구하는 학문, 데이터를 분석하는 학문으로 압축할 수 있다.
에런 레벤슈타인(Aaron Levenstein) 경영학 교수: "통계학은 비키니와 같다. 이것이 드러내는 것은, 많은 것을 연상하게 하지만, 감추는 것은 매우 치명적이다."

"왜 통계를 배워야 하는가?"에 대한 좋은 글이다

2. 용어

기재 시 가나다 순으로 정렬하고, 항목화 해주시기 바랍니다. 나무위키에서 순환링크는 금지입니다.

2.1. 공통

  • 모집단(population)은 관측 대상이 되는 전체 집단이다.
  • 표본(sample)은 모 집단에서 일부만 조사한 것이다.
  • 모 평균(population mean) μ는 모 집단의 평균이다. 모두 더한 후 전체 데이터 수 n으로 나눈다. 확률 변수 기댓값이다.
  • 표본 평균(sample mean) [math( \bar{x} )]는 표본의 평균이다. 모두 더한 후 n으로 나눈다.
  • 모 분산(population variance) σ2은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.
  • 표본 분산(sample variance) s2은 표본의 분산이다. 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다.
  • 모 표준 편차(population standard deviation) σ는 모 집단의 표준 편차이다. 모 분산 σ2에 제곱근을 씌워서 구한다.
  • 표본 표준 편차(sample standard deviation) s는 표본의 표준 편차이다. 표본 분산 s2에 제곱근을 씌워서 구한다.
  • 평균 절대 편차(average absolute deviation 또는 mean absolute deviation)는 관측값에서 평균을 빼고, 그 차이값에 절대값을 취하고, 그 값들을 모두 더하여 전체 데이터 갯수로 나눠준 것이다. 절대값 편차의 평균이라고 생각하면 된다.
  • 중앙값 절대 편차(median absolute deviation)는 관측값에서 중앙값을 빼고, 그 차이에 절댓값을 취한 값들의 중앙값을 구한다.
  • 최소 절대 편차(least absolute deviation)는 회귀 분석(regression analysis)에 사용된다.
  • 공분산(covariance): 2개의 확률 변수의 상관정도를 나타내는 값이다. 확률 변수 X의 증감에 따른 확률 변수 Y의 증감의 경향에 대한 측도이다.
  • 상관 계수(correlation coefficient): 두 변인간의 관계를 나타내는 측도이다. 피어슨 상관계수(Pearson correlation coefficient 또는 Pearson's r)를 가장 많이 사용한다. 공분산은 X와 Y의 단위에 의존하는 양이므로 단위와는 무관한 측도를 얻기 위하여 공분산을 X와 Y의 표준 편차의 곱으로 나누어서 얻은 값이 상관 계수이다. 상관 계수 X와 Y의 선형 관계의 강도에 대한 측도이다.
  • 왜도(skewness) 또는 왜곡도: 그래프가 왼쪽이나 오른쪽으로 치우친 정도이다.
  • 첨도(kurtosis): 그래프가 위로 뾰족한 정도이다.
  • 확률 변수(random variable): 표본 공간에서 정의된 실수 값 함수이다.
  • 확률 분포(probability distribution): 확률 변수 X의 발생 가능성의 정도이다. 이산 확률 분포 연속 확률 분포가 있다.
  • 이산 확률 변수(random variable of discrete type): 확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산 확률 변수라고 한다.
  • 확률 질량 함수(probability mass function): 이산 확률 변수 X가 취할 수 있는 값 x1, x2, x3, ... 의 각각에 대해서 확률 P(X=x1), P(X=x2), P(X=x3), ... 을 대응시켜주는 관계이다.
  • 연속 확률 변수(random variable of continuous type): 적절한 구간 내의 모든 값을 취하는 확률 변수이다.
  • 확률 밀도 함수(probability density function): 연속 확률 변수 X에 관한 확률을 결정하는 함수 f(x)이다.
  • 표본 분포(sampling distribution 또는 finite-sample distribution): 크기 n의 확률 표본(random sample)의 확률 변수(random variable)의 분포(distribution)이다.
  • 기댓값(expected value)은 통계에서는 평균과 같다고 생각하면 된다. 가능한 값마다 확률을 곱해서 모두 더한 것이다. 확률 변수 X의 평균으로 보통 E(X)라고 쓴다.
  • 자유도(degrees of freedom): "변인의 수 빼기 제약"이다.
  • 베이즈 정리(Bayes' theorem): 이미 알려진 확률(사전 확률)을 통해, 알고 싶은 다른 확률(사후 확률)을 예측할 때 쓴다.

2.2. 대표값

  • 대표값(representative value)은 어떤 데이터를 대표하는 값이다. 평균, 중앙값, 최빈값, 백분위수, 사분위수, 절사평균 등이 있다.
  • 평균(average)은 데이터를 모두 더한 후 데이터의 갯수로 나눈 값이다.
  • 중앙값(median)은 전체 데이터 중 가운데에 있는 수이다. 직원이 100명인 회사에서 직원들 연봉 평균은 5천만원인데 사장의 연봉이 100억인 경우, 회사 전체의 연봉 평균은 1억 4,851만원이 된다. 이처럼 극단적인 값이 있는 경우 중앙값이 평균값보다 유용하다.
  • 최빈값(mode)은 가장 자주 나오는 값이다.
  • 사분위수(quartile): 자료를 크기순으로 나열했을 때 4등분하는 관측값이다.
  • 백분위수(percentile): 자료를 크기순으로 나열했을 때 x%인 관측값을 말한다.
  • 이상점( 극단값, outlier): 다른 자료와는 극단적으로 다른 값. 너무 크거나 작다.
  • 절사 평균(trimmed mean): 관측값의 양쪽에서 일정 비율 α의 이상점을 버리고, 나머지 관측값들만으로 낸 평균을 100α% 절사 평균이라고 한다.

2.3. 산포도

  • 산포도(degree of scattering)는 자료가 흩어져 있는 정도를 나타낸다.
  • 범위(range): 최대값에서 최소값을 뺀 것이다.
  • 사분위간 범위(interquartile range): 3 사분위수(quartile)에서 1 사분위수를 뺀 값이다.
  • 편차(deviation)는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
  • 분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 갯수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다. 확률 분포의 흩어진 정도를 말하며 확률 변수 X의 평균을 μ라고 할 때 X의 분포가 중심 위치의 측도인 μ로부터 떨어진 정도를 나타낸다.
  • 표준 편차(standard deviation)는 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.
  • 절대 편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.

2.4. 기술 통계학

  • 기술 통계학(descriptive statistics): 자료를 수집하고 정리해서 , 도표를 만들거나 요약하여 변동의 크기나 대푯값, 분산, 평균 등을 구하는 것이다.
  • 히스토그램(histogram): 자료를 구간별로 나누어서 구간별로 상대 도수에 해당되는 만큼 막대를 그린 도표이다.
  • 도수 분포표(frequency table): 계급 구간별로 도수(갯수)가 몇개인가 적은 이다.
  • 줄기 잎 그림(stem-and-leaf plot, stem-and-leaf display): 히스토그램과 비슷하지만 도수만 쓰는 게 아니라 자료값도 입력하여 정보의 손실이 없다.
  • 다섯 숫자 요약(five-number summary): 최소값, 제1사분위수(Q1), 중앙값, 제3사분위수(Q3), 최대값으로 전체 자료를 요약한 것이다.
  • 상자 수염 그림(box-and-whisker plot, box-and-whisker diagram) 또는 상자 그림(box plot, boxplot)은 다섯 숫자 요약으로 그린, 자료의 특성을 요약하는 그래프이다.

2.5. 추론 통계학

3. 다른 학문과의 관계

3.1. 사회과학

통계학은 사회과학에 있어 사회통계 및 데이터를 분석하기 위해 이용된다. 영어이름부터가 State의 학문으로, 국가에 관한 특성을 연구하기 위해 만들어졌다. 몇천만에서 몇십억을 다루는 통계를 연구하는 통계학은 태생적으로 사회과학과 떼어놓을 수 없다.

실험분석이나 자료해석이 필요한 연구분야에서 논문을 쓰려면 통계 지식이 필요하다. 대부분의 논문은 통계 분석을 거쳐 논문의 결론을 제시하는 구조다. 따라서 대학원 진학시에는 기본적인 테이블 결과 해석 정도는 할 줄 알아야 하며, 최소한 기초통계학과 회귀분석에 대한 지식을 마련하는 것이 연구에 직/간접적인 도움이 될 것이다. 또한 자기 연구에 통계를 직접 써먹고 싶다면 SPSS, SAS, Stata, R, MATLAB, JAMOVI 등 통계 분석 프로그램을 다루는 법도 배울 필요가 있다. 엑셀 함수(trend, slope, linest 등) 및 데이터분석 메뉴에서 다중회귀분석을 지원한다.

특히 경제학에선 통계학이 빠질 수 없다. 통계를 다루는 주무부처인 대한민국 통계청부터가 과학기술정보통신부 행정안전부가 아닌 기획재정부의 외청이다. 학계에서도 완전히 이론적인 모형을 다루는 일부 전공[4]을 제외하면 거의 모든 세부전공에서 끼고 사는 것이 데이터와 통계학이며, 실무에서는 중급 이상의 통계학 이론은 그렇게까지 강조하지는 않지만, 그럼에도 불구하고 현실의 데이터를 직접 돌리는 작업은 필수적이다. 경제학에서 쓰이는 통계학을 경제통계학(Statistics for Economics / Economic statistics) 혹은 계량경제학(Econometrics)이라고 부른다.

3.2. 자연과학과 공학

품질, 복잡계, 카오스 이론, 네트워크 이론, 머신러닝, 빅 데이터 등의 용어가 사용된다면 통계학과 연관된 분야다. 현대 자연과학은 정적인 연구주제가 고갈되었기 때문에 동적이고 예측불가능한 연구주제를 파고있다. 이런 문제들을 해결하기 위해 쓰이는 도구가 바로 통계학이다. 현대 자연과학은 전통적인 실험에서 벗어나, 통계학으로 대량의 데이터를 분석해 근사치를 구한 뒤, 이것을 수학적으로 추론하는 방식을 취한다.

3.3. 의학, 약학

의학 약학 연구에서 사용된다. 그밖에 예방의학, 공중보건학에서 전염병을 조사할 때 사용한다.

3.4. 수학

  • "통계교육 연구의 역사와 한국의 통계교육 - 탁경주, 이경화"를 참고했음.

통계학과 수학이 같은 분야이냐 아니냐에 대해선 많은 논쟁이 있었다.

통계학의 학문적 독립성을 역설했던 Moore는 “통계학은 수학이 아니라 경험과학에서 비롯된 수리과학”으로 규정하였다. 동시에 다음과 같은 근거를 제시한 바 있다.
  • 통계학은 수학과 다른 독자적인 주제를 다루고 있다.
  • 역사적으로 통계학은 수학과 별개의 학문으로 발생하였다.
  • 통계학의 실제는 수학적이지 않다.
  • 통계학은 학문적 정체성을 다루는 철학적 이슈가 다르다.
  • 통계학은 수학적 아이디어를 사용하나, 수학은 통계적 아이디어를 수용하지 않는다.

대개 학문적 독립성은 연구 대상, 연구 내용, 연구 방법에 의해 설명된다 [18, p. 495]. 통계학은 불확실성을 내포한 경험적 자료(data)가 연구 대상이며 연구 내용은 맥락에 의존하는 경험과학의 성격을 띠고 있다. 반면, 수학은 수학 그 자체가 연구 대상이자 동시에 연구 방법인 형식과학이다.

반면 이안 해킹은 통계학의 논리적 확률론적 기반을 마련하면서 다른 결론을 내렸다. 그는 1960년대에 Logic of Statistical Inference (1965)를, 그리고 70년대에는 The Emergence of Probability (1975)를, 이어 90년대에는 The Taming of Chance (1990)를 낸 바 있다. 또한 그는 확률과 귀납 논리에 대한 책(Hacking, 2001)을 내는 등, 과학철학과 과학사 양쪽을 넘나들며 통계학과 확률을 지속적으로 연구해왔다. 해킹의 화두는 모든 일에는 그 일을 일어나게 할 수밖에 없는 조건들이 미리 존재하기 마련이라는 ‘결정론’(determinism)이다. 그 중에서도 그는 모든 물리적인 일들의 미래를 결정해주는 법칙이 존재한다는 물리법칙적 결정론(physical-law determinism)과 확률의 관계를 주목하였다. 즉, 그의 관점에서 통계는 확률을 도출해내는 방법으로, 수학의 연장이다.

각 대학의 수학과 학부 교육과정에서는 '수리통계학'이나 그와 비슷한 이름의 한 학기, 또는 두 학기에 걸친 전공과목이 개설된다. 이 과목은 학교에서 전공선택으로만 정해놨다면 아예 안 듣고 졸업하는 것도 가능은 하지만, 수학과 외의 이공계열이나 상경계열 대학원 진학, 구직활동, 하다못해 중등교원 임용시험을 준비하더라도 수학과 나와서 수학으로 먹고 살 것을 염두에 뒀다면 반드시 들어야 하는 과목이다. 생계필수 수학 전공 커리큘럼에서 수리통계학은 미분방정식과 마찬가지로 각종 응용수학의 기본이 되는 과목이므로 수리통계학을 아예 안 듣는다면 수학과 졸업 후 운신의 폭이 상당히 좁아지기에 어쩔 수 없다. 이공계열 학생이라면 1학년~2학년 때 한번쯤 듣게끔 정해놓는 기초통계학 과목과 유사하다 볼 수도 있지만, 미적분과 선형대수, 더러는 해석학에서 다루는 테크닉까지도 다양하게 동원해가며 보다 깊이 있고 엄밀한 내용으로 수업이 진행되므로 이들 선수과목을 이수한 후 들어야 한다.

일부 대학의 통계학과는 수학과와 함께 신입생을 모집하거나 학부 전체를 아예 통합하여 운영하기도 한다. 운영상으로 분리되어 있어도 상술한 수리통계학과 그 선수과목 등 일부 과목은 함께 듣게끔 커리큘럼이 짜여있을 수도 있다.

통계학은 수학을 아예 안 쓰면 성립이 안 될 정도로 수학을 중요하게 쓰는 학문이다. 그리고 인공지능에서 통계학을 쓰므로 통계학의 중요성은 날로 더 커지고 있다. [5]

4. 세부 분야

수리적인 견지에서 통계학을 연구하는 수리통계학은 확률분포의 성질, 통계량의 충분성(sufficient statistics), 통계검정의 효용성(most powerful test) 등에 대한 증명, 확률과정(stochastic process)의 수리적 성질에 초점을 맞추는 반면, 응용통계학적인 견지에서는 통계적 모형에 대한 추정방법 개발과 구현, 분석결과의 해석 등에 방점이 놓여있다.

4.1. 기초 분야

아래의 분야들은 어느 대학을 가든 '통계이론', '응용통계' 등의 이름으로 묶여 학부의 경우 전공 필수로 지정되고, 대학원의 경우 1년차에 수강을 마치는 것이 필수로 되어 있는 경우가 대부분이다. 이후 각론으로 들어가기 위한 기초를 공부한다.
  • 수리통계학(이론통계)
    '수리통계학'이라는 이름과 '이론통계'라는 이름이 혼용되는 경우가 많다. 확률변수의 분포, 조건부 확률과 독립성, 몇 가지의 특수한 분포( 정규분포, 이항분포, 다항분포, 감마분포, 카이 제곱 분포, 포아송 분포, 다변량 정규분포), 확률변수의 함수 분포, 중심극한정리를 포함한 극한분포, 추정, 통계적 가설과 검정, 비모수적인 방법을 이용한 검정과 각종 통계량 등을 배운다.[6] 요약하면 통계학의 기초개념을 수리적인 관점에서 포괄적으로 다루는 분야.
  • 통계계산
    컴퓨터 기술이 발달하면서 통계적 자료분석 방법은 점차 고도화되고 복잡해졌다. 특히 최근에는 분석해야할 데이터가 매우 커지고 방대해짐에 따라, 어떻게 하면 더 빠른 알고리즘을 이용하여 분석할 수 있을 지가 중요한 문제로 대두되었다. 이 분야에서는 통계에 사용되는 계산 방법, 즉 컴퓨팅 기술을 주로 다루며, 빅 데이터 프로세싱, 이미지 및 영상 처리, 기계학습(머신 러닝) 등에 요긴하게 응용된다.
  • 실험계획법
    어떤 주장을 통계적으로 검증하기 위해 자료를 수집할 때, 어떤 단계를 통하여 자료를 모을 지 실험을 계획하여야 한다. 이와 같은 실험을 계획하고 결과를 분석하는 법을 다룬다. 일반적으로 t-검정, 분산 분석(analysis of variance; ANOVA)이라 불리는 기법이 이 맥락에서 다뤄진다.

4.2. 데이터의 형태에 따른 각론

다루게 되는 데이터의 형태에 따라, 여기에 접근하기 위한 이론적 관점이나 통계적 기법 등이 달라지게 된다.
  • 다변량자료분석
    둘 이상의 측정 변수(다변량 자료)를 다루는 분야이다. 예를 들어 단순히 각 사람들의 키만을 조사해 분석하는 게 아니라, 각 사람들의 키, 몸무게, 허리둘레, 성별 등등 많은 변수를 조사하여, 그 변수들이 가지고 있는 분포를 종합적으로 고려하여 데이터를 분석하기 위한 방법이다. 변수가 많기 때문에 시각화가 어렵고, 많은 변수를 한 번에 다루기 위해 행렬 이론 등이 많이 사용된다. 차원을 줄이고 정보를 요약하는 방법을 많이 다룬다. 학부 수준에서는 몇 개의 주성분을 뽑아내어 차원을 축소하는 주성분 분석, 숨겨진 요인을 찾는 요인 분석(인자분석), 자료를 분류 및 군집화하는 판별분석 및 군집분석 등을 다룬다.
  • 범주형자료분석
    우리가 관심 대상으로 하는 자료는 키, 몸무게 등 수치적, 연속적으로 나오는 자료도 있지만, 성별 등 범주가 나누어져 있는 자료들이 있다. 이러한 범주형 자료를 분석하는 방법을 다룬다.
  • 생존 분석/생존자료분석
    불완전한 데이터 중 특수한 형태를 다루는 분야이다. 예를 들어 어떤 병에 대한 신약의 효과를 검증하기 위해 환자들을 모아 그 수명 시간을 조사하고자 하는 상황을 생각해보자. 이 때, 병이 악화되어 이미 수명이 다 한 사람은 수명을 정확히 알고 있지만, 아직 생존한 환자는 그 수명을 정확히 알지 못하고 '현 시점보다는 오래 산다'는 사실만 알게 되며 따라서 데이터가 불완전해진다. 이와 같은 불완전 자료를 분석하는 방법을 다루며 의학통계에 주로 응용된다.
  • 확률과정론
    많은 현상은 이전의 상태가 이후의 상태에 영향을 미치며, 그 상태가 결정되어있지 않고 랜덤하다. 따라서 이를 시간에 대한 함수로서의 확률변수열이라고 생각할 수 있는데, 이를 확률 과정(stochastic process)이라고 한다. 쉽게 말하면 매 시간마다 그 상태가 랜덤한 확률 변수라는 것이다. 확률과정론은 현상을 확률 과정으로 해석하여 모형을 세우고, 그 확률 과정의 여러 성질을 연구하는 분야이다.
  • 시계열 분석 (time-series analysis)
    시계열 자료, 즉 시간이 흐르며 관측된 자료를 다루는 분야이다. 주가 지수, 물가 지수, 월별/연별 강수량 등의 자료가 모두 시계열자료이다. 이러한 시계열자료의 두드러지는 특징은 한 시점에 여러 개의 데이터를 얻기 힘들다는 점과(시간이 흘러 버리므로), 관측치끼리 서로 연관이 있다(예를 들어, 오늘의 주가 지수는 어제의 주가 지수에 영향을 받을 수밖에 없다)는 점이다. 실생활의 수많은 자료가 시계열자료이므로 자료를 분석하고자 할 때 매우 중요한 분야 중 하나이다.

4.3. 기타 각론

  • 비모수통계학
    '비모수(nonparametric)'는 기본적으로는 통계적인 추론을 모수(parameter)에 의존하지 않는다는 뜻이다. 모수는 우리가 가지고 있는 자료를 통해 추정하고자 하는 모집단(population)의 특징을 표현하는 대표값을 말한다. 만약 어떤 집단의 특징이 정규 분포를 따른다고 가정된다면, 그 집단의 특성은 정규 분포의 두 가지 모수인 평균과 표준편차로 표현되는 식이다.
  • 베이즈 통계학 (베이지언 통계학, 베이지안 통계학)
    토머스 베이즈 베이즈 정리에 바탕을 두고 정립된 통계학의 흐름.
    소위 '빈도주의(frequentist)'라 불리는 전통적인 통계학의 관점에서는, 모수를 상수이지만 알려져 있지 않은 것으로 보고, 값이 알려져 있지만 랜덤한 확률변수인 관측치를 이용하여 모수를 추정하는 데에 초점이 맞춰져 있었다. 그러나 베이즈주의자(Bayesian)의 관점은 약간 다르다. 우리가 모수를 직접 알지 못하므로, 이 불확실성을 확률분포로 표현하여, 모수가 어떤 확률분포에서 얻어진 값인 것으로 여긴다.
    이러한 관점에서는 확률 역시 사건에 대한 믿음의 정도로 해석되고, 자료를 관찰하기 전의 '믿음의 정도'는 자료를 관찰한 후 이 자료에 따라 업데이트된다고 본다. 즉, 자료를 관찰하기 전에 가지고 있었던 모수에 대한 불확실성(=정보, 믿음의 부족)은 자료를 관찰함으로써 업데이트되게 되고, 이 업데이트의 과정은 베이즈 정리에 의해 이루어지게 된다.
    여기서 데이터를 관찰하기 전에 가지고 있던 '불확실성에 대한 믿음'을 사전분포(prior distribution)라 하며, 이는 사전에 내가 알고 있는 정보에 의해 결정된다. 이후 관측치를 얻어 관측치를 보고 모수에 대해 알고 있는 정보를 업데이트하는데, 데이터로부터 오는 모수에 대한 정보를 가능도 또는 우도(likelihood)라고 부른다. 결과적으로 사전분포와 가능도를 모두 고려하여 모수에 대한 새로운 분포를 계산하게 되는데, 이를 사후분포(posterior distribution)라 한다.[7]
    모든 것을 손으로 계산해야 했던 시절에서는 사전분포와 사후분포의 관계를 깔끔하게 도출할 수 있는 문제가 제한적이었기 때문에, 그다지 많이 사용되지 못했다. 그러나 컴퓨터 기술의 발달로 인하여, 특히 마코프 체인 몬테 카를로 방법의 개발에 의해 사후분포를 도출할 수 있는 방법이 개발되면서 급성장하게 되었다.
  • 대수적 통계학(Algebraic statistics)[8]
  • 정보 기하학(information geometry)[9]

5. 수험과목으로서의 통계학

6. 관련 저널

4대 저널로는 JASA(Journal of the American Statistical Association), JRSSB(Journal of the Royal Statistical Society: Series B), Biometrika, The Annals of Statistics이 있다.

7. 통계 소프트웨어(데이터분석)

파일:top10-analytics-data-science-software-2016.jpg 파일:top-analytics-data-science-machine-learning-software-2015-2017.jpg
  • 상용 소프트웨어: 스프레드 시트를 제외한 통계처리용 소프트웨어의 경우, 그 가격이 매우 비싸 개인이 구매하기는 쉽지 않다. 대학교, 연구기관, 회사 등에 있는 경우 해당 기관에 소속되어 있다는 것을 전제로 발급되는 라이센스를 이용하여 쓰게 되는 경우가 많다.
  • 오픈 소스 소프트웨어
    • R: 'S'라는 통계 프로그래밍 언어의 발전형.( #) 오픈 소스 소프트웨어이기 때문에 무료로 이용이 가능하고, 통계 연구자들이 '라이브러리(library)'라 불리는 확장기능을 끊임없이 개발, 발표하고 있어 폭넓은 용도로 활용이 가능하다. 초기에는 '오픈 소스 소프트웨어를 어떻게 신뢰하느냐' 하는 불안감으로 인해 사용을 꺼리는 곳도 있었지만, 반대로 회사의 이익 때문에 소스 코드를 공개하지 않는 상용 소프트웨어에 비하면 투명한 개발/유지 보수가 가능하다는 이해방식도 널리 퍼지고 있다. 현재는 GUI환경의 R스튜디오도 널리 학계등에서사용된다.
    • JAMOVI
    • Julia: 과학계산에 특화된 LLVM에 기반한 컴파일 언어. 컴파일 언어이기에 R, Python에 비해 매우 빠른 속도를 보인다. Bayesian 통계학과 관련된 연구에 자주 쓰이는 편이다.
    • Python: 엄밀히 말하면 통계 소프트웨어가 아니라 범용 프로그래밍 언어이다. 하지만 Pandas, NumPy, StatsModels, scikit-learn 등의 패키지를 이용한 통계 분석이 가능하다.
    • JASP: 무료 오픈 소스 소프트웨어로, 베이즈 통계학에 기반을 둔 분석을 SPSS와 유사한 인터페이스를 통해 수행할 수 있도록 만든 것이 최대의 특징이다.
    • PSPP: SPSS를 대체할 목적으로 GNU에서 만든 무료 오픈 소스 소프트웨어
    • gretl: 무료 오픈 소스 소프트웨어이며 회귀 분석, 계량경제학, 시계열 분석에 특화되어있는 라이브러리이다. Eviews라는 시계열 특화 계량경제 프로그램이 있는데 그 프로그램의 대용으로 적절하다.
    • ROOT: 입자물리학에서 널리 쓰이는 소프트웨어인데, GUI나 3D 등 별의별 것들을 다 담고 있지만 그 중에서도 입자물리를 하기 위해 필요한 수많은 통계 도구들을 갖추고 있다는 것이 이 프로그램의 특징이다. 예를 들어 가우스 분포는 물론이고 Landau 분포, crystal ball 분포, Breit-Wigner 분포 등 입자물리에서 자주 등장하는 다양한 분포들을 기본 패키지로 다룬다. 또한 회귀 분석, 가설 검정은 당연히 포함되어 있고 ML (maximal likelihood)을 활용한 전반적인 것들, unfolding, TMVA (Toolkit for Multivariate Data Analysis)[10] 등 입자물리학자들의 데이터 통계 분석을 위한 다양한 분석 툴 또한 갖추고 있다. LGPL (최소) 2.1 라이선스를 따르기 때문에 누구나 부담없이 사용 가능하다.

8. 각종 오해와 통념들

이 문서는
이 문단은
토론을 통해 사측의 판단에 따라 편견 및 고정관념/과학 문서의 기여내용을 관련문서로 이동시키고 삭제하기로 합의되었습니다. 합의된 부분을 토론 없이 수정할 시 편집권 남용으로 간주되어 제재될 수 있습니다.
아래 토론들로 합의된 편집방침이 적용됩니다. 합의된 부분을 토론 없이 수정할 시 편집권 남용으로 간주되어 제재될 수 있습니다.
[ 내용 펼치기 · 접기 ]
||<table width=100%><table bordercolor=#ffffff,#1f2023><bgcolor=#ffffff,#1f2023><(> 토론 - 사측의 판단에 따라 편견 및 고정관념/과학 문서의 기여내용을 관련문서로 이동시키고 삭제하기
토론 - 합의사항2
토론 - 합의사항3
토론 - 합의사항4
토론 - 합의사항5
토론 - 합의사항6
토론 - 합의사항7
토론 - 합의사항8
토론 - 합의사항9
토론 - 합의사항10
토론 - 합의사항11
토론 - 합의사항12
토론 - 합의사항13
토론 - 합의사항14
토론 - 합의사항15
토론 - 합의사항16
토론 - 합의사항17
토론 - 합의사항18
토론 - 합의사항19
토론 - 합의사항20
토론 - 합의사항21
토론 - 합의사항22
토론 - 합의사항23
토론 - 합의사항24
토론 - 합의사항25
토론 - 합의사항26
토론 - 합의사항27
토론 - 합의사항28
토론 - 합의사항29
토론 - 합의사항30
토론 - 합의사항31
토론 - 합의사항32
토론 - 합의사항33
토론 - 합의사항34
토론 - 합의사항35
토론 - 합의사항36
토론 - 합의사항37
토론 - 합의사항38
토론 - 합의사항39
토론 - 합의사항40
토론 - 합의사항41
토론 - 합의사항42
토론 - 합의사항43
토론 - 합의사항44
토론 - 합의사항45
토론 - 합의사항46
토론 - 합의사항47
토론 - 합의사항48
토론 - 합의사항49
토론 - 합의사항50
||


  • 천몇백 명 표본으로 통계를 내는 각종 조사들은 신뢰할 수 없다. 대한민국 5천만 국민의 의견을 제대로 반영하려면 최소한 십만 명은 표본으로 삼아야 할 것이다.
    • 물론 표본의 크기가 커질수록 더 신뢰할 수 있는 데이터가 되기는 한다. 그러나 표본조사론에 따르면, 인구수가 얼마이든지 간에 95% 신뢰수준에서 약 3% 오차범위내로 추정하려면 대략 천명으로 충분하다. 즉, 천 개의 무작위 추출된 표본이면 모집단의 모수를 충분히 추정할 수 있다는 것이다. 그 이상의 표본추출은 비용낭비이다. 또한, 단순히 표본이 커진다고 좋은게 아니라, 표본이 커지면 커질수록 비표본오차가 커지게 된다. 그렇기때문에 비판의 초점은 적절한 표본 추출 방법이 사용되었는가, 정말 무작위 추출이 되었는가, 질문지는 편향을 유도하지 않는 가 등에 조사방법에 있어야지 표본 수에 있으면 안된다. 조사방법만 제대로 되었다면 천 개의 표본이라도 전 세계 인구를 모집단으로 하는 모수 추정을 95% 신뢰수준에서 3% 오차범위내로 추정할 수 있다.
  • 1,000명 조사에 응답률 10%이면 사실은 100명의 응답만으로 결론을 도출한 것이다.
    • 10,000명에게 전화를 걸어서 1,000명이 응답했다는 뜻이다.
    • 일반적으로 낮은 응답률은 여론조사에 걸리는 시간과 비용의 증가로 이어져서, 영세한 조사업체의 결과를 왜곡시킬 가능성을 높인다. 단, 사회 데이터를 분석할 때에는 응답률이 낮다는 사실 자체가 하나의 의미 있는(meaningful) 신호일 수 있음도 고려해야 한다. 응답하기를 거부한 사람들이 갖고 있는 생각이 조사결과에 반영될 리 없고, 이는 결국 응답률이 낮을수록 조사에 응하기로 한 소수의 사람들의 의견만을 반영했다는 의미가 되기 때문에 편향된 결과가 도출될수 있다. 이를 '무응답 편향' 이라 한다.
  • 세상에는 세 가지 거짓말이 있다. 그냥 거짓말, 새빨간 거짓말, 그리고 통계.
    • 사실 이 유명 어록은 "모든 통계는 무조건 거짓말이다!" 가 아니라 "통계도 얼마든지 조작이 가능하니까 믿기 전에 한번 의심해 봐라" 정도의 의미로 받아들이는 게 더 바람직하다. 통계학에 이해가 깊으면 깊을수록, 아주 사소한 표본추출 방식만을 가지고도 어지간히 교육받은 사람들까지도 맘껏 농락하는 게 가능하다. 그러니까 오히려 이 어록은 통계학에 대해서 기초적으로라도 배워 놓으라는 뜻일 수 있다.[11]
      특히 사회과학에서는 꼭 조작이 아니더라도 동일 주제를 놓고 서로 다른 기관에서 조사를 하면 서로 다른 결과가 나오기도 한다. 이는 각 통계마다 조사방법론에 차이가 있기 때문이다. 예를 들어 전세계의 행복순위를 확인하기 위해서 각국 국민들을 설문조사하는데, 각국마다 100명씩 표본을 추출한다면 당장 리히텐슈타인의 표본과 중국의 표본 간의 대표성에는 차이가 있을 것이다. 또한 "전반적으로 당신은 행복하십니까?" 라고 묻는 것과, "당신은 하루 중 몇 번 정도 행복을 느끼십니까?" 로 묻는 것은 분명히 다르다.[12] 이런 차이를 알면 알수록, 알지 못하는 일반인들을 교묘하게 속이는 것은 쉬워진다.
여담으로 이 유명 어록은 마크 트웨인이 벤저민 디즈레일리의 말을 인용한 것이다. 그러나 벤저민 디즈레일리의 어떤 저술에도 이런 말을 했다는 증거는 존재하지 않기에 이 문구는 역설적이게도 자기자신조차 거짓말일 수도 있다.
  • 빈도주의 (Frequentist) 추론 통계학에서, 모평균을 추정하기 위해 95% 신뢰수준에서 신뢰구간을 구할경우, 이는 실제 모평균이 95% 확률로 신뢰구간 내에 존재하고 있다는 뜻이다.
    • 95% 신뢰수준이란, 동일한 조사를 100번 반복할경우, 이중에 약 95번에 해당하는 조사에서 구해진 95개의 신뢰구간이 실제 참값을 포함할것 이라는 의미이다. 즉, 이미 구해진 신뢰구간은 어떤 모수에 대한 추정치 범위이나, 해당 범위가 무조건 참값을 포함하거나 95% 확률로 참값을 포함한다는 의미가 아니다. [13] # (26:00부터) 95% 확률로 실제 모수 참값이 존재하는 범위를 구하고 싶다면 빈도주의가 아닌 베이지안 추론 통계학을 통해 95% 신용구간을 구하면 된다.라고 서술되어 있었으나, 아주 큰 오해로 베이지안 추론과 빈도주의 추론에서 다루는 확률은 그 정의부터 다를 뿐더러 베이즈 추론의 95% 신용구간은 일반적으로 빈도주의의 95% 신뢰구간과 일치하지 않는다. 단, 점근적으로는 후자가 성립함을 보일 수 있는 경우가 있는데 이를 Bernstein-von Mises Theorem 이라 한다.
  • p-값이 0.05보다 작다(p<0.05)는 것은 주어진 가설이 참일 확률은 95% 이상이라는 것을 의미한다.
    • 그렇지 않다. 미국통계학회에 따르면 영가설이 참이고 다른 모든 가정들이 타당할 경우 관찰된 결과 이상으로 극단적인 결과를 얻을 확률이 5% 이하임을 의미한다. 이는 현직 과학자들도 자주 틀리는 개념이며, 이에 대한 학계 내부의 반성의 목소리도 많다.
  • 통계분석에 있어서 상관관계가 나오는 것만이 좋은 데이터다.
    • 꼭 그렇지만은 않아서, 연구주제에 따라서는 두 변인 간에 아무런 유의미한 관계가 없다고 밝혀지는 것이 중요한 경우도 있다. 실제 한 연구를 예로 들면, NGO에 고용되어 일하는 직원들의 근속년수와 임금수준 간에는 상관관계가 사실상 존재하지 않는다고 한다. 상관계수는 0에 극히 가깝게 나왔지만 그 자체로 논의거리가 나오니 좋은 연구로 취급된 사례다.
      영가설을 기각하지 못하는 것이 연구자가 바라는 바인 경우도 있다. 예컨대 통계모형 제작에 필요한 요인 분석 과정에서 Goodness-of-fit 검정을 하는 경우에는 p-값이 0.05 이상으로 크게 나오지 않으면 전체 분석을 다시 해야 한다.


파일:CC-white.svg 이 문단의 내용 중 전체 또는 일부는 문서의 r576에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문단의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r576 ( 이전 역사)
문서의 r ( 이전 역사)

9. 통계학의 주요 인물

  • 칼 피어슨: 사실상 근대 통계학의 창시자이다.
  • 플로렌스 나이팅게일
  • 카를 프리드리히 가우스: 정규 분포
  • 예르지 네이먼: 추론통계학
  • 토머스 베이즈: 베이즈 정리 - 가히 통계학의 아버지라고 할 수 있다. 통계학의 출발점이라고 할 수 있다.
  • 프랜시스 골턴: 회귀 분석
  • 조지 댄치그: 선형계획법
  • 폴 마이어: 카플란-마이어 생존분석
  • 아돌프 케틀레
  • 윌리엄 고셋: t-분포
  • 켈러(Keller): 경영경졔통계학 엑셀의 실전적 활용의 저서.
  • 그레고어 멘델: 유전학의 아버지이자 멘델의 법칙을 발견해낸 방식도 통계학이다. 멘델은 통계의 중요성을 알고 있었다.
  • 로널드 피셔: 피어슨과 원수 관계로 인하여 어려움을 격긴 하였지만, 현대 통계학의 발전은 거의 이 사람 혼자서 했다고 할 수 있을 정도로 큰 영향을 끼쳤다. 분산 분석, F-test, 피셔의 정확한 검정, 실험계획법 등 현대 통계학에서 필수로 배우는 대다수의 이론은 이 사람 혼자서 발전시켰다고 할 정도다. 피어슨과 잘 어울리지 못한게 피셔의 성격 때문이라고도 알려져 있다.
  • 조지 박스: 위의 로널드 피셔의 사위이다. Box-cox distribution 그리고 Box-cox transformation 등 통계학에 지대한 영향을 끼쳤다. 칼 피어슨 아들 (Egon Pearson) 에게서 박사지도를 받았다. 세상 참 좁다.

10. 관련사이트

11. 관련 문서



[1] 그냥 그래프 몇개 있는 것처럼 보이지만 자세히보면 시계열 정보부터 시작해 막대 그래프로 표현된 다변량 정보, 확률과정, 격자무늬로 표현된 패널데이터가 있다. [2] 따라서 적어도 학부 수준의 수학을 아예 모르면 통계학을 제대로 배울 수 없다. 또한 때로는 통계학이 수학보다 응용 범위, 분야가 더 폭넓기도 하다. [3] 한국대학 인문사회계열에 진학하면 통계기법을 배우는 모습을 쉽게 볼 수 있다. [4] 주로 미시경제학, 그 중에서도 게임이론과 같은 통계와 직접 관계없는 연역 모델링을 하는 사람들이 여기에 해당한다. 물론 이것도 데이터를 돌리지만 않는 것이지 확률의 개념은 거의 모든 미시이론에 들어가 있으며, 같은 미시라도 응용성이 조금만 가미되면 현실의 데이터를 무조건 들여다봐야 한다. [5] 통계학에서 수학을 안 쓰겠다는 것은 물리학에서 수학 1도 없이 이론 전개 하겠다는 것과 비슷한 맥락이다. [6] 서울대학교 통계학과 홈페이지 [7] 사전에 알고 있는 정보를 사전분포라는 이름으로 분석에 활용하기 때문에, 아무런 자료가 없는 경우에는 자료를 분석하는 사람이 생각하는 '주관적 확률' 역시도 필요한 경우에는 분석에 포함시킬 수 있다. 물론 이런 경우는 있을 수 있는 모든 경우의 수에 대해 동일하거나 아주 미세한 차이만 있는 사전분포를 사용하여, 모든 가능성이 동등하게 고려될 수 있도록 한다. 만약 특정한 경향성을 가지고 있는 '주관적 확률'을 사용하고자 한다면, 여기에 대해서 정당화를 할 수 있어야 한다. [8] https://en.wikipedia.org/wiki/Algebraic_statistics [9] https://en.wikipedia.org/wiki/Information_geometry [10] 입자물리학자들이 쓰는 다양한 기계학습 방식을 간편하게 쓸 수 있는 라이브러리이다. [11] 이 맥락에서 정반대로 "통계학을 모르는 사람은 고등교육을 받은 사람이 아니다" 라는 어록도 있다. [12] 극명한 사례를 들자면, 대한민국의 양성평등 순위는 세계에서 몇 등일까? 세계경제포럼(WEF)에 따르면 우리나라는 2013년 기준으로 136개국 중 111위로 최하위권이다. 그런데 유엔개발계획(UNDP)의 성불평등지수(GII)에 따르면 우리나라는 2011년 기준 146개국 중 11위로 최상위권에 속한다! 이렇게 엄청난 차이가 나타나는 것도 가능하다. #관련기사 [13] 위 고정관념의 표현이 애매한 것 같아 원문을 옮긴다. "VERY COMMON ERROR : The confidence interval IS NOT the probability that the population mean lies within the interval."

분류