통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px;min-height:2em" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" |
<colbgcolor=#4d4d4d> 수리통계학 | 기반 | 실해석학( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률변수 · 확률분포( 표본분포 · 정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · [math(t)]분포 · [math(z)]분포 · [math(F)]분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙( 무한 원숭이 정리 · 던파확률의 법칙) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균( 산술평균 · 기하평균 · 조화평균 · 멱평균 · 대수평균) · 기댓값 · 편차( 절대편차 · 표준편차) · 분산( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타분석 · 모델링( 구조방정식) | ||
기술통계학· 자료 시각화 | 도표( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 본문
中 心 極 限 定 理Central Limit Theorem(CLT)
무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과는 관계없이 정규분포에 가까워진다는 정리. 이때 표본 평균의 평균은 모집단의 모 평균과 같고, 표본 평균의 표준 편차는 모집단의 모 표준 편차를 표본 크기의 제곱근으로 나눈 것과 같다. 이러한 중심극한정리를 직관적으로 이해할 수 있는 설명영상도 있다.
독립항등분포(i.i.d.)를 따르는
확률변수 [math(X_1, X_2, \cdots , X_n)]에 대해, 각각의 평균은 [math(E(X_i) = \mu)]이고 각각의 표준편차는 [math(\sigma)]라 하자. [math(\xi_n = \displaystyle \frac{\sum_{i=1}^{n}X_i - n\mu}{\sqrt{n}\sigma})] 라 둘 때, [math(\xi_n)]은 표준정규분포로 분포수렴한다.
더 복잡한 버전으로는 i.i.d. 가정을 적절히 약화시킨 Lindberg CLT나 Lyapunov CLT가 있으나, 학부 수업 수준에서는 상기한 결과만 알아도 충분하다.[1] 중심극한정리는 큰 수의 법칙과 함께 통계학의 뼈대를 이룬다고 할 수 있으며, 왜 정규분포가 중요하게 다뤄지는지 하나의 근거를 제시한다.
이 정리의 놀라운 점은, i.i.d. 가정이 성립하고 평균, 표준편차만 알고 있다면 [math(X_i)]의 분포 자체에 대한 어떤 정보도 없더라도[2] [math(\xi_n)]의 분포를 점근적으로 알 수 있다는 점이다. 대부분의 점근적인 검정들은 CLT를 기반으로 한다.
큰 수의 법칙과는 상보적인 관계에 가까운데, 확률수렴이 분포수렴보다 더 강력한 개념이기 때문에[3] 큰 수의 법칙이 더 강력한 결과라고 오해할 수도 있으나, 중심극한정리는 점근적인 분포가 정규확률분포라는 추가적인 정보까지 제시해주기 때문에 두 법칙 간에 상하관계가 존재한다고 할 수는 없다. 큰 수의 법칙은 표본평균이 모평균으로 확률수렴한다는 이야기이며, 중심극한정리는 표본평균의 분포가 "어떤 모양"을 가지고 수렴하는지에 관해 이야기하는 것이 그 핵심이다. 표본평균이 모평균에 얼마나 빠르게 수렴하는지, 그 수렴 속도에 관해 이야기하는 법칙은 반복된 로그의 법칙 (Law of iterated logarithm)이라고 불린다.
기초통계학만 배워도 제시되는 법칙이나, 증명은 상당히 까다롭고 대개 학부 3학년 정도에 수리통계학 수업에서 더 강한 조건[4]이 주어졌을 때의 증명을 배우게 된다. 일반적인 경우의 완전한 증명은 대학원 수준의 확률론에서 다룬다.
예를 들어 모집단의 분포가 일자형이라고 하자. "주사위를 한 번 던져서 나오는 수" 라는 변수가 있다고 하면 이 변수의 분포는 평평할 것이다. 어떤 특정한 수가 더 자주 나오는 게 아니라 1부터 6까지의 수가 모두 똑같은 확률로 나오니까. 자 이제 표본을 채집해 보자. "주사위 한 번 던져서 나오는 수" 를 50번 (n=50) 채집해서 표본 하나를 구성한다고 하자. 그리고 각 표본에서 평균값을 구한다. 그러면 예를들어 표본1 의 평균값은 3.21, 표본2 의 평균값은 3.56, 표본3 의 평균값은 3.40, 뭐 이런 식으로 나올 것이다. 표본을 한 5000개 정도 뽑아서 표본 평균의 분포를 그래프로 그려보면 n이 너무 작지 않은 한 (보통 30 미만은 너무 작다고 친다) 그 형태가 정규분포와 비슷하다는 거다.[5]
수학적으로 이야기하면 독립인 확률변수들의 평균의 분포가 정규분포에 수렴한다는 이야기로[6], 이를 중심극한정리(Central Limit Theorem)라 부른다. 이항분포 B(n,p)가 정규분포 N(np, npq)로 수렴한다는 내용은 이보다 이전에 라플라스(Laplace, Pierre-Simon)가 증명하였고, 이 버전을 "라플라스의 정리"라 부르는 경우도 있다. 물론 이를 일반화하여 현재의 중심극한정리를 정립한 것은 가우스이다.
이 중심극한정리가 통계적 유의성 검정을 위한 이론적 토대가 된다. 예를 들어 채집한 표본의 평균값이 어떤 특정한 값에 비해 통계적으로 유의한 정도로 더 큰지 혹은 더 작은지를 검토한다고 할 때, 표본평균의 분포가 대략 정규분포를 이룬다는 전제 (=중심극한정리) 가 있기 때문에 채집한 표본의 값이 이론적으로 전개된 표본평균 분포상대에 비추어 봤을 때 나올 확률이 5% (통상적으로 상정되는 유의기준) 미만인지를 검토할 수 있는 것이다.
2. 증명
아래 증명은 적률생성함수가 존재하는 확률변수에 한해서만 유효하다. 그러나 적률생성함수가 존재하지 않는 확률변수라도 여전히 중심극한정리는 성립하는데, 이때의 증명은 적률생성함수 대신 특성함수(characteristic function)를 이용한다.[7] 적률생성함수와는 달리 특성함수는 모든 확률변수에 대하여 존재하기 때문이다. 주로 학부 수준에서는 적률생성함수를 이용하여 부분적인 경우를 증명하고, 대학원 수준에서 특성함수를 이용해서 완전히 증명한다.[math(\mathbb E(\bar X)=\mathbb E\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1n\{\mathbb E(X_1)+\mathbb E(X_2)+\mathbb E(X_3)+\cdots+\mathbb E(X_n)\}\\=\dfrac1n×n\mathbb E(X)=\mu)]
[math(\mathrm {Var}(\bar X)=\mathrm {Var}\left(\dfrac1n(X_1+X_2+X_3+\cdots+X_n)\right)\\=\dfrac1{n^2}\{\mathrm {Var}(X_1)+\mathrm {Var}(X_2)+\mathrm {Var}(X_3)+\cdots+\mathrm {Var}(X_n)\}\\=\dfrac1{n^2}×n\mathrm {Var}(X)=\dfrac{\sigma^2}n)][A]
[math(\therefore\sigma(\bar X)=\dfrac\sigma{\sqrt n})]
[math(M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)=\mathbb E\left(\exp\left(\dfrac{(X_1-\mu)+(X_2-\mu)+\cdots+(X_n-\mu)}{\sigma\sqrt n}t\right)\right)=\mathbb E\left(\exp\left(\dfrac{X_1-\mu}{\sigma\sqrt n}t\right)\right)\mathbb E\left(\exp\left(\dfrac{X_2-\mu}{\sigma\sqrt n}t\right)\right)\cdots\mathbb E\left(\exp\left(\dfrac{X_n-\mu}{\sigma\sqrt n}t\right)\right))][A]
[math(=\left\{\mathbb E\left(\exp\left(\dfrac{X-\mu}{\sigma\sqrt n}t\right)\right)\right\}^n\\=\left\{M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)\right\}^n)]
[math(\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)\\=\exp\left(\displaystyle\lim_{n\to\infty}n\ln M_{\frac{X-\mu}\sigma}\left(\dfrac t{\sqrt n}\right)\right))]
여기서 [math(h=\dfrac1{\sqrt n})]이라 하면 [math(n\to\infty)]일 때 [math(h\to0)]이므로
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{\ln M_{\frac{X-\mu}\sigma}(th)}{h^2}\right))]
여기서 [math(\displaystyle\lim_{h\to0}M_{\frac{X-\mu}\sigma}(th)=1)]이므로 로피탈의 정리에 의해
[math(=\exp\left(\displaystyle\lim_{h\to0}\dfrac{tM_{\frac{X-\mu}\sigma}'(th)}{2hM_{\frac{X-\mu}\sigma}(th)}\right)\\=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-\mu}\sigma}'(th)-0}{h}\right))]
여기서 [math(\displaystyle\lim_{h\to0}M_{\frac{X-\mu}\sigma}'(th)=0)]이므로 미분계수의 정의에 의해[10]
[math(=\exp\left(\dfrac t2\displaystyle\lim_{h\to0}\dfrac{M_{\frac{X-\mu}\sigma}'(t×h)-M_{\frac{X-\mu}\sigma}'(t×0)}{h}\right)\\=\exp\left(\dfrac t2×tM_{\frac{X-\mu}\sigma}''(t×0)\right))]
여기서 [math(M_{\frac{X-\mu}\sigma}''(0)=\mathbb E\left(\left(\dfrac{X-\mu}\sigma\right)^2\right)\\=\mathrm {Var}\left(\dfrac{X-\mu}\sigma\right)+\left\{\mathbb E\left(\dfrac{X-\mu}\sigma\right)\right\}^2\\=1+0^2=1\\\therefore\displaystyle\lim_{n\to\infty}M_{\frac{\sqrt n(\bar X-\mu)}\sigma}(t)=e^{\frac{t^2}2})]로 표준정규분포의 적률생성함수와 같은 형태이다. 즉, [math(n\to\infty)]일 때 [math(\dfrac{\sqrt n(\bar X-\mu)}\sigma\sim\mathrm N(0,1))]이므로 [math(\bar X\sim\mathrm N(\mu,\dfrac{\sigma^2}n))]이다.
[자료출처]
3. 관련 문서
[1]
사실 그 이외에도 여러 다양한 조건들하에서 적용할 수 있는 CLT가 찾아보면 굉장히 많다. 그러나 그 모든 것들이 자주 쓰이지는 않으며, 학부나 대학원에서 배우는 정도의 CLT가 가장 많이 쓰이는 메이저한 지식이다.
[2]
위를 보면 알 수 있겠지만 [math(X_i)]가 어떠한 분포를 따라야 한다는 제약이 없다.
[3]
미분가능하면 연속적이듯이, 확률수렴하면 분포수렴한다.
[4]
주로
적률생성함수가 존재함을 가정한다. 그 이유는
아래 증명에서 볼 수 있듯이 증명에 적률생성함수를 사용하기 때문.
[5]
만약 30*30일 경우의 p를 구해보라. 구해보면 아마 소름이 돋을 것이다. 30 by 30 라고도 한다. CLT의 기본 정의를 이용한 증명인데, 수학적으로 관심있다면 매우 신기한 방향으로 증명이 이루어지는 것을 볼 수 있다.
[6]
엄밀히 말하면: 같은 분포를 따르고 서로 독립인 확률변수 X1 , X2 , ..., Xn 에 대해 이들의 평균 X = (X1 + X2 + ... + Xn)/n 을 평균이 0, 분산이 1이 되게 표준화한 Z=(X-μ)/σ√n의 분포는 n이 무한대로 갈 때 정규분포에 수렴한다.
[7]
집합 판별 함수와는 다르다.
확률론에서 말하는 특성함수란 [math(\mathbb E(e^{itX}))]를 뜻한다.
[A]
각각의 Xk는 독립(복원추출)이므로 분리할 수 있다.
[A]
[10]
로피탈의 정리를 또 써도 된다.
[자료출처]
https://m.blog.naver.com/mykepzzang/220851280035