통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
산점도( 散 點 圖)는 가로축(X축)과 세로축(Y축)을 설정한 좌표평면 상에서 각각의 관찰값들을 점이나 X 문자로 표시하는 방식을 말한다. 물론 두 축이 의미하는 바가 무엇인지부터 확실하게 정의되어야 한다. 산점도는 나중에 회귀 분석(regression)을 할 때 굉장히 중요해진다. 특정 관찰값의 정보를 표시하려면 소괄호를 치고 X축 값과 Y축 값을 쉼표로 구분하여 표기하면 된다. 영어 표기로는 scatter plot, scatterplot, scatter graph, scatter chart, scattergram, scatter diagram 등이 있다. 산점도는 두 변수간의 연관성을 쉽게 파악할 수 있기에 상관도표라고도 한다.전체적으로 추세가 존재할 경우 굵은 직선으로 추세선(trend curve)을 표기하는 경우도 있으며, 이 경우 좌표평면은 일반적인 유클리드 공간에서 벗어나게 된다. 정확히 설명하자면 서로 다른 두 관찰값 간의 거리는 유클리드 거리와 달라지며, 새롭게 마할라노비스 범거리(Mah Dist; Mahalanobis generalized distance)에 따라 측정된다. 이를 엄밀하게 정의하는 것은 읽는 분들에게 고통스러울 수 있으니(…) 최대한 질박하게 설명하자면, 두 관찰값을 연결한 가상의 선이 추세선과 평행할수록 이 거리는 유클리드 거리보다 확연히 감소하고, 가상의 선이 추세선과 직교할수록 이 거리는 유클리드 거리보다 확연히 증가한다. 예컨대 이 그림 자료에서, 원점과 A점 사이의 거리는 원점과 B점 사이의 거리보다 훨씬 더 긴데, 이는 추세선이 우상향하는 방향으로 존재하기 때문이다. 이는 이상점을 찾아 정리하는 데 유리하며, 심화 수준에서는 카이제곱 분포에서도 써먹곤 한다.
산점도는 두 자료의 변량이 얼마나 분포해있는지를 쉽게 파악할 수 있게 해주어 가독성이 좋지만, 같은 변량을 가지는 자료들을 여러번 표시할 수 없다는 단점이 있다.
산점도는 관찰값이 특정 범위에 지나치게 오밀조밀 몰려 있을 때 읽기가 쉽지 않다. 이 경우는 별도로 이 부분만 확대시켜서 추가 산점도를 그려 주어야만 한다. 또한 X축과 Y축 중 어느 하나에도 질적 자료가 들어가면 안 된다. 만일 X축(독립변인)이 질적 자료일 경우에는 산점도와 회귀분석을 쓰는 것보다는 차라리 분산분석(ANOVA), Y축(종속변인)이 질적 자료일 경우에는 로짓분석(logistic regression), 둘 다 질적 자료일 경우에는 교차표 분석(cross tabulation)을 쓰는 편이 좋다.
서로 다른 변인에서 나타나는 여러 산점도를 한꺼번에 겹쳐 놓는 경우도 있다. 변인이 2개일 경우에는 따로 행렬도(biplot)라고 부르기도 한다. 만약 산점도 상에 X축과 Y축이 동일한 값을 갖는 가상의 점들을 따라 45도 사선을 긋고, 그 선과 실제 나타나는 산점도의 결과를 비교할 경우 이는 Q-Q도표(Q-Q plot)라고 부른다. 한편 과학계량학 분야에서는 출판 편향(publication bias) 문제에 대응하기 위하여 산점도의 변형인 깔때기도표(funnel plot)를 개발하기도 했다.
교육과정 상에서는 중학교 3학년 마지막 단원에서 처음으로 배운다. 다만 일부 학교에서는 맨 마지막에 존재하는 내용이라 생략하는 경우도 있다. 바로 앞에서 배우는 대푯값, 산포도를 생략하는 경우는 거의 없다는 것과는 대조적이다.
2. 관련 문서
- 산포도(dispersion, scatter)