최근 수정 시각 : 2023-10-26 10:09:34

이상점

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리​통계학 기반 실해석학( 측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률변수 · 확률분포( 표본분포 · 정규분포 · 이항분포 · 푸아송 분포 · 카이제곱분포 · t-분포 · z-분포 · F-분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균( 산술평균 · 기하평균 · 조화평균 · 멱평균 · 대수평균) · 기댓값 · 편차( 절대편차 · 표준편차) · 분산( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론​통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타분석 · 모델링( 구조방정식)
기술​통계학 · 자료 시각화 도표( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}
파일:xkcd1701ko.png
xkcd 1701화 [1]
1. 개요2. 사용3. 관련 문서

1. 개요

/ outlier

이상점은 다른 자료와는 극단적으로 다른 값, 즉 유달리 높거나 낮은 값을 보이는 것을 일컫는다. 더 정확히는, 상자도표(boxplot)에서 상(하)사분위수로부터 1.5×IQR[2]만큼 떨어진 거리보다 더 먼 곳에서 발견되는 관측값으로 정의된다.

국내 번역명으로는 이상점(異常點). 한자를 풀어보면 '일반적이지 않은 위치에 있는 점'이란 뜻인데, 이는 아웃라이어가 대체로 산점도(scatterplot)나 상자도표 같은 통계 데이터 시각자료에서 나타나기 때문이다. 통계학 외에서는 특이점(特異點/singularity)이라는 다른 말을 쓴다.

예를 들어 산점도를 그린다고 가정해 보자. 좌표평면을 펼쳐 놓고 점을 마구 찍게 되면, 대체로 점들이 일정한 범위에 걸쳐서 모이게 되는 모습이 나타날 것이다. 그런데 그 중에는 여러분이 상당히 먼 바깥에 외따로 찍어놓은 점도 몇 개 있을 것이다. 이런 값은 전체 평균값을 크게 왜곡시킨다. 그러나 이렇게 뜬금없는 자리에 찍힌 점은 큰 통계적 의미는 없는 경우가 많지만 간혹 통계적으로 굉장히 중요하게 취급되는 경우도 있기는 있다. 특히 반례 사례를 찾는 경우 등. 따라서 아주 무시하고 넘길 수만도 없다.

그래서 데이터를 취급하는 과학자들은 이런 점들을 아웃라이어 혹은 이상점이라고 하여 별도로 관리한다. 이들만 데이터에서 체계적으로 배제하는 과정을 '절사(trim[3])한다.'고 표현한다.

이상점을 판단하기 위해 수많은 계산이 필요한데, 종속변수의 분포를 그려보면 판단하기가 아주 쉽다. 즉 히스토그램 정규분포 곡선을 이용해서 종속변수의 정규성에 대한 개괄적인 판단이 가능하다. 여기서 주의할점은 잔차의 분포가 정규분포라고 가정해야 하기 때문에 진짜 판단을 잘하려면 잔차의 분포를 살펴야할지도 모른다.

2. 사용

통계, 수학 등에서 사용한다.

통계의 사용이 늘고 있는 스포츠에서도 이 용어를 가져와서 쓰기도 한다. 대부분 특정 선수가 일반적인 수준을 한참 뛰어넘을 때 쓴다. 한참 뒤떨어지는 선수를 뜻하지는 않는 게 보통이다.

e스포츠 대회인 2022 롤드컵을 앞두고 한 네티즌이 조사한 아웃라이어 지표가 주목을 받기도 했다.

이 극단값을 고려하지 않고 능력을 평균으로 해달라고 하고 환생했다가 고생하는 저, 능력은 평균치로 해달라고 말했잖아요! 라는 제목의 라노벨도 있다.

3. 관련 문서




파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 문서의 r61에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r61 ( 이전 역사)
문서의 r ( 이전 역사)


[1] NASCAR 나 포뮬러 원은 일반적으로 아주 빠르고, 아주 위험한 스포츠로 인식되지만 '로켓 발사'라는 특이값을 추가하면 아주 느리고, 위험하지 않은 스포츠로 착각할 수 있다. [2] 사분위간 범위(interquartile range)의 약자로, 자료의 중앙부 50%에 해당하는 범위를 의미한다. 통계적으로는 하사분위수에서 상사분위수를 뺀 값으로 정의된다. [3] 그래서 엑셀에서 관련 함수가 trimtrimmean인 것이다.