수학 | 교과 내용 요소 | ||
{{{#!wiki style="margin: -0px -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -2px -12px" |
[참고] 이 틀은 중학교 수학 내용 요소만을 담고 있습니다. | |
<colbgcolor=#2667a9><colcolor=white> ㄱ | <colbgcolor=#fff,#191919> 가감법 · 각도 · 규칙 · 각기둥 · 곱셈 공식 · 공약수 · 그래프 · 각뿔대 · 겉넓이 · 거듭제곱 | |
ㄴ | 내각 · 내접 · 농도 | |
ㄷ | 다각형 · 도형 · 등식 · 다항식 (단항식) · 도수분포표 · 대입법 · 대푯값 · 동위각 · 도수분포다각형 · 등변사다리꼴 | |
ㅁ | 막대그래프 · 무리수 · 미지수 · 면 · 맞꼭지각 · 마름모 | |
ㅂ | 부채꼴 · 부피 | |
ㅅ | 소수 · 사각형 · 삼각형 · 삼각비 · 실수 · 소인수분해 · 순환소수 · 사분면 · 선 · 수선 · 선분 · 상대도수 · 산포도 · 산점도 · 수직이등분선 | |
ㅇ | 원 · 원기둥 · 일차방정식 · 이차방정식 · 유리수 · 유한소수 · 일차함수 · 연립방정식 · 이차함수 · 완전제곱식 · 외각 · 엇각 · 외심 · 이등변삼각형 · 원주각 · 원주율 | |
ㅈ | 자연수 · 좌표평면 · 제곱근 · 정수 · 점 · 작도 · 전개도 · 중선 · 중근 · 지수 · 직사각형 | |
ㅊ | 최소공배수 · 최대공약수 | |
ㅍ | 피타고라스 정리 · 평행선 · 평행사변형 | |
ㅎ | 함수 · 합동 · 히스토그램 · 합성수 · 회전체 · 현 · 확률 |
차트 Charts |
||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 일반 그래프 | 그림그래프 · 막대그래프 · 선 그래프 |
비율 그래프 | 원 그래프 · 띠 그래프 | |
기타 | 카토그램 · 상자 수염 그림 · 줄기와 잎 그림 | }}}}}}}}} |
통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
bar chart, bar plot
통계를 낼 때 사물의 양을 막대 모양의 길이로 나타낸 그래프를 말한다. 크고 작음을 한 눈에 이해할 수 있기 때문에 이해하기엔 가장 편리하다. 다만 시간의 흐름에 따라 변하는 내용을 표현하는 것은 주로 꺾은선그래프가 이용된다.
막대를 세로로 할 수도 있고 가로로 할 수도 있다. 가독성 면에선 항목이 적을수록 가로가 좋고 항목이 많을수록 세로가 좋다.
Bar chart & histogram
막대그래프와 히스토그램은 주로 공시적 자료를 다룰 경우 쓰이는 그래프이다. 연속적 자료의 경우 히스토그램이라고 부르고, 불연속적 (=이산적) 자료의 경우 막대그래프라고 부른다. 이산적 자료와 연속적 자료의 차이에 대해서는 하단의 서술을 참고. 시각적으로 보아 둘 사이의 차이점은 막대들의 모양으로, 막대가 서로 붙어 있으면 히스토그램이고 서로 떨어져 있으면 막대그래프라고 보면 된다.
시각적으로 최고의 디자인을 구현하는 것이 중요한데, 예컨대 {45, 47, 51, 44, 49}에 해당하는 막대그래프를 그리는 데 수직 축을 덮어놓고 0에서부터 올라가도록 한 뒤 2씩 끊어 놓으면 보기에 몹시 불편하다. 이럴 경우 하단을 물결표를 써서 잘라 놓고, 가장 아래쪽은 40, 가장 위쪽은 55로 범위를 잡아서 5씩 끊어 놓으면 보기에 좋다. 44와 45가 유사해 보일 수 있으니, 각각의 막대 위에 각 수치를 기입해 두는 것도 좋은 선택.
막대가 가로로 놓여 있을 경우에는 bar chart, 세로로 놓여 있을 경우에는 column chart라고 해서 구분하기도 한다.
2. 그리는 법
막대가 세로 방향일 때를 기준으로 가로축에는 항목을, 세로축에 표시할 값의 범위와 이에 따른 눈금을 표시하고, 알맞게 막대를 그린다.모든 막대가 서로 떨어져 있는 경우도 있지만, 몇 개의 막대를 하나의 묶음으로 만들어서 여러 개의 묶음으로 표시하는 경우도 있다. 후자의 경우는 구별을 위하여 각 묶음 사이의 간격이 드러나게 해야 하며, 묶음의 각 막대 사이에 간격을 두는 경우 그 간격과 묶음 간의 간격이 눈에 띄게 차이 나게 그려야 한다. 또, 묶음의 각 막대의 색을 서로 달리하여 각 막대가 무엇을 의미하는지 정확히 알 수 있게 해야 한다. 예를 들어 각 학년별 남학생 수와 여학생 수를 알고 싶다고 할 때, 학년별로 막대를 묶어서 학년의 개수만큼 묶음을 만든 후, 각 묶음의 막대가 남학생, 여학생의 수를 의미하게 할 수 있다. 이때 남학생에 해당하는 막대는 A색, 여학생에 해당하는 막대는 B색으로 하여 서로 구분되게 한다.
막대를 가로 방향으로 그리는 경우에는 항목을 표시하는 축이 세로축, 값을 표시하는 축이 가로축이 된다. 즉 각 요소 (축, 값 표시, 항목 표시 등)의 배치, 막대의 방향 등이 세로 막대 그래프와 가로, 세로가 반대라고 생각하면 된다.
누적된 값을 비교하고 싶으면 누적 막대 그래프를 그릴 수 있다. 각 항목별로 한 막대 위에 다른 막대를 그리는 식으로 여러 개의 막대를 누적해서 그리는 방법으로, 상술한 몇 개의 막대를 묶어 표현하는 방법과 어느 정도 비슷하다고 할 수 있다. 이 방법을 학년/성별 학생 수를 구하는 위 예시에 적용하자면 각 학년별로 남학생 수에 해당하는 막대 바로 위에 여학생 수에 해당하는 막대를 그려서 각 학년별 학생의 수를 비교할 수 있다.
특정 몇몇 항목의 값이 다른 항목들의 값과 크게 차이 나는 경우 물결무늬로 그 중간을 생략할 수 있다. 물론 그 중간에 해당하는 값을 가진 항목이 없어야 한다.
2.1. 마이크로소프트 오피스에서
엑셀에서 그릴 수 있다. 데이터를 마우스로 긁은 후 "삽입 → 세로 막대형, 꺾은선형, 원형"을 선택하면 막대 그래프, 선 그래프, 원 그래프를 그릴 수 있다.삽입 - 차트 - 세로 막대형 (또는 가로 막대형) 메뉴에서 삽입할 수 있다. 파워포인트의 경우 2016 버전 기준으로 항목이 4개, 계열이 3개인 그래프가 기본적으로 제공된다. 100% 기준 누적 가로/세로 막대 그래프, 3차원 막대그래프, 막대를 가로 세로 각각 몇 개씩 직사각형 모양으로 배치한 3차원 세로 막대형 그래프, 폭포형, 깔때기형 막대그래프도 제공한다. 여기서 막대를 직사각형 모양으로 배치한 그래프는 그리기가 복잡하므로 잘 쓰이지 않는다.
2.2. 리브레오피스에서
캘크 (Calc)에서 데이터를 마우스로 긁은 후 "삽입 → 차트 → 열, 선, 원형"을 선택하면 막대 그래프, 선 그래프, 원 그래프를 그릴 수 있다.3. 해석
- 물결무늬로 중간을 생략하지 않았고 막대가 값이 0인 지점부터 양의 방향으로 나타난다면, 음의 값을 갖는 항목이 없는 경우 막대의 길이는 값에 비례한다. 음의 값을 갖는 항목이 있는 경우 막대의 길이는 값의 절댓값에 비례한다.
- 막대가 값이 양 (+)인 지점부터 양의 방향으로 나타난다면, 어떤 두 항목의 실제 값을 각각 A, B(단, A<B)라 할 때 막대의 길이의 비율은 A/B보다 작다. 즉, 비율상으로 볼 때 실제 값이 큰 항목의 막대의 길이는 더욱 길다는 것이다. 반대로 막대가 값이 음인 지점부터 양의 방향으로 나타난다면, 마찬가지로 할 때 막대의 길이의 비율은 A/B보다 크다.
- 세로 막대그래프 기준으로, 어떤 항목의 값을 다른 값들과 비교하고 싶으면 해당 항목을 나타내는 막대의 끝부분을 지나는 가로축을 그리면 된다. 막대의 위치가 바로 옆인 경우, 특히 막대가 서로 붙어 있는 경우에는 눈대중으로도 비교할 수 있다.
- 값으로 0%부터 100%까지의 백분율을 표시하여 각 항목의 비율을 막대그래프처럼 나타낼 수도 있는데, 이 경우에는 막대가 바뀌는 지점을 꺾은선그래프에서의 점과 같이 생각하여 꺾은선그래프처럼 해석할 수 있다.
4. 주의점
비교하고자 하는 것이 각 집단의 평균값일 경우 막대 그래프는 집단 내 표본의 크기나 분포를 나타내지 않기 때문에 막대보다는 점이나 박스 형태의 그래프를 만드는 것이 더 적절하다.5. 히스토그램
통계학 Statistics |
|||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" |
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 ( 측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 ( 표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 ( 무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 ( 제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 ( 절대 편차 · 표준 편차) · 분산 ( 공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 ( 요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 ( 군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 ( 구조방정식) | ||
기술통계학 · 자료 시각화 |
도표 ( 그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
Histogram[1]
도수분포표에서 수집한 자료들을 나열하기 위해 사용하는 막대그래프 모양의 그래프로, 일반 막대그래프와는 달리 가로가 계급, 즉 값에 해당한다는 결정적인 차이점이 있다. 원래는 막대 간의 간격 없이 막대끼리 서로 붙어 있어야 하는 게 올바른 그래프지만, 막대그래프처럼 막대 사이에 간격을 두고 띄어서 그리는 잘못된 경우도 종종 있다.
어떤 자료에 대하여 가로축에는 값의 범위를, 세로축에는 그 자료의 해당 범위에 속하는 값의 개수를 적으며, 이를 막대그래프와 같은 방법으로 표현한다. 예를 들어 위와 같은 히스토그램에서는 10 이상 15 이하의 값이 1개, 15 초과 20 이하의 값이 3개, ..., 50 초과 55 이하의 값이 1개임을 알 수 있다. 다른 표현 방법으로는, 가로축의 눈금에 값을 적고 막대는 눈금 사이에 그리는 방법도 있다. 사실 각 막대의 범위가 균등할 필요는 없다. 경우에 따라 가변적으로 그리기도 한다.
연속적인 값을 쌓는 것이다보니 막대의 범위를 얼마로 설정해야 하는지가 애매하게 느껴질 수 있을 것이다. 사실 이에 대한 명확한 규칙은 없다. 다만, 다음 사항 하나는 지켜야 쓸 만한 히스토그램을 그릴 수 있다. 각 막대에 충분히 많은 데이터가 쌓여야 한다는 것이다. 예를 들어 정규분포를 갖는 어떤 값을 가진 데이터가 1만 개 있다고 하자. 이걸 가지고 히스토그램을 그린다고 하면 보통 예쁜 언덕 모양의 그래프를 얻기를 기대할 것이다. 그런데 막대 개수를 1만 개로 쪼개서 히스토그램을 그리면 너무 작은 막대들이 무작위로 짜글짜글하게 깔려 있는 그런 그래프를 얻게 될 것이다. 다만 -3부터 +3까지만 그린다고 가정하였을 때[2], 이 범위를 대충 20등분으로 해서 히스토그램을 그리면 잘 알려진 정규분포 그래프와 비슷한 모양을 얻게 될 것이다. 100개로 쪼개면 좀 짜글짜글하지만 그런대로 종 모양과 비슷한 그래프를 얻을 것이다. 보통 각 막대(bin)에 들어가는 데이터 개수와 그 제곱근 값을 가지고 통계량이 충분한가 판단한다. 물론 데이터가 많으면 많을수록 막대들을 더 잘게 쪼개도 상관 없을 것이다. 참고로 앞에서 말한 균등하지 않은 막대 크기들도 이 통계량 때문에 쓰는 것이다. 데이터 양이 충분하지 않을 것 같은 구간을 덜 쪼갠다든가 하는 식이다.
지금까지 1차원 히스토그램만 설명하였는데, 2차원 히스토그램도 있다. 어떤 데이터가 두 개의 값을 가질 경우 그리는 그래프이다.[3] 여기서는 y축 또한 데이터 값으로 하여 범위를 쪼갠다. 그러면 x축 범위와 y축 범위 각각이 직사각형들을 이룰텐데, 그 안에 들어가는 데이터들의 개수를 세는 것이다. 예를 들어 공을 던진 다음 공이 떨어진 위치의 x축 좌표와 y축 좌표를 측정할 수 있을텐데, 이를 여러 번 반복한 다음 각 좌표 범위에 해당하는 직사각형('막대')에 들어가는 데이터 개수를 세는 것이다. 그런 점에서 1차원 히스토그램과 원리 면에서는 똑같다. 다만, 표현하는 방법이 문제인데, 똑같이 데이터 개수를 '높이'로 하여 3차원 그래프를 그릴 수도 있다. 이러면 많은 경우 오히려 모양이 직관적이지 않을 수 있다. 그래서 보통은 2차원으로 그리되, '높이'는 색으로 표현하곤 한다.[4] 그 외에도 여러가지 방법이 있으니, 상황에 맞춰 쓰면 되겠다. 기본적으로 두 값의 통계적 상관 관계나 migration 등을 관찰하고자 할 때 이 2차원 히스토그램이 많이 그려지곤 한다.
의외로 현대 과학 분야에서 몹시 자주 쓰이는 도구이다. 아무래도 실험에서 얻어지는 데이터들은 대부분의 경우 어떤 분포를 가질 것이기에 그 분포를 구하고 예측과 맞춘다든가 혹은 새로 예측을 하려고 하는 것이 목표인 경우가 많아서 그렇다. 대표적으로 입자실험물리에서 보는 그림들 중 절대 다수는 바로 이 히스토그램이다. 아예 양자역학적인 프로세스들을 보고자 한다면 결국 (확률)분포를 관측하는 것이 가장 적합할텐데, 히스토그램은 이를 표현하기에 안성맞춤이기 때문이다. 위에 예시로 그린 히스토그램은 LHC에서 발견된 힉스 입자의 증거 중 하나로 소개되는 그래프들 중 하나이다. 수많은 충돌 각각에서 측정된 특정 물리량[5]을 잡아다 히스토그램을 그려 이론이 예측하는 확률 분포[6]와 비교하는 것으로 이론 검증을 (혹은 가설 검정을) 수행할 수 있다.
6. 기타
학교에서는 2009 개정 교육과정 기준으로 초등학교 4학년에서 처음 배우게 된다. 지리에서 등장하는 월 평균기온-강수량 그래프에서 주로 강수량 그래프를 막대그래프로 표현한다. 엄밀히 말하면 강수량 그래프도 같은 대상을 시간의 변화에 따라 나타내는 것이므로 꺾은선 그래프로 표현하는 것이 맞다. 막대그래프는 서로 다른 집단, 예를 들면 같은 달 강수량의 서울과 제주도 비교 등을 할 때 쓰인다.줄기와 잎 그림은 숫자를 막대를 이루는 요소로 볼 때 막대그래프와 유사한 형태를 띈다.
막대그래프의 막대 대신 특정한 물건을 나타낸 그림으로 표현하는 경우도 있다. 예를 들어 경제 지표를 막대그래프로 나타낼 때는 막대 대신 동전이나 지폐 그림을 활용하는 식. 역시 그림으로 나타낸 물건의 개수가 실제 값과 대략적으로 비례한다.
원 그래프와 결합시킨 원형 대 막대 차트[7]도 있다. 원 그래프의 조각 하나를 막대그래프와 대응시켜 세부 항목들의 값을 막대그래프로 나타내는 것이다.
[1]
역사를 뜻하는 단어 history와 그림을 뜻하는 diagram의 합성어이다. 막대그래프는 대부분 서로 다 다른 것을 다루는 반면 히스토그램은 역사가 있는 것처럼 연결되어 있기 때문에 붙여진 이름이다.
[2]
물론 정규분포를 가지는 값이면 -3과 +3 사이의 값만 가지지 않을 수도 있다. 하지만, 히스토그램의 범위를 무한대로 할 수는 없으므로 이 범위를 벗어나는 데이터들을 어떻게 잘 처리하는 것 또한 관건이다. 이러한 히스토그램 범위 밖의 데이터들이 위치하는 곳을 underflow/overflow bin이라고 부른다. 참고로, 당연히 꼭 -3부터 +3까지일 필요는 없다. 어디까지나 예시이고, 데이터와 목적에 맞춰 이 범위를 잘 설정하는 것 또한 중요하다.
[3]
물론, 둘 중 하나만 가지고 (즉, 나머지 값은 고려하지 않고) 1차원 히스토그램을 그릴 수도 있다. 아니면 데이터가 셋 이상의 값을 가질 때에도 그 중 둘만 골라 2차원 히스토그램을 그릴 수도 있다.
[4]
무슨 색이 얼마고 하는 것을 따로 팔레트 형식으로 옆에 그리는 것이 보통이다.
[5]
전자와 뮤온 네 개의 총 불변 질량(invariant mass)이다. 전자와 뮤온이 네 개 포함된 이벤트들을 잘 모은 다음(이런저런 추가적인 선택 조건을 적용시켜 이벤트들을 쳐내고 나서), 위 그래프를 그린 것이다.
[6]
참고로 위 그래프에서 얻어진 이론 예측 분포 역시 히스토그램으로 그린 것이다. 무슨 말이냐면
이론이 예측하는 충돌 반응을 시뮬레이션으로 엄청나게 많이 구현해 낸 다음 실험 데이터로 그린 것과 똑같은 방법으로 시뮬레이션 데이터를 가지고 히스토그램을 그린 것이다. (그래프가 각져 보이는 이유가 바로 여기에 있다. 사실 저 각진 것들 하나하나가 다 히스토그램을 구성하는 막대들인 것이다.) 입자물리 실험에서 몹시 자주 쓰이는 방법이다.
[7]
Microsoft Office에서 부르는 이름이다.