boxplot은 사분위값을 이용하여 데이터의 분표 모양, 대칭성, 극단 값을 쉽게 파악할 수 있는 그림이다.
크게 중앙 50% 데이터의 분포 형태를 파악하는 부분과 나머지 50%(outlier)의 분포 형태를 파악하는 부분 두 가지로 나누어 볼 수 있다.
[5, 10, 15, 15, 16, 16, 20, 20, 20, 21, 25, 45, 50]
위의 데이터에서 사분위값은 아래와 같다
1사분위(Q1) = 15
2사분위(Q2) = 20
3사분위(Q3) = 25
(사분위값을 구하는 방법은 여러가지가 있다. 방법에 따라 값이 달라질 수 있다.)
Q1과 Q3를 끝으로 하는 상자를 그리고 Q2를 실선으로 그어 중앙 50%의 데이터가 어떻게 분포되어 있는지 나타낸다.
나머지 50%의 분포는 IQR을 이용하여 그린다.
IQR(InterQuartile Range)은 'Q1과 Q3 사이의 길이'이다.
Q1과 Q3 주변으로 1.5 * IQR 범위에 있는 데이터를 울타리 안에 표시하고,
그 바깥에 있는 데이터는 * 또는 O 으로 표시한다.
(이때 울타리 안의 데이터를 'suspect outliers'라 하고, 울타리 밖의 데이터를 'highly suspect outliers'라 한다.)
IQR = 25 - 15 = 10
1.5*IQR = 15
Q1 - 1.5*IQR = 15 - 15 = 0
Q3 + 1.5*IQR = 25 + 15 = 40
위에서 구한 값을 그림으로 그리면 다음과 같다.