boxplot 사분위값을 이용하여 데이터의 분표 모양, 대칭성, 극단 값을 쉽게 파악할 있는 그림이다.

크게 중앙 50% 데이터의 분포 형태를 파악하는 부분과 나머지 50%(outlier) 분포 형태를 파악하는 부분 가지로 나누어 있다.


[5, 10,  15, 15, 16, 16, 20, 20, 20, 21, 25, 45, 50]


위의 데이터에서 사분위값은 아래와 같다


1사분위(Q1) = 15

2사분위(Q2) = 20

3사분위(Q3) = 25

(사분위값을 구하는 방법은 여러가지가 있다방법에 따라 값이 달라질  있다.)


Q1 Q3 끝으로 하는 상자를 그리고 Q2 실선으로 그어 중앙 50% 데이터가 어떻게 분포되어 있는지 나타낸.


나머지 50% 분포는 IQR 이용하여 그린다.

IQR(InterQuartile Range) 'Q1 Q3 사이 길이'이다.


Q1 Q3 주변으로 1.5 * IQR 범위에 있는 데이터를 울타리 안에 표시하고,

바깥에 있는 데이터는 * 또는 O 으로 표시한다.

(이때 울타리 안의 데이터를 'suspect outliers' 하고울타리 밖의 데이터를 'highly suspect outliers' 한다.)


IQR = 25 - 15 = 10

1.5*IQR = 15

Q1 - 1.5*IQR = 15 - 15 = 0

Q3 + 1.5*IQR = 25 + 15 = 40


위에서 구한 값을 그림으로 그리면 다음과 같다.




+ Recent posts