本节介绍下箱线图 什么是箱线图,图像如下: 箱线图主要是搞明白几个参数:上边缘,下边缘,上四分数,中位数,下四分数,异常值
首先讲各个参数: 下四分位数是指:所有数据按顺序进行排列,然后找到所有数值的25%的数值,即1/4处数值 同理上四分位数:找到所有数值的75%的数值,即3/4处数值 中位数:所有数据的中间值 异常值:特殊的一些值 IQR值:如果下四分位数为Q1,中位数为Q2,上四分位数为Q3,那么IQR为:Q3-Q1 IQR = Q3 -Q1 上边缘;Q3+1.5*IQR 下边缘: Q3 -1.5*IQR 计算公式如下: Q1 = (n+1)/4 Q2 = (n+1)/2 Q3 = 3*(n+1)/4 上面是理论,这里讲一个具体的例子:以工资为例 3710 3755 3850 | 3880 3880 3890 | 3920 3940 3950 | 4050 4130 4325 中位数为:(3890 + 3920)/2 = 3905 (n为偶数取两者均值) 同理下四分位数; (3850+3880)/2 = 3865 (所有数据的第25%处) 同理上四分位数; (3950+4050)/2 = 4000 (所有数据的第75%处) 然后按照上面的公式带入即可得到所有值 |