丑图百讲 |
您所在的位置:网站首页 › excel2022怎么做箱线图 › 丑图百讲 |
图2 丑图示例 这几组箱线图看着不舒服,主要原因是,箱子被压得很扁,甚至只剩下一条线,同时还存在着很多刺眼的异常值。这种情况的出现,有两个常见的原因。第一是,样本数据中,存在特别大或者特别小的异常值,这种离群的表现,导致箱子整体被压缩,反而凸显出来这些异常;第二是,样本数据特别少,数据一少,就有可能出现各种诡异的情况,导致统计图长得对不起观众。 如果你画出的箱线图是这样的,那么有两个解决办法。第一,如果数据取值为正数,那么可以尝试做对数变换。对数变换水妈必须墙裂推荐,称得上画图界的整容神器,专治各种不对称分布、非正态分布和异方差现象等。图3就是整容前后的一组箱线图。你说我不想做变换,那么可以采取第二种解决办法,那就是,不画箱线图。 图3 对数变换前后的箱线图 以上是第一点要说明的,不是所有数据都适合画箱线图。第二点要说明的,更加重要的,那就是箱线图应该怎么用。答案是,配合着定性变量画分组箱线图,作比较!分组箱线图是水妈最喜欢的统计画图工具,没有之一。 如果只有一个定量变量,很少用一个箱线图去展示其分布,而是更多的选择直方图。箱线图更有效的使用方法,是作比较。我们举两个栗子。 第一个例子,我上课经常讲。假设我现在要比较男女教师的教学评估得分,用什么工具最好。答案是箱线图。没有比较就没有伤害,大家看图4能够明显感觉到箱线图是更有效的工具,能够从平均水平(中位数),波动程度(箱子宽度)以及异常值对男女教师的教学评估得分进行比较,而直方图却做不到。 图4 进行比较时,箱线图是更有效的工具 第二个例子,来自R语言里面的boxplot的example,水妈觉得很好看,拿来跟大家分享。这个箱线图略复杂,共涉及3个变量。定量变量是牙齿生长长度,体现在图形的纵坐标,也就是箱子展示的内容。第一个定性变量是维他命C的剂量,三个水平(0.5mg,1mg和2mg),体现在横坐标,所以一共有3组箱线图;第二个定性变量是食用的食物,是维C还是橙汁,分别用黄色和橙色展现,所以每组箱线图里又包含两个箱子。 图5 来自R语言的箱线图示例 从图5当中,可以得到这些结论: 随着使用剂量的增加,不管食用的是哪种食物,牙齿生长长度的平均水平(中位数)都在增加。 当使用剂量为0.5mg和1mg时,食用橙汁带来的牙齿生长的平均长度(中位数)要比食用维C高,波动程度也相应更大。 当使用剂量为2mg时,食用两种食物带来的牙齿生长平均水平(中位数)相当,食用维C的牙齿生长长度波动相对更大。 以上是今天跟大家分享的箱线图,总结一下: 箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。 当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。 当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。 箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。 箱线图是针对连续型变量的,解读时候重点关注平均水平、波动程度和异常值。 当箱子被压得很扁,或者有很多异常的时候,试着做对数变换。 当只有一个连续型变量时,并不适合画箱线图,直方图是更常见的选择。 箱线图最有效的使用途径是作比较,配合一个或者多个定性数据,画分组箱线图。 水妈简介 毕业于北京大学光华管理学院商务统计系,女博士一枚 师从王汉生教授,狗熊会熊孩子一只 现任职于中央财经大学统计与数学学院,年轻讲师一个 在理论研究方面,关注高维数据和社交网络数据,在JASA和Annals上均有发表 在业界实践方面,关注车联网行业的数据分析 毕业于北京大学光华管理学院商务统计系,女博士一枚 师从王汉生教授,狗熊会熊孩子一只 现任职于中央财经大学统计与数学学院,年轻讲师一个 在理论研究方面,关注高维数据和社交网络数据,在JASA和Annals上均有发表 在业界实践方面,关注车联网行业的数据分析返回搜狐,查看更多 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |