数据的分布情况该用哪些图表?看这篇就够了 |
您所在的位置:网站首页 › 30952e镝be0751655e8 › 数据的分布情况该用哪些图表?看这篇就够了 |
这次我要分享的是图表选择系列的最后一篇:数据的分布情况应该用哪些图表。 另外三种情况戳这里回顾:镝数图表Dycharts:一张图学会如何正确选择图表镝数图表Dycharts:趋势类数据应该用哪些图表?镝数图表Dycharts:展示数据之间的关系应该用什么图表?先回到这张图: 根据上图,数据的分布情况可以分为单维度的数值分布和具有相关性的多维度分布,两个我们分开讲。 单个维度单维度的数值分布又分为单组数据和多组数据。 ✅单组数据 单组数据每个对象只对应一个数值,我们可以用【直方图】把数值的分布情况展示出来。 例如上面这张图,通过直方图展示模拟考成绩,可以看到大部分学生都分布在去年一本线右侧,由此推断这个班的平均成绩较为优秀。 ✅多组数据 多组数据中最常见的数据类型就是大家比较熟悉的二维交叉表。 想要了解这一类的数据的分布情况,可以用【笛卡尔热力图】 例如上面这张图,用笛卡尔热力图展示空气质量分布。颜色越红,空气质量指数越高,对应的空气质量就越差;颜色越蓝则相反。 通过这张图,我们可以发现指标数据的最大最小值,即哪些城市哪个月份空气质量最差或最好。 同样作用的还有【极坐标热力图】和【热力日历图】。 多个维度多维度的数值分布也要分为两类,一类是统一度量的多维度数值,它对应的数据单位都是统一的。 第二类则是不统一度量的多维度数值,不同维度数值有自己独立的数据单位。 ✅统一度量 统一度量的多维度数值,可以用【箱线图】来展示。 箱线图大家应该经常在股市见到,但是你知道箱线图要怎么看吗? 我们先看下面这个单个箱线的示意图: 数据解释 中位数:按顺序排列的一组数据中居于中间位置的数。 上四分位数:按顺序排列的一组数据中居于上 1/4 位置上的数。 下四分位数:按顺序排列的一组数据中居于下 1/4 位置上的数。 箱盒:IQR,即四分位距。IQR=下四分位数(Q3)-上四分位数(Q1) 上边缘= Q3 + 1.5 IQR 下边缘= Q1 - 1.5 IQR 简单来说,一组数据中的大部分数据都处于上边缘和下边缘之间(异常值除外); 而其中50%的数据又处于箱盒中,即上四分位数和下四分位数之间。 通过对这六个关键点的展示,我们可以很清晰地看到一组数据的分布区间,还能揭示数据间离散程度、异常值、分布差异。 例如上图是某支股票每日的分时段数据,拿11月7日举例,11月7日当天,上下边缘间隔较远,说明当天成交的最高价和最低价差距很大; 上四分位数与下四分位数组成的箱盒偏上,说明大部分时段的成交价格更偏向最高价。 ✅不统一度量 不统一度量的多维度数值,可以用【散点图】、【三元图】和【分组气泡图】。 不过这三类图表在数据展示方面也有细微的区别: 只有三个维度的数值可以用【散点图】 它的横轴、纵轴、颜色分别可以展示一个维度,例如展示某个班级全部学生的身高、体重及性别数据。 通过上面这张图可以看出,该班级男生的身高、体重普遍大于女生。 四个维度的数值可以用【分组气泡图】 它像是加强版的散点图,除了横轴、纵轴和颜色,它还可以通过气泡的大小展示第四个维度的数据。 例如不同国家1990年和2015年的GDP、人口、人均寿命的数据。 有同学可能会问,我为什么不用上面散点图的数据再加一个维度? 其实这是因为分组气泡图不适合用来展示身高体重这种太过相近的数据。 如果点间距很小,再加上气泡面积,整张图看起来就糊在一起,没有规律。 五个维度的数值可以用【三元图】 三元图的X轴、Y轴、Z轴形成一个等边三角形,不同对象在图上的位置就由它在三个维度的占比构成。 因此用X、Y、Z轴展示的数据维度,最好是同一类数据。例如每一位学生语文、数学、英语三门课的分数。 上图X、Y、Z轴分别对应着英语、语文和数学成绩,分布离哪一条轴线更近,意味着哪一科成绩占总成绩的比例最小。 通过上图可以明显看出,女生在数学上比较薄弱,而男生大多语文占比较小。 你学会了吗? 以上所有图表均由镝数图表制作完成,镝数图表,你身边的图表专家: 关注我还有更多图表制作/可视化干货内容为你持续更新,不要忘记点赞、收藏哦! |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |