数据分析:度量数据散布的四分位数

您所在的位置:网站首页 数据的四分位数表示 数据分析:度量数据散布的四分位数

数据分析:度量数据散布的四分位数

2024-07-16 00:23| 来源: 网络整理| 查看: 265

假设属性X的数据以数值递增序排列。分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。4-分位数是3个数据点,他们把数据划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数。四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作Q_{1},是第25个百分位数。第3个四分位数记作Q_{3},是第75个百分位数。

第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一般所覆盖的范围。该距离称为四分位数极差(IQR),定义为

            IQR=Q_{3}-Q_{1}

分布的五数概括由中位数(Q_{2})、四分位数(Q_{1},Q_{3})、最小和最大观测值组成,按次序写出。

盒图对于识别离群点是有用的。盒图是一种流行的分布的直观表示。盒图体现了五数概括:

盒的端点一般在四分位数上,使得盒的长度是IQR。中位数用盒内的线标记。盒外的两条线(称作胡须)延伸到最小和最大观测值。

当处理数量适中的观测值时,值得个别的会出可能的离群点。在盒图中占有做:仅当最高和最低观测值超过四分位数不到1.5\times IQR时,胡须扩展到它们。否则,胡须出现在四分位数的1.5\times IQR之内的最极端的观测值处终止,剩下的情况个别的绘出。盒图可以用来比较若干个可比较的数据集。

 

参考文献:《数据挖掘概念与技术 》Jiawei Han, Micheline Kamber, Jian Pei



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3