SAS统计分析系列:描述性统计分析 (三)

您所在的位置:网站首页 sas计算三分位数 SAS统计分析系列:描述性统计分析 (三)

SAS统计分析系列:描述性统计分析 (三)

2024-06-11 18:48| 来源: 网络整理| 查看: 265

以某班12个同学的考试成绩为例,将12个同学的成绩按从小到大排列,计算第25个百分位数时,j=3,g=0,则第25个百分位数为(63+55)/2=59,表示有25%的同学考试成绩低于59分(如图9.8所示)。

图9.8 百分位数和极值计算示意图

在SAS中,系统提供了5种计算百分位数的方法,主要区别在于当找到百分位数在排序数据中的相对位置后,如何对相邻的两个数据进行加权处理。这里介绍的方法是SAS默认的计算方法,如果读者有兴趣可以参考SAS帮助文档查看其他四种计算方法。

盒状图(Box Plot)

盒状图可将数据的百分位数、均值和极值等统计量通过图形展示出来,进而帮助分析数据的分布。

图9.9 盒状图

在盒状图中,距离盒子的底部(第25个百分位数)或顶部(第75个百分位数)超过1.5IQR的数据点都用圆圈表示。在图9.9所示的盒状图中,中位数和均值基本重合,可见变量基本是对称分布的。

直方图(Histogram)

直方图是一种几何形图表,它可以将收集到的貌似无序的数据进行处理,反映数据的基本分布情况。它根据数据的分布情况,画成以组距为底边、以频数或百分比为高度的一系列连接起来的直方型矩形图,每个矩形图代表了一组数据,矩形的高度代表落在这一组中的数据的频数或者百分比,如图9.10所示。

图9.10 直方图

在上面的直方图中,大部分数据都落在了靠近均值的中间的分组中,并且直方图基本呈对称分布,和我们前面介绍的正态分布的特征类似。

由于正态分布具有很好的性质,因此在对数据的分布形态进行分析时,通常都会和正态分布进行比较。下面来看几个分布,图9.11中的直方图表示数据的分布,曲线表示以该数据的均值和标准差为参数作出的正态分布的密度曲线。可以看到,和正态分布相比较,它们有的偏向于数据小的一侧,有的偏向于数据大的一侧,有的在尖峰处异常陡峭,有的在中间位置凹进去了。直方图的不同形态代表了数据分布的不同特征。

图9.11 常见数据分布图

偏度系数和峰度系数

统计量偏度系数(Skewness)和峰度系数(Kurtosis)正是用来刻画数据的分布形态的。偏度系数和峰度系数其实都是和正态分布相比较而言的,偏度系数用来描述分布是对称分布还是偏向某一侧,峰度系数用来描述分布是向中心位置集中还是向两侧集中。

设样本均值和样本容量为n,样本标准差为,偏度系数的计算公式为

如果计算得出的一组数据的偏度系数接近于0,则数据大致呈对称分布,例如正态分布的偏度系数为0。当偏度系数小于0时,若和正态分布向比较,数据分布偏向数据小的一侧,数据的均值小于中位数,称数据呈负偏态分布或偏左分布;当偏度系数大于0时,若和正态分布相比较,数据分布偏向数据大的一侧,数据的均值大于中位数,称数据呈正偏态分布或偏右分布。

峰度系数的计算公式为

当峰度系数0时,分布称为尖峰分布(Leptokurtic Distribution)。如果分布也是对称的,则相较于正态分布,数据呈现出:较多的数据会趋向于分布在两段尾巴处,而且分布有时会具有较陡峭的峰部,因此这样的分布也通常称为厚尾分布(Heavy-Tailed Distribution)。

正态分布的峰度系数为0。统计研究表明,大部分权益类金融产品的回报率呈现出尖峰厚尾的特征。

非对称分布的峰度系数通常也是非零数,这时通过峰度系数就较难判断数据的分布形态了。

为了让读者对于偏度系数和峰度系数及对应的分布形态有更直观的印象,下面给出了几种典型分布的直方图和偏度系数及峰度系数特征,供读者参考。

图9.12 正态分布直方图

图9.12所展示的这组数据通过计算得出偏度系数为0.003291,接近于0,可以知道数据基本呈对称分布,峰度系数为-0.01685,接近于0,没有尖峰厚尾或者峰部平坦的特征,此外,直方图和正态分布的密度曲线非常接近,则该组数据可以近似地认为服从正态分布。在后面的章节中,还会介绍如何用假设检验的理论检验某组数据是否服从正态分布。

图9.13 正偏态分布直方图

图9.13所展示的这组数据的偏度系数为1.005005>0,呈现出正偏态分布的特征,相较于正态分布,较多的数据偏向数据大的一侧。由于是非对称分布,峰值也通常不会接近于0。

图9.14 负偏态分布直方图

图9.14所展示的这组数据的偏度系数为-0.97685,呈现出负偏态分布的特征,相较于正态分布,较多的数据分布在数值较小的一侧。

图9.15 尖峰分布直方图

图9.15所展示的这组数据的偏度系数为-0.01365,接近于0,分布基本对称,峰度系数为2.318803,因此较多的数据分布在中间位置,呈现出尖峰厚尾的特征。

图9.16 低峰分布直方图

图9.16所展示的这组数据的偏度系数为0.015395,接近于0,分布基本对称,峰度系数为-1.80003



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3