数据统计分析:数据常用特征定义、意义与应用

您所在的位置:网站首页 各种统计图表的优缺点和特征 数据统计分析:数据常用特征定义、意义与应用

数据统计分析:数据常用特征定义、意义与应用

2024-07-10 11:04| 来源: 网络整理| 查看: 265

文章目录 一、常用特征 均值、数学期望、平均数、中位数、众数、四分位数 (1)概念 1. 均值 2. 数学期望 3. 平均数=平均值 4. 中位数 5. 众数 6. 四分位数 极差、方差、标准差 1. 极差 2. 方差 3. 标准差 二、常用特征的评估应用 1. 数据平均水平 平均数、中位数、众数、数学期望 2. ~波动情况 3. ~集中趋势(离散程度的反面) 三、常用特征的其它补充 异常值:

一、常用特征 均值、数学期望、平均数、中位数、众数、四分位数 (1)概念 1. 均值

均值是一个大家庭:平均值、数学期望、中位数、四分位数、众数,都是“均值”; 常理解为平均数。

2. 数学期望

在这里插入图片描述 介绍:以概率为权的加权平均。 意义:期望是针对于随机变量而言的一个量,可以理解是一种站在“上帝视角”的值,针对于它的样本空间而言的。具有后验性。 理解:

3. 平均数=平均值

把n个数的总和除以n,所得的商叫做这n个数的算术平均数。是大家经常以为的平均数、均值。在这里插入图片描述 意义:刻画了一组数据的总体平均水平;具有先验性。 理解:

可理解为特殊的数学期望:权值都相等的加权平均。 大数定律:随样本容量趋于无穷,平均数无限接近数学期望。

优点

它能够利用所有数据的特征,而且比较好算。 在数学上,平均数是使误差平方和达到最小的统计量,也就是说利用平均数代表数据,可以使二次损失最小。因此,平均数在数学中是一个常用的统计量。

缺点:

正是因为它利用了所有数据的信息,平均数容易受极端数据的影响。=> 对异常值不敏感 比如:一般国家人均收入不能用平均值来衡量,个别收入高会拉高整体平均 4. 中位数

中位数三步走:

按顺序排列数字:最小或最大。 如果有奇数个数值,则中位数位于中间的数。 如果有偶数个值,则为中间两数之和的平均数。 在这里插入图片描述

意义:刻画了一组数据的中等水平; 优点:

能够避免极端数据;

缺点:

没有完全利用数据所反映出来的信息; 5. 众数

数据集中频数出现最多的一个或者几个数,可以用于类别数据

意义:刻画了一组数据中出现次数最多的情况; 优点:

能够避免极端数据;

缺点:

没有完全利用数据所反映出来的信息; 6. 四分位数

四分位数三步走:

求出中位数。 通过下界与中位数求出下四分位数。 通过上界与中位数求出下四分位数。

算法如下: 下四分位数n/4的位置(n代表数据集中数据的个数),它的值

如果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上的数值平均数。 如果不是整数,则向上取整后的数为下四分位数的位置。

上四分位数3n/4的位置,它的值

如果为整数,位于3n/4这个位置和下一个位置的中间,取其平均数。 如果不是整数则向上取整为上四分位数的位置。 极差、方差、标准差 1. 极差

极差=最大标志值—最小标志值 在这里插入图片描述 意义:

在统计中常用极差来刻画一组数据的离散程度;极差越大,离散程度越大,反之,离散程度越小。 同时,它能体现一组数据波动的范围。

优点:

计算简单,含义直观,运用方便;

缺点:

只指明了测定值的最大离散范围,而未能利用全部测量值的信息,不能细致地反映测量值彼此相符合的程度。 它仅仅取决于两个极端值的水平,不能反映其间的变量分布情况; 同时易受极端值的影响。 2. 方差

参考:彻底理解样本方差为何除以n-1



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3