统计基础知识

您所在的位置:网站首页 统计众数怎么算的数据 统计基础知识

统计基础知识

2024-04-21 13:47| 来源: 网络整理| 查看: 265

第一节 用统计量描述数据

知识一:数据集中趋势的测度

数据的集中趋势(tendency):是指一组数据集中于某一中心的水平位值。测度集中趋势也是寻找数据一般水平的中心值或代表值。

常用的测度值有:众数、中位数、分位数、平均数(多选题)

顺序数据:可以排序的数据、分出高低优劣的数据,但不能计算分类数据:只能分类无法进行排序、计算,如一月当中天气情况数值型数据:可以计算的数据

(一)平均数

缺点:容易受极端值的影响

1、算术平均数

根据所掌握数据的不同,算术平均数有不同的计算公式。根据未分组数据计算的平均数称为简单平均数。假设以组样本数据为 x_{1} , x_{2} ,…, x_{n} ,样本量为n,

简单算术平均数计算公式为:

\tilde{x} = \frac{x_{1}+x_{2}+…+x_{n}}{n} = \frac{\sum_{i=1}^{n}{x_{i}}}{n}

若原始数据较多且对其进行了分组,编织成了频数分布数列,这时要计算算术平均数则应采用加权算术平均数,即将各组变量值乘以相应的频数,然后加总求和,再除以总频数。如果数据被分为k个组,

加权算术平均数计算公式为:

\bar{x} = \frac{x_{1}f_{1}+x_{2}f_{2}+…+x_{k}f_{k}}{f_{1}+f_{2}+…+f_{x}} = \frac{\sum_{i=1}^{k}{x_{i}f_{i}}}{\sum_{i=1}^{k}{f_{i}}}

若分组资料为组距分组,资料则相应地取各组的组中值作为该组的平均水平,再代入计算。

如果有开口的组,那么:

上开口组时,组中值=该组下限+(下组上限-下组下限)/2在下开口组时,组中值=该组上限-(上组上限-上组下限)/2

算术平均数的计算过程使用了所有数据,因此容易受到极端值的影响,并且严格来讲,无法根据有开口组的分组数据计算平均值。

2、几何平均数

几何平均数有两种计算方法:简单几何平均加权几何平均法

若数据集合中每个数据只出现一次,计算其几何平均数应采用简单几何平均法,其计算公式为:

G= \sqrt[n]{x_{1}*x_{2}*…*x_{n}} = \sqrt[n]{Πx}

其中G表示几何平均数,Π表示连乘符号

当数据集合中每个数据出现的次数不止一次时,计算平均数应采用加权几何平均法。其计算公式为:

G= \sqrt[f_{1}+f_{2}+…+f_{n}]{x_{1}^{f_{1}}*x_{2}^{f_{2}}*…*x_{n}^{f_{n}}} = \sqrt[\sum_{}^{}{f_{x}}]{Πx_{}^{f_{}}}

(二)中位数

中位数(median)是将一组数据按照从小到大的顺序排列,之后处在数列中点位值的数值。是典型的位置平均数,不受极端变量值的影响。

中位数主要用于顺序数据,也可用数值型数据,但不能用于分类数据。(能排序的数据)

找中位数时方法:(一组数据只有一个中位数

数据为单数的,中位数的位值则为第(n+1)/2;数据为偶数的,通常取最中间的两个数值(第n/2和第n/2+1)的平均数作为中位数

如果数据是分组数据,中位数的一种计算方法是:

首先确定中位数所在组,计算公式是( \sum_{ }^{ }{f} )/2(总频数除以2);然后利用公式计算中位数的近似值,计算时可以采用下限公式,也可以采用上限公式,计算公式为:

下限公式: M_{c} =L+ \frac{\frac{\sum_{ }^{ }{f}}{2}-S_{m-1}}{f_{m}}*d

上限公式:M_{c} =U- \frac{\frac{\sum_{ }^{ }{f}}{2}-S_{m+1}}{f_{m}}*d

其中:L表示中位数所在组的下限;U表示中位数所在组的上线; f_{m} 表示中位数所在组的频数;\sum_{ }^{ }{f}表示各组频数之和; S_{m-1} 表示中位数所在组以前各组的累计频数;S_{m+1}表示中位数所在组以后各组的累计频数;d表示中位数所在组的组距。

(三)分位数

把顺序排列的一组数据分割为若干相等部分的分割点的数值即为相应的分位数。

\bullet 两等分:中位数是分位数中最简单的一种,它将数据等分为两份。

\bullet 四等分:四分位数则是将数据按照大小顺序排序后,把数据分割成四等分的三个分割点上的数值。对原始数据四分位的位置一般为(n+1)/4,(2(n+1))/4,(3(n+1))/4。如果四分位的位置不是整数,则四分位数等于前后两个数的加权平均。

(四)众数

众数是指一组数据中出现次数或出现频率最多的数值,它是一种位置平均数,不受极端变量值的影响。

众数主要用于测度分类数据的集中趋势,也可以用来测度顺序数据和数值型数据的集中趋势。一组数据可以有多个众数,也可能不存在众数,对于未分组的定量数据,我们一般很少使用众数。

偏态数据中均值、中位数、众数的关系

当数据呈对称分布时,均值=中位数=众数 当数据呈左偏分布时,众数>中位数>均值 当数据呈右偏分布时,众数<中位数<均值

1、区分左右偏态。左偏或者右偏,以众数为中轴线,观察哪边面积大则判定为是左偏还是右偏。图3为例,右侧面积明显大于左侧面积,所以为右偏。

2、分清平均值、中位数、众数的关系。以左偏为例,曲线的顶点代表众数的位置,在最右边;中位数在中间,另外一个均值在最左边。所以得出结论,左偏数据中:均值<中位数<众数。

知识点二:数据离散程度的测度

反映数据离中趋势或离散程度的测度指标:异众比率、极差、四分位距、平均差、标准差、方差、离散系数

(一)异众比率

非众数(组)的频数占总频数的比率。主要用于衡量众数对一组数据的代表程度。

异众比率=1-众数频数/总频数

特点:值越小,说明众数的代表性越好

使用范围:主要用于分类,顺序、数值型也可以使用

(二)极差

一组数据中最大值与最小值的差。也叫全距,是最简单的离散指标。

R=max(x)-min(x)

特点:值越大,离散程度越高

(三)四分位距

上下四分位之差,3/4分位值减去1/4分位值。也称为样本的内距或四分位差。

特点:反映了中间数据50%的离散程度,值越小说明数据越集中,中位数的代表性越强。

使用范围:主要用于顺序数据的离散程度

(四)平均差

一组数据与其均值之差的绝对值的平均数,也称平均绝对差。

未分组:MAD= \frac{\sum_{ }^{ }[{X-\bar{X}}]}{N}

已分组:MAD= \frac{\sum_{ }^{ }[{X-\bar{X}}]f}{\sum_{ }^{ }{f}}

特点:受极值影响,数学性较差不常用

使用范围:数值型数据

(五)方差与标准差(重点)

各变量值与其均值离差平方的平均数,反映样本中各个观测值到其均值的平均离散程度。

标准差是方差的平方根。

考试时如给出的是样本,则分母为n-1

注:

①记忆方差与标准差,只需要记一个公式(总体方差)标准差开根号得出

②样本的方差,把总体中N替换为n-1的自由度即可,方差继续开根号

③分组的数据,看作是特殊的未分组数据进行计算即可

特点:标准差越小,数据越集中

使用范围:数值型数据

(公式记忆、能够代数、会计算、理解概念理论)

从方差看,总体方差的分母为n,而样本方差的分母却为n-1(自由度),这是因为当我们用n-1为自由度的样本方差 s^{2} 去估计总体方差 \sigma^{2} 时,它恰好是\sigma^{2}的无偏估计量

在一个统计样本中,其标准差越大,说明它的各个观测值分布越分散,它的集中趋势就越差。反之,其标准差越小,说明它的各个观测值分布得越集中,它的集中趋势就越好。

(六)离散系数

当两组不同的数据出现标准差相同时,将无法判断两组数据的离散程度,此时需要用离散系数进一步计算,来区分两组数据间的离散程度。

离散系数=标准差/均值

总体数据的离散系数:

v_{\sigma} = \frac{\sigma}{\mu}

样本数据的离散系数:

v_{s} = \frac{s}{\bar{x}}

离散系数越小,差异程度越小

(七)标准分数

变量值与其平均数的离差除以标准差后的值,用以测定一个数据在该组数据中的相对位置

Z_{i} = \frac{x_{i}-\tilde{x}}{s}

知识点三:数据分布形状的度量

数据的分布形态主要通过偏态和峰态来测度(要求记住结论

(一)偏态系数

数据的不对称性称为偏态,测度数据的偏斜程度用偏态系数(SK),偏态系数的计算方法有很多(皮尔逊偏态系数、鲍莱偏态系数、矩偏态系数等)。

偏态系数越大,表示数据分布的偏斜程度越大。

(二)峰度系数

峰态通常是与标准正态分布相比较而言的。

峰度系数=0,正态分布峰度系数<0,扁平分布峰度系数>0,尖峰分布



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3