重要的统计量(期望、方差、协方差、相关系数、矩)的概念和性质

您所在的位置:网站首页 概率统计ex 重要的统计量(期望、方差、协方差、相关系数、矩)的概念和性质

重要的统计量(期望、方差、协方差、相关系数、矩)的概念和性质

2024-07-07 13:52| 来源: 网络整理| 查看: 265

一、期望 1、定义

       在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

离散型:

                               E(X)=\sum_{i}x_{i}p_{i}

连续型

                               E(X)=\int_{-\infty }^{\infty}xf(x)dx

即:概率加权下的“平均值”。

2、无条件成立

                              E(kX)=kE(X)

                              E(X+Y)=E(X)+E(Y)

3、X和Y相互独立

                                         E(XY)=E(X)E(Y)

反正不成立。事实上,若E(XY)=E(X)E(Y),只能说明X和Y不相关。(不相关的定义来自下面协方差部分?)

关于相关和独立(摘自一只快乐小胖):

相关性是指两个随机变量之间的线性关系,不相关只是说明它们之间不具有线性关系,但是可以有别的关系,所以不一定相互独立。 如果两个随机变量独立,就是说它们之间没有任何关系,自然也不会有线性关系,所以它们不相关。反过来说如果两个随机变量相关,也就是说它们之间有线性关系,自然不独立。

独立:P(AB)=P(A)P(B)互斥:P(AB)=0,    P(A+B)=P(A)+P(B) 二、方差 1、定义

        方差是衡量源数据和期望值相差的度量值。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。

                               Var(X)=E\left \{ [X-E(X)]^{2} \right \}=E(X^{2})-E^{2}(X)

2、无条件成立

                              Var(c)=0

                              Var(X+c)=Var(X)

                              Var(kX)=k^{2}Var(X)

3、X和Y独立

                              Var(X+Y)=Var(X)+Var(Y)

方差的平方根称为标准差。

三、协方差 1、定义

       在有限的二阶矩的情况下,两个共同分布的实值随机变量X和Y之间的协方差被定义为它们偏离各自期望值的期望乘积。但协方差的计算有多种形式,和定义的一般格式有所区别。

                                        Cov(X,Y)=E\left \{ [X-E(X)][Y-E(Y)] \right \}

                                                          =E[XY-XE(Y)-E(X)Y+E(X)(Y)]

                                                          =E(XY)-E(X)E(Y)-E(X)E(Y)+E(X)E(Y)

                                                          =E(XY)-E(X)E(Y)

2、性质

                           Cov(X,Y)=Cov(Y,X)

                           Cov(aX+b,cY+d)=acCov(X,Y)

                           Cov(X_{1}+X_{2},Y)=Cov(X_{1},Y)+Cov(X_{2},Y)

3、协方差和独立、不相关

             X和Y独立时,                      E(XY)=E(X)E(Y)

             而                             Cov(X,Y)=E(XY)-E(X)E(Y)

             从而,当X和Y独立时,              Cov(X,Y)=0

             但X和Y独立这个前提太强,我们定义若Cov(X,Y)=0,则称X和Y不相关。

4、协方差的意义

(1)协方差是两个随机变量具有相同方向变化趋势的度量:

Cov(X,Y)0,它们的变化趋势相同;若Cov(X,Y)0,它们的变化趋势相反;若Cov(X,Y)=0,称X和Y不相关。

对应到机器学习,可利用协方差来筛选特征(降维)。

(2)协方差有没有上界?

            若 Var(X)=\sigma _{1}^{2},Var(Y)=\sigma _{2}^{2}

            则  \left | Cov(X,Y) \right |\leqslant \sigma _{1}\sigma _{2}

            当且仅当X和Y之间有线性关系时,等号成立。

5、协方差矩阵

对于n个随机向量(X_{1},X_{2}\cdots X_{n})任意两个元素X_{i}X_{j}都可以得到一个协方差,从而形成n*n的矩阵,协方差矩阵是一个对称阵。

                                           c_{ij}=E\left \{ [X_{i}-E(X_{i})][X_{j}-E(X_{j})] \right \}=Cov(X_{i},Y_{j})

将随机向量X_{i}写成列向量,则X=(X_{1},X_{2}\cdots X_{n})为n列矩阵,将X的列分别去均值后,得到矩阵\widetilde{X},则协方差矩阵为:

                                           C=\frac{1}{n}(\widetilde{X}^{T}\cdot \widetilde{X})

所以,可基于协方差矩阵筛选特征。

四、Pearson相关系数 1、定义

也就是把上面的\sigma _{1}\sigma _{2}除过去。

                                                 \rho _{XY}=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}}

2、性质 由协方差上界定理可知:\left | \rho \right |\leqslant 1当且仅当X和Y之间有线性关系时,等号成立。容易看到,相关系数是标准尺度下的协方差。上面关于协方差与XY相互关系的结论,完全适用于相关系数和XY的相互关系。 3、相关系数矩阵

       类似于协方差矩阵,相关系数矩阵中每个元素的范围在[-1,1]之间,更方便进行比较。相关系数矩阵可以发现特征之间的相关性。如果两个特征之间比较接近或相反(数值在-1或1之间),说明这两个特征比较相似,所以可以剔除其中一个特征。

五、矩

对于随机变量X,X的k阶圆点矩为E(X^{k})

X的k阶中心距为E\left \{ [X-E(X)]^{k} \right \}

六、统计参数总结

期望(一阶原点矩)

方差(标准差,二阶中心矩)

变异系数(Coefficient of Variation):标准差与均值的比值,记为C·V

偏度(Skewness) 三阶

峰度(Kurtosis)四阶



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3