概率统计随机过程之参数估计

您所在的位置:网站首页 统计的无偏性 概率统计随机过程之参数估计

概率统计随机过程之参数估计

2024-07-09 13:35| 来源: 网络整理| 查看: 265

概率统计随机过程之参数估计 Apr 16, 2021 · 概率统计随机过程  · 分享到: 概率统计随机过程之参数估计 点估计 点估计的优良性准则 矩估计 矩估计存在的要求 矩估计的一般步骤 矩估的特点 极大似然估计 最大似然估计的不变原理 点估计的有效性详解 一致最小方差无偏估计 改进一个无偏估计 零无偏估计法 充分完全统计量法 Cramer-Rao(C-R)不等式与界 区间估计 置信区间与枢轴变量 一个正态总体的期望和方差的区间估计

统计推断三大内容:抽样分布、参数估计(点估计、区间估计)与假设检验。

参数估计的核心思想:用抽样出来的样本构造函数(统计量)来尝试近似实际分布的参数。

点估计

估计量:在参数估计大类的点估计中,那么用于估计未知参数的统计量称为点估计(量),简称为估计(量)。

估计一个具体的数值,实际比较困难。我们用样本来构造一个函数 \[ \hat\theta = \Theta(X),X=(x_1,\dotsb,x_n) \] 用以计算参数\(\theta\),由于是估计值所以用\(\hat\theta\)表示。其中\(X=(x_1,\dotsb,x_n)\)为容量为n的样本。有时也用\(\hat g(\theta)\)表示,因为有时要估计的不是\(\theta\),而是\(\theta\)的某个函数。

具体可参见笔记《概率统计随机过程之数理统计常用概念》中统计量与估计量那一小节。

具体方法:

矩估计 最大似然估计(MLE) 贝叶斯估计(MAP等) LSE(MMSE) …… 点估计的优良性准则 无偏性。\(E(\hat\theta)=\theta\)(样本方差的系数\(n-1\)就是这里的无偏性得出来的) \(\hat\theta\)是\(\theta\)的无偏估计,但是\(g(\hat\theta)\)不一定是\(g(\theta)\)的无偏估计。例如说明1。 有效性。估计值的方差越小越好。\(D(\hat\theta_1)\leq D(\hat\theta_2)\)则\(\hat\theta_1\)更好。波动性小,无偏情况下,更可能接近于真实值。 相合性(一致性)。\(\lim_{n\rightarrow \infty} P(|\hat\theta-\theta|p(x|\theta_2)\Leftrightarrow \ln(p(x|\theta_1))>\ln(p(x|\theta_2)) \] 因为相同的单调性,它确保了概率的最大对数值出现在与原始概率函数相同的点上。因此,可以用更简单的对数似然来代替原来的似然。

最大似然估计的不变原理

我们介绍一个致使最大似然估计得到广泛应用的定理。

定理1(不变定理):设\(X\sim p(x;\theta),\;\theta\in\mathcal{\Theta}\),若\(\theta\)的最大似然估计为\(\hat\theta\),则对任意函数\(\gamma=g(\theta)\),\(\gamma\)的最大似然估计为\(\hat\gamma=g(\hat\theta)\)。

这个定理的条件很宽,致使最大似然估计的应用也会广泛。在函数\(g(\theta)\)非单调的时候,它的证明需要测度论的内容,暂时不予证明。

点估计的有效性详解

我们在前面提到过可以用估计值的方差来代表估计的有效性,但是这有一个前提条件:需要该估计为无偏估计。这样估计值才能紧密散布在真值周围,如果是估计值偏差较大,方差很小,那只会猜到一个错误的位置。如果用图像表示无偏与方差的关系,如下图:

点估计偏差与方差

从上图中,我们可以看出:第一幅子图中,当无偏估计且方差很小时,估计点密布在真值周围,我们可以用取平均的方法贴近真实值;如果像第二个子图中,是有偏估计,而方差又很小,那么我们有很大可能会得到一个错误的估计。第二行的两个子图是方差较大的情况,我们可以观察到,无偏估计在方差较大时,点比较散,因此会增大估计误差;而有偏估计在方差较大时,反而可能比小方差时表现的更好。

下面我们给出无偏估计有效性的精确定义:

设\(\hat\theta_1=\hat\theta_1(x_1,x_2,\dotsb,x_n)\)与\(\hat\theta_2=\hat\theta_2(x_1,x_2,\dotsb,x_n)\)都是参数\(\theta\)的无偏估计,如果: \[\mathrm{Var}(\hat\theta_1)\leq \mathrm{Var}(\hat\theta_2),\forall \theta\in \varTheta\] 且至少对一个\(\theta_0\in\varTheta\),有严格不等号成立,则称\(\hat\theta_1\)比\(\hat\theta_2\)有效。

那么对于有偏估计,我们要如何评价它的优劣呢?有偏估计与无偏估计相比,除了随机散布造成的方差时存在的,还有与真实值之间的系统性偏差。由于随机造成的误差有正有负,因此我们用平方的方式来去除正负的影响(用绝对值也可以叫平均绝对误差,不过平方有更好的运算性质)。

在此,我们定义有偏估计的有效性:

设\(\hat\theta_1=\hat\theta_1(x_1,x_2,\dotsb,x_n)\)与\(\hat\theta_2=\hat\theta_2(x_1,x_2,\dotsb,x_n)\)都是参数\(\theta\)的估计量,如果: \[E(\hat\theta_1-\theta)^2\leq E(\hat\theta_2-\theta)^2,\forall \theta\in \varTheta\] 且至少对一个\(\theta_0\in\varTheta\),有严格不等号成立,则称在均方误差意义下\(\hat\theta_1\)优于\(\hat\theta_2\)。其中,\(E(\hat\theta_i-\theta)^2\)称为\(\theta_i\)d的均方误差,常记为\(MSE(\hat\theta_i)\)。

根据定义不难发现,如果\(\hat\theta_i\)是无偏估计,那么均方误差等于方差,即\(MSE(\hat\theta)=Var(\hat\theta)\)。我们可以将均方误差的式子做如下变换: \[\begin{aligned} MSE(\hat\theta)&=E(\hat\theta-\theta)^2=E\{[\hat\theta-E(\hat\theta)]+[E(\hat\theta)-\theta]\}^2\\ &=E[(\hat\theta-E(\hat\theta))^2]+[E(\hat\theta)-\theta]^2\\ &=\mathrm{Var}(\hat\theta)+\delta^2 \end{aligned} \] 其中,我们将\(\delta=|E(\hat\theta)-\theta|\)称为(绝对)偏差,它体现了估计\(\hat\theta\)与真实值\(\theta\)之间的系统误差。由此可见,均方误差\(MSE(\hat\theta_i)\)可以分解成系统误差和随机误差两部分两部分组成。无偏性可以让偏差\(\delta\)为0,有效性指标等同于要求方差最小化,而有偏估计则要求二者之和越小越好。假如有一个有偏估计其均方误差比任一个无偏估计的方差还小,则此种有偏估计应予以肯定。如下例子所示:

有偏估计MSE例子.png

可惜的是,参数的一切可能估计组成的估计类中一致最小均方误差估计不存在。

思想实验:为什么参数的一切可能估计组成的估计类中一致最小均方误差估计不存在?

如果一个估计\(\theta^*\)为一致最小均方误差,那么对于其他任意对于\(\theta\)的估计方法\(\tilde{\theta}\)在参数空间\(\varTheta\)上都有\(MSE(\theta^*)\leq MSE(\tilde{\theta})\)。问题就出自两个任意上,一是任意估计方法,二是\(\forall\theta\in\varTheta\);这两个要求太严格了。我们来设计这样一个场景:参数的真值为\(\theta_0\),有一个奇葩的估计方式\(\tilde{\theta}_0\),无论给出什么样本,其估计结果都是\(\theta_0\)(固定值完全消除了样本随机性带来的随机性,导致方差为0)。尽管这个估计方式对于\(\varTheta\)中除了真实值为\(\theta_0\)的情况,一无是处,但是我们不能否认在真实值为\(\theta_0\),这个估计很完美(绝对误差为0)。此时,\(MSE(\tilde{\theta}_0)=0\)。而一致最小均方误差\(\theta^*\)要满足\(MSE(\theta^*)\leq MSE(\tilde{\theta})\),那么\(\theta^*\)必须是方差为0,偏差为0,那么只能让\(\theta^*=\tilde{\theta}_0\)。那么对于\(\varTheta\)中的任意\(\theta_i\)都可以构造类似的奇葩估计:无论给出什么样本,其估计结果都是\(\theta_i\)。根据\(MSE(\theta^*)\leq MSE(\tilde{\theta})\),又必须让\(\theta^*=\tilde\theta_i\)。那么对于不同\(\theta_i\),一致最小均方误差估计\(\theta^*\)根本不是同一个估计方式,所以一致最小均方误差估计不存在。

对此,我们的处理方式是将需要将估计方式范围缩小一些,做出一些限制,例如要求估计方法都必须是无偏的。此时产生一类非常重要的估计类:一致最小方差无偏估计,简称UMVUE。

一致最小方差无偏估计

我们前面已经分析过,均方误差在无偏估计中会简化为方差,此时一致最小均方误差估计简化为一致最小方差无偏估计。仿照前面的形式,我们给出一致最小方差无偏估计的定义:

一致最小方差无偏估计:在参数估计\(\mathcal{F}=\{f(x,\theta),\theta\in\varTheta\}\)中,如果\(\hat\theta\)是参数\(\theta\)的无偏估计,如果对另外任意一个\(\theta\)的无偏估计\(\tilde{\theta}\),在参数空间\(\varTheta\)上都有: \[\mathrm{Var}(\hat\theta)\leq \mathrm{Var}(\tilde{\theta})\] 则称\(\hat{\theta}\)是\(\theta\)的一致最小方差无偏估计,简记为UMVUE(Uniformly minimum variance unbiased estimation)。

需要指出,有些参数可能不存在无偏估计,即UMVUE可能也不存在。如果参数的无偏估计存在,我们称此参数为可估参数。为什么加上无偏之后,一致最小方差估计就可以存在了呢?前面我们提到两个任意上,一是任意估计方法,二是\(\forall\theta\in\varTheta\),这两个要求太严格。无偏其实是对第一个任意的限制,缩小了估计类范围,把很多奇葩的估计方法(如上文提到的\(\tilde{\theta}_0\)方法)排除在外。

显然,在给定样本数量后,从无偏性和有效性两个角度,UMVUE是最优解,下面我们给出三个求UMVUE的方法。第一个是零无偏估计法,第二个是充分完全统计量法,第三个用了C-R不等式(单拎出来介绍)。下面我们分别介绍。

改进一个无偏估计

假设我们已经知道了一个无偏估计,有没有办法能够优化它的方差呢?我们先介绍一种改进无偏估计的方法——Rao–Blackwell定理。

定理2(Rao–Blackwell定理):设\(T=T(x)\)是样本\(x\)关于参数\(\theta\)的充分统计量,\(\hat\theta(x)\)是\(\theta\)的一个无偏估计,即\(E[\hat\theta(x)]=\theta\),则 \[h(T)=E[\hat\theta(x)|T]\] 是\(\theta\)的无偏估计,并且 \[D[h(T)]\leq D[\hat\theta(x)]\] 其中当且仅当\(P(\hat\theta(x))=h(T)=1\),即\(h(T)=\hat\theta(x)\),a.s. P成立。

我们先解释下\(h(T)=E[\hat\theta(x)|T]\),从条件期望的\(E(X|Y)\)可知,我们是对\(X\)求期望,会将\(X\)的随机性抹去,\(E(X|Y)\)实际上是关于\(Y\)的随机变量函数,即\(f(Y)=E(X|Y)\),当\(Y=y\)时,函数的值就确定了。因此\(h(T)=E[\hat\theta(x)|T]\)就是一个关于\(T\)的随机变量函数\(h(T)\)。这个定理的关键就是说,这样的复合函数\(h\cdot T\)是\(\theta\)的无偏估计,且方差比原来的无偏估计\(\hat\theta(x)\)小。

\(h\cdot T\)是\(\theta\)的无偏估计这点用重期望公式可以证明: \[ E[h(T)]=E[E(\hat\theta(x)|T)]=E[\hat\theta(x)] \] 由于\(\hat\theta(x)\)是\(\theta\)的一个无偏估计,所以\(E[h(T)]=E[\hat\theta(x)]=\theta\),即\(E[h(T)]\)也是\(\theta\)的一个无偏估计。

对于方差的证明,我们需要用一个小技巧: \[ \begin{aligned} D[\hat\theta(x)]&=E\{\hat\theta(x)-E[\hat\theta(x)]\}^2\\ &=E\{\hat\theta(x)\underbrace{-h(T)+h(T)}_{引入h(T)}-\underbrace{E[\hat\theta(x)]}_\theta\}^2\\ &=E[\hat\theta(x)-h(T)]^2+\underbrace{E[h(T)-\theta]^2}_{D[h(T)]}+2\{E[h(T)-\theta][\hat\theta(x)-h(T)]\} \end{aligned} \] 前面两项好理解,需要处理一下交叉相乘的最后一项。我们可以根据重期望公式将其换种写法: \[ E\{[h(T)-\theta][\hat\theta(x)-h(T)]\}=E_T\{E[(h(T)-\theta)(\hat\theta(x)-h(T))|T]\}\\ 当T=t为给定的条件时,h(T)为一常数\\ 原式=E_T\{(h(T)-\theta)E[\hat\theta(x)-h(T)|T]\}=E_T\{(h(T)-\theta)\{E[\hat\theta(x)|T]-h(T)\}\}\\ \] 在式子的最后,我们发现有一项\(E[\hat\theta(x)|T]\),而这正是\(h(T)\)的定义啊,所以必有 \[ E_T\{(h(T)-\theta)\underbrace{\{E[\hat\theta(x)|T]-h(T)\}}_{E[\hat\theta(x)|T]=h(T)}\}=0 \] 因此,\(2\{E[h(T)-\theta][\hat\theta(x)-h(T)]\}=0\),\(D[\hat\theta(x)]\)可以写成: \[ D[\hat\theta(x)]=E[\hat\theta(x)-h(T)]^2+D[h(T)]\geq D[h(T)],\forall \theta \in \varTheta \] 并且等号成立的条件是\(E[\hat\theta(x)-h(T)]^2=0\),即\(\hat\theta(x)=h(T)\)。这里再多解释一句,充分统计量\(T\)也是\(x\)的函数,所以前式具体应写为\(\hat\theta(x)=h(T(x))\)或\(\hat\theta=h\cdot T\)。

Rao–Blackwell定理的意义在于,如果我们能够找到一个充分统计量,那么就用\(E[\hat\theta(x)|T]\)可以改进任何\(\theta\)的无偏估计,得到\(h(T(x))\)。且在充分统计量存在的情况下,UMVUE一定是充分统计量的函数(除非相等),否则我们可以通过\(h(T)\)构造一个方差更小的无偏估计。

举个例子:设\(X=(X_1,\dotsb,X_n)\)是从两点分布族\(\{b(1,p):0



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3