概率论与统计：条件期望与最小二乘法

您所在的位置：网站首页 › 方差等于平方的期望 › 概率论与统计：条件期望与最小二乘法

概率论与统计：条件期望与最小二乘法

2024-07-16 16:49| 来源: 网络整理| 查看: 265

文章向导

条件期望最小二乘法探索平方误差的期望值内涵

一、条件期望　　条件期望在概率论与统计中也被称为条件数学期望，它的用途主要是用于实际的预测性问题。如对于两个互有影响的随机变量，如果我们知道其中一个随机变量X=a这一观测值，要据此去估计或预测随机变量Y的取值。　　首先，想到的自然是选择条件概率P(Y=b|X=a)值最大时的b作为答案，如果需要尽可能地提高估计的精度，那么此方法无疑是很合理的。　　另一种做法做法则是求在X=a时Y的条件分布，并计算出相应的期望值，即： E ( Y ∣ X = a ) ≡ ∑ b b P ( Y = b ∣ X = a ) 　　（ 1 − 1 ） E\left( Y|X=a \right) \equiv \,\,\sum_b{b}P\left( Y=b|X=a \right) 　　（1-1） E(Y∣X=a)≡b∑bP(Y=b∣X=a)　　（1−1）　　上式也就是条件期望的定义式。但需要注意到，对于取值不同的X，其条件期望E(Y|X=a)的值也不同。所以，如果能知道X各种取值出现的概率，那么条件期望的最终计算结果则与一般的期望值E(Y)一致，即： E ( Y ) = ∑ a E ( Y ∣ X = a ) P ( X = a ) 　　（ 1 − 2 ） E\left( Y \right) =\sum_a{E\left( Y|X=a \right) P\left( X=a \right)}　　（1-2） E(Y)=a∑E(Y∣X=a)P(X=a)　　（1−2）　　现在来详细证明式(1-2)是如何得出的，先将式(1-1)代入进行推导。

这里写图片描述

二、最小二乘法　　最小二乘法又称最小平方法，是数学中一种常用的优化方法，即通过最小误差的平方和寻找数据的最佳函数匹配。　　 1.实例推导　　接下来这部分，则是与条件期望相关的一个应用实例。我们先思考如下问题，假设有条件分布 P ( Y = b ∣ X = a ) P(Y=b|X=a) P(Y=b∣X=a)，试设计一个程序，如何使得在输入X之后输出Y的估计值 Y ^ \hat{Y} Y^。并使平方误差 ( Y − Y ^ ) 2 \left( Y-\hat{Y} \right) ^2 (Y−Y^)2的期望值 E [ ( Y − Y ^ ) 2 ] E\left[ \left( Y-\hat{Y} \right) ^2 \right] E[(Y−Y^)2] 尽可能小。　　乍一看问题貌似很复杂，实际上要求的就是输入X后输出Y的估计值函数中，使 E [ ( Y − Y ^ ) 2 ] E\left[ \left( Y-\hat{Y} \right) ^2 \right] E[(Y−Y^)2] 的值最小时所对应的那个 Y ^ = g ( X ) = E ( Y ∣ X = x ) \hat{Y}=g(X)=E(Y|X=x) Y^=g(X)=E(Y∣X=x)。　　再具体一点，其实问题的答案就是之前所谈及的条件期望g(a)=E(Y|X=a)。这点也符合人们的直观理解，估计值 Y ^ \hat{Y} Y^与Y十分接近时，平方误差自然小。　　为了简化问题的分析，可将X的取值范围给固定为{1,2,3}，此时平方误差的期望值如下所示。这里写图片描述　　上图中最后一行等式可分为3个部分，取决于g(1)的量+即取决于g(2)的量+即取决于g(3)的量。那么，现在的问题就转化为求各部分的解，然后则能得出最佳的g。即定义g(1)，使 ∑ b ( b − g ( 1 ) ) 2 P ( X = 1, Y = b ) \sum_b{\left( b-g\left( 1 \right) \right) ^2P\left( X=\text{1,}Y=b \right)} ∑b(b−g(1))2P(X=1,Y=b)有最小值，同理g(2)和g(3)类似。　　接着，根据上述的思路来找出这样的g(1)，为表示方便用 g 1 g_1 g1替代g(1)。这里写图片描述　　求该式的最小值等价于求 h 1 ( g 1 ) = ∑ b ( b − g 1 ) 2 P ( Y = b ∣ X = 1 ) h_1(g_1)=\sum_b{\left( b-g_1 \right) ^2P\left( Y=b|X=1 \right)} h1(g1)=∑b(b−g1)2P(Y=b∣X=1)的最小值。好，马上就要成功了，让我们来计算它的微分。这里写图片描述　　由极值的判定关系可知，当 d h 1 / d g 1 = 0 dh_1/dg_1=0 dh1/dg1=0时，即 g 1 = E ( Y ∣ X = 1 ) g_1=E(Y|X=1) g1=E(Y∣X=1)时， h 1 ( g 1 ) h_1(g_1) h1(g1)能取到最小值， h 2 ( g 2 ) h_2(g_2) h2(g2)、 h 3 ( g 3 ) h_3(g_3) h3(g3)同理可得。最后，从而推得 g ( a ) = E ( Y ∣ X = a ) g(a)=E(Y|X=a) g(a)=E(Y∣X=a)的结论。

2.如何理解所求得的g(a)？　　从 g ( a ) = E ( Y ∣ X = a ) g(a)=E(Y|X=a) g(a)=E(Y∣X=a)形式上来看，它就是一个普通的函数。只要提供一个具体的数值a，它就会返回一个确定的值g(a)。那么，如果给g提供一个随机变量X，就能得到一个与X对应的随机变量 Y ^ = g ( X ) = E ( Y ∣ X = x ) \hat{Y}=g(X)=E(Y|X=x) Y^=g(X)=E(Y∣X=x)。好吧，表达式看起来依然是那么的抽象。这里写图片描述　　不妨看看图2-1，X=1,2,3分别对应着前面所提及的三个部分，可以把这三个部分想象为各自独立的平行世界，每个平行世界的Y值(柱状体的高)不尽相同(Dir2方向观察)，且同一平行世界下的Y值也不等(Dir1方向观察)。可能有些读者会迷惑，为啥同一平行世界下的Y值也不相同，那么请思考下条件分布P(Y|X=1)。这里写图片描述　　接着看图2-2，此时柱状体的高为E(Y|X)的值，而且有趣的是同一平行世界下的高现在是相等的。这点很好理解，因为求的是期望，那么最终结果肯定是将同一X区域下的不同高度给统一起来(也就是平均效果)。若是将三个平行世界的结果再继续综合起来，则最终得到E(Y)。

三、探索平方误差的期望值内涵

1. 从偏差的平方到方差　　谈及平方误差，读者的第一反应或许会是方差。那么，让我们先从方差开始谈起。设随机变量X的数学期望E(X)=μ现在我们需要计算它的实际取值x与 μ \mu μ的差距。 ∣ x − μ ∣ |x-\mu | ∣x−μ∣可能是最为直观的方式，但落实到具体的计算时，绝对值的存在往往会带来许多不便(如分类讨论、曲线折角处不可微等)。于是，人们通常用偏差的平方 ( x − μ ) 2 \left( x-\mu \right) ^2 (x−μ)2来描述问题。　　这样的描述也非常符合离散程度的定义，因为仅当 X = μ X=\mu X=μ时，误差为0，其余情况误差总是存在且大于0。目前离方差的定义：　　 V [ X ] = E [ ( X − μ ) 2 ] V\left[ X \right] =E\left[ \left( X-\mu \right) ^2 \right] V[X]=E[(X−μ)2] 　　很接近了，但还差一个取期望。Ok，思考下为何还要取一个期望才能得到方差？首先， ( X − μ ) 2 \left( X-\mu \right) ^2 (X−μ)2得到的是一个随机值，而我们希望得到的是一种数值固定的指标，故取其期望来消除其中的随机性。

2.平方误差的期望值　　正式往下说之前，读者应该先了解这个公式 V [ X ] = E ( X 2 ) − E ( X ) 2 V\left[ X \right] =E\left( X^2 \right) -E\left( X \right) ^2 V[X]=E(X2)−E(X)2。　试证：对于常量a，当 E ( X ) = μ ， V ( X ) = σ 2 E\left( X \right) =\mu \text{，}V\left( X \right) =\sigma ^2 E(X)=μ，V(X)=σ2时，有等式 E [ ( X − a ) 2 ] = ( μ − a ) 2 + σ 2 E\left[ \left( X-a \right) ^2 \right] =\left( \mu -a \right) ^2+\sigma ^2 E[(X−a)2]=(μ−a)2+σ2成立。这里写图片描述　　证明完毕，现在来说道说道如何理解这个等式。假设某工厂要生产尺寸恰好为a cm的零件，而最终实际产品的尺寸为X cm。那么，现在 ( X − a ) 2 \left( X-a \right) ^2 (X−a)2就为平方误差。与上述证明的等式相比较，可发现该误差被分解为如下两种误差：(期望值的平方误差)+方差 =（由偏移引起的误差）+（由离散引起的误差）。　　更为专业的说法则是，系统误差(又称偏性误差，数值整体偏移)与随机误差(又称机会误差，数值离散)。　　那么，由于生产工艺的不同，最终得到的产品在两种误差上的表现也会不同。如系统误差较小，随机误差较大。虽然看似误差较小，但其实数值X较为离散。

参阅资料程序员的数学概率论与数理统计普林斯顿微积分读本

【本文地址】

概率论与统计：条件期望与最小二乘法

概率论与统计：条件期望与最小二乘法

今日新闻

推荐新闻