回归分析

您所在的位置:网站首页 多元正态概率密度函数表达式 回归分析

回归分析

2024-04-18 22:26| 来源: 网络整理| 查看: 265

大家好!

这一节的背景图片就是这一节的主旋律……我们会继续在这一节介绍多元正态分布的之后的理论部分,很遗憾的是,它依然还没有结束……

这一节实际上会比上一节还要复杂一些,希望大家能够坐稳这辆数学的车哈哈。

提供之前的笔记:

回归分析|笔记整理(1)——引入,一元线性回归(上)回归分析|笔记整理(2)——一元线性回归(下)回归分析|笔记整理(3)——多元正态分布理论(上)

我们开始本节的内容。

目录多元正态分布理论(中)边缘分布条件分布再谈二次型多元正态分布理论(中)

我们上一节以多元正态分布的线性性结尾。这一节我们会继续跟上。为了让大家能够对上一节的知识还有点印象,我们把它的两个推论放到了这一节。

Corollary 1:设 X \sim N_p(\mu,\Sigma) ,那么 Y=\Sigma^{-1/2}X \sim N(\Sigma^{-1/2}\mu, I_p) Corollary 2:设 X \sim N_p(P\mu,\sigma^2I_p) ,如果 P 是一个 p \times p 的正交阵,那么 Y=PX \sim N(P\Sigma,\sigma^2I_p)

这两个结论都可以直接用线性性得到。如果你没有印象的话,记得翻到上一节笔记的最后。

边缘分布

这就相当于说,如果我知道一个总体的多元正态分布,我如何得到其中某一部分变量的分布。为了方便讨论,首先我们需要把这些矩阵分块,也就是说我们设 X=\begin{bmatrix}X_1 \\ X_2\end{bmatrix} , \mu = \begin{bmatrix}\mu_1 \\ \mu_2\end{bmatrix} , \Sigma = \begin{bmatrix}\Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_ {22}\end{bmatrix} 。那么这样的话,就可以得到下面的定理。

Proposition 1:若 X \sim N(\mu,\Sigma) ,那么 X_1 \sim N(\mu_1,\Sigma_{11}), X_2 \sim N(\mu_2,\Sigma_{22})

其实很简单,我们注意到线性性是针对随机向量 BX 的,那么问题的关键就是如何取 B ,使得我们可以得到 X_1,X_2 。很显然对应的两个矩阵分别是 B_1=\begin{bmatrix}I & 0\end{bmatrix},B_2=\begin{bmatrix}0 & I\end{bmatrix} (具体一点说,因为要求矩阵 B 是一个 m \times p 的矩阵,而 m 是可以任意选取的,所以这里的 B_1,B_2 的列数都是 p ,但是行数则取决于边缘分布的两个随机向量的长度)。然后,运用线性性的那个定理,也就不难得到结论了。

涉及到边缘分布后,我们最后还需要介绍一个与独立相关的结论。

Proposition 2:设 X \sim N(\mu ,\Sigma) ,那么 X_1,X_2 独立的充要条件是 \Sigma_{12} = 0

这个直观上挺显然的,不过要证明起来其实还有点难度。我们严格按照定义走一遍。

首先我们知道 \Sigma ,它其实就是 X 的协差阵,我们走定义就是 E((X-\mu)(X-\mu)^T)=E(\begin{bmatrix}X_1-\mu_1 \\ X_2-\mu_2\end{bmatrix}\begin{bmatrix}X_1^T-\mu_1^T & X_2^T-\mu_2^T\end{bmatrix}) 。每一个分块我们走一下协差阵和协方差阵的定义,不难得到这个这个矩阵其实就是 \begin{bmatrix}cov(X_1) & cov(X_1,X_2) \\ cov(X_2,X_1) & cov(X_2)\end{bmatrix} ,所以这个结论自然容易得到(因为它和 cov(X_1,X_2)=0 是等价的)。

条件分布

从这里开始,我们要开始飙车了……不失一般性,我们这里假设 \Sigma 是正定的

要计算条件分布,我们首先是需要计算 \Sigma^{-1} 的,注意到在之前我们给它分过块 \Sigma = \begin{bmatrix}\Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_ {22}\end{bmatrix} ,那么注意到它只有对角元是方阵,那非对角元计算逆怎么办呢?

首先,在分块矩阵的性质中我们可以知道,如果对角元矩阵都是可逆阵,而旁边的矩阵啥的都是零矩阵,那么逆就很好求。所以我们的思路就在于将这个矩阵的非对角线部分化归为0。该如何去做呢?

这个矩阵是协差阵,你应该没有忘记它是一个对称矩阵对吧?那么对称矩阵在高代中会介绍一个变换叫合同变换。大概意思就是说,我对某几行做一些初等变换,消去了行的某一部分。我再对应的对相同下标的列做相对应的变换,就可以对应消去列的部分。这样的话,如果我行消去了 \Sigma_{12} ,就可以通过对应的列变换消去矩阵 \Sigma_{21} 。这不就可以求逆了吗?

根据这个思想,我们考虑对行作初等变换,根据Prof的顺序,我们先考虑用行变换消去矩阵 \Sigma_{21} 。因为只有 \Sigma_{11} 和它在同一列,并且是可逆方阵,所以我们自然的想法是把第一行的矩阵乘上 -\Sigma_{21}\Sigma_{11}^{-1} 加到第二行。所以这样的话,就可以把矩阵变为 \begin{bmatrix}\Sigma_{11} & \Sigma_{12} \\ & \Sigma_ {22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\end{bmatrix} 。然后,同样的地方做列变换。因为 \Sigma_{11} 下面已经空了,所以可以很轻松的消去 \Sigma_{12} (别忘了对称性),所以最后我们就可以把矩阵经过初等变换,变为 \begin{bmatrix}\Sigma_{11} & \\ & \Sigma_ {22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}\end{bmatrix} ,为了方便,我们记右下角的这个东西为 \Sigma_{22 \cdot 1} 。

总结一下,其实我们就是做了下面这个初等变换。

\begin{bmatrix}\Sigma_{11} & \\ & \Sigma_{22 \cdot 1}\end{bmatrix} =\begin{bmatrix}I & \\ -\Sigma_{21}\Sigma_{11}^{-1}& I \end{bmatrix}\Sigma\begin{bmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12} \\ & I \end{bmatrix}

那么如果我们设三个矩阵中,最左边的矩阵为 A ,最右边的自然是 A^{T} 。那么相当于说我们找到了一个表达式 \Sigma_1=A\Sigma A^T ( \Sigma_1 就是那个对角分块矩阵)。两边求个逆,容易得到 \Sigma^{-1}=A^T\Sigma_1^{-1}A 。再做分块乘法就好。

最后我们可以得到这个矩阵求逆的最终结果。

\Sigma^{-1} = \begin{bmatrix}I & -\Sigma_{11}^{-1}\Sigma_{12} \\ & I \end{bmatrix}\begin{bmatrix}\Sigma_{11}^{-1} & \\ & \Sigma_{22 \cdot 1}^{-1} \end{bmatrix}\begin{bmatrix}I & \\ -\Sigma_{21}\Sigma_{11}^{-1}& I \end{bmatrix} =\begin{bmatrix} \Sigma_{11}^{-1} & \\ & 0 \end{bmatrix}+\begin{bmatrix}-\Sigma_{11}^{-1}\Sigma_{12} \\I \end{bmatrix}\Sigma_{22 \cdot 1}^{-1} \begin{bmatrix}-\Sigma_{21}\Sigma_{11}^{-1} & I \end{bmatrix}

我们可以将矩阵按这样的整齐的形式拆开的原因是,在初等变换的意义下, \Sigma_{11}^{-1} 其实被完整的保留了下来,没有任何矩阵和它出现过任何的矩阵运算。

当然,一定会有人问,我们之前是通过行变换消去了 \Sigma_{21} 来得到这个结果,那么如果我消去 \Sigma_{12} 呢?这个结果类似的,我们也列在下面。

\Sigma^{-1} = \begin{bmatrix}I \\ -\Sigma_{22}^{-1}\Sigma_{21} \end{bmatrix}\Sigma_{11 \cdot 2} \begin{bmatrix}I & -\Sigma_{12}\Sigma_{22}^{-1} \end{bmatrix}+\begin{bmatrix}0 & \\ &-\Sigma_{22}^{-1} \end{bmatrix}

其中 \Sigma_{11 \cdot 2} = \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}

为什么同样的内容要写两遍?注意观察一下,第一个形式其实整个形式中只出现过 \Sigma_{11}^{-1} 而没有出现过 \Sigma_{22}^{-1} 。第二个形式则刚好相反。这意味着事实上,协差阵的对角元矩阵,只需要有一个矩阵比较好计算,我们就可以比较方便的计算出协差阵的逆。

有了这个结果,我们来推导一下条件分布。

Proposition 3:设 X \sim N(\mu, \Sigma) ,那么给定 X_1=x_1 的情况下, X_2 的条件分布为 X_2 \mid X_1 \sim N(\mu_2 +\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1), \Sigma_{22 \cdot 1})

我知道你肯定觉得看着太复杂了。我们从最本质的东西出发分析——密度函数

在概率论中,我们知道联合概率密度的公式

f(x_1,x_2) = f(x_2 \mid x_1) f(x_1)

所以这样的话,因为我们又有多元正态分布的密度公式,所以我们自然可以考虑从密度公式下手。

在上一节中,我们有推导出密度公式

f(x) = (2\pi)^{-p/2}|\Sigma|^{-1/2}\exp\{-\frac12(x-\mu)^T\Sigma^{-1}(x-\mu)\}

有没有看出来,指数函数之前的系数是根本没有影响的?换句话说,我们只需要计算指数部分即可。这也就需要我们去计算 (x-\mu)^T\Sigma^{-1}(x-\mu) 。

好,现在我们的 \Sigma^{-1} 已经在上面算好了,所以代入并且注意把 x-\mu 写开。就可以得到

(x-\mu)^T\Sigma^{-1}(x-\mu)=\begin{bmatrix}(x_1-\mu_1)^T & (x_2-\mu_2)^T\end{bmatrix}\Sigma^{-1}\begin{bmatrix}x_1-\mu_1 \\ x_2-\mu_2\end{bmatrix} =(x_1-\mu_1)^T\Sigma_{11}^{-1}(x_1-\mu_1) +[x_2-\mu_2-\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)]^T\Sigma_{22 \cdot 1}^{-1}[x_2-\mu_2-\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1)]^T

是不是已经看出来什么东西了?第二项这里这个量不就暗含着期望为 \mu_2+\Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1) ,协差阵为 \Sigma_{22 \cdot 1} 了吗?指数上的相加不就意味着密度函数的相乘吗?所以根据这个式子以及联合密度函数的公式,我们就可以证明条件分布的这个结论。

当然,肯定有人问如果我想知道 X_1 \mid X_2 的分布,应该怎么办?方法其实是类似的,只需要把那个求逆的表达式换成含有 \Sigma_{11 \cdot 2} 的那个进行计算,就行了。

通过条件分布和协差阵的逆,我们可以得到下面这两个推论。

Corollary 3:X_1 \sim N(\mu_1, \Sigma_{11}) 与 X_2-\Sigma_{21}\Sigma_{11}^{-1}X_1 \sim N(\mu_2-\Sigma_{21}\Sigma_{11}^{-1}\mu_1, \Sigma_{22 \cdot 1}) 独立。Corollary 4: X_2 \sim N(\mu_2,\Sigma_{22}) 与 X_1-\Sigma_{12}\Sigma_{22}^{-1}X_2 \sim N(\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\mu_2, \Sigma_{11 \cdot 2}) 独立。

我们很容易通过它们的密度函数得到这两个结论。

再谈二次型

现在,我们需要回到二次型,因为二次型我们已经研究过期望,但是还没有研究它的方差。我们需要方差的性质。注意,这依然是一个很复杂的定理,做好准备哦~

Proposition 4:设 X \sim N_p(\mu,\sigma^2I_p) , A 对称,那么 D(X^TAX)=2\sigma^4tr(A^2)+4\sigma^2\mu^TA^2\mu

我们证明一下这个结论。显然第一步我们要使用方差公式,也就是说 D(X^TAX)=E(X^TAX)^2-[E(X^TAX)]^2 。而二次型的期望我们已经求出来了,它是 \mu^TA\mu+\sigma^2tr(A) 。所以我们只需要考虑一下 E(X^TAX)^2

为了讨论问题的方便,我们一般会对随机变量做一点标准化。你应该不陌生了,也就是设 Z=X-\mu ,这样的话,就可以得到 E(Z) =0,D(Z) = \sigma^2I_p 。在这种情况下,我们就需要把 X^TAX 用 Z 的量来做表示,也就是说

X^TAX=(X-\mu)^TA(X-\mu) + 2\mu^TA(X-\mu)+\mu^TA\mu =Z^TAZ+2\mu^TAZ+\mu^TA\mu

下面是一个有点让人崩溃的操作……我们需要平方它!

(X^TAX)^2=(Z^TAZ)^2+4(\mu^TAZ)^2+(\mu^TA\mu)^2 +4\mu^TAZZ^TAZ+2\mu^TA\mu Z^TAZ+4\mu^TA\mu\mu^TAZ

现在,我们需要处理六项式子,对每一项式子取期望并进行讨论。

首先,期望如果遇到了常数是直接可以提出来的,所以很显然,我们对变量比较多的项可以先不考虑,最后再解决。因此我们先不考虑第一个式子 (Z^TAZ)^2 。

首先要注意到的是,第三个式子 (\mu^TA\mu)^2 是一个常数,取期望不会产生影响。而第六个式子因为 E(4\mu^TA\mu\mu^TAZ)=4\mu^TA\mu\mu^TAE(Z)=0 ,所以也很简单。

再来看第二个式子,注意到它也是一个数字,因此取转置不会发生变化。所以

E(4(\mu^TAZ)^2)=E(4\mu^TAZZ^TA\mu)=4\mu^TAE(ZZ^T)A\mu

注意到 E(ZZ^T)=cov(Z) (想想为什么),所以这个结果就是 4\sigma^2\mu^TA^2\mu 。

现在还剩第1,4,5个式子。我们先看第五个式子(因为它没有那么多的变量 Z )。注意到

E(2\mu^TA\mu Z^TAZ)=2\mu^TA\mu E(Z^TAZ)=2\mu^TA\mu\sigma^2tr(A)

后面的结果成立是因为我们已经计算过二次型的期望了,所以这个也不难。最困难的就是第一个和第四个式子。为了方便讨论,我们设 Z=(z_1,z_2,\ldots,z_p)^T 。

对于第四个式子,我们注意到

E(4\mu^TAZZ^TAZ)=4\mu^TAE(ZZ^TAZ)

而我们注意到, ZZ^TAZ 是一个矩阵,它的每一项都是 z_i 的一个三次多项式的线性组合(组合因子是 a_{ij} ,三次多项式指的是诸如 z_iz_jz_k 的形式)。所以只需要考虑三次多项式的线性组合的期望情况就好。

我们要观察到的是,因为 z_i 之间是相互独立的,所以如果 i,j,k 两两不同,那么E(z_iz_jz_k)=E(z_i)E(z_j)E(z_k) 。所以实际上,对 i,j,k 的分别的取值情况做讨论,我们可以得到下面几种情况。

\begin{cases}E(z_iz_jz_k) \\ E(z_i^2z_j) \\ E(z_i^3)\end{cases} (下标i,j,k互异)

前两种情况,根据独立性可以做拆解,所以实际上都是0。第三种情况,我们注意到正态分布的密度函数本身是一个偶函数,所以求 E(z_i^3) 所需要涉及到的正态分布(注意,这里是一元正态分布了)密度函数是奇函数,这就意味着积分值为0。因此这一项也为0,也就是说第四个式子就是0。

最后,集中精力,我们来解决第一个式子。

注意到 E(Z^TAZ)^2 没有任何一个可以提出来的常数,所以直接来看。显然我们这里要关注的,自然是乘出来的这一系列四次多项式了。它们也可以分为很多情况。

\begin{cases}E(z_iz_jz_kz_l) \\ E(z_i^2z_jz_k) \\ E(z_i^3z_j) \\ E(z_i^4) \\ E(z_i^2z_j^2)\end{cases}

幸运的是,只有两种情况是非零的,这两种情况我们分别看,其实重点就在于,如何计算 E(z_i^2) 和 E(z_i^4) 。这里我们来帮大家手算一个复杂一点的 E(z_i^4) 。

E(z_i^4)=\int x^4e^{-x^2/2}dx=-\int x^3d(e^{-x^2/2})=[-x^3e^{-x^2/2}]^{\infty}_{-\infty}+3\int x^2e^{-x^2/2}dx =- 3\int x d(e^{-x^2/2})=[-3xe^{-x^2/2}]^{\infty}_{-\infty}+3\int e^{-x^2/2}dx=3

我们这里计算的是标准正态分布的四阶矩。同时为了方便,我们省去了积分符号的上下界。

因为这里的 var(z_i)=\sigma^2 ,所以实际上我们可以得到 E(z_i^4)=3\sigma^2,E(z_i^2z_j^2)=\sigma^2 。

现在,我们继续做化简,目的是找到这些非零项之前的线性组合的系数。也就是说实际上,我们可以得到

E(Z^TAZ)^2=\sum_{i=1}^p3\sigma^4a_{ii}^2+\sigma^4[\sum_{i \ne k} a_{ii}a_{kk} + \sum_{i \ne j} a_{ij}^2+\sum_{i \ne j} a_{ij}a_{ji}] =\sum_{i=1}^p3\sigma^4a_{ii}^2+\sigma^4[\sum_{i \ne k} a_{ii}a_{kk} + 2\sum_{i \ne j} a_{ij}^2]

(得到系数需要考虑矩阵乘法,我们这里就不说细节了。)

到这里结束了吗?不好意思,依然没有。这个表达式太长了,很不好应用。所以我们之后还有一步化简,我们当作一个小的结论。

E(Z^TAZ)^2=\sigma^4[(tr(A))^2+2tr(A^2)]

我们证明一下,注意到 A=\begin{bmatrix}a_{11} & a_{12} & \cdots & a_{1p} \\ a_{21} & a_{22} & \cdots & a_{2p} \\ \vdots & \vdots & & \vdots \\ a_{p1} & a_{p2} & \cdots & a_{pp} \end{bmatrix} ,所以实际上 tr(A)=\sum_{i=1}^pa_{ii} ,那么

(tr(A))^2=(\sum_{i=1}^pa_{ii})^2=\sum_{i=1}^{p}a_{ii}^2+\sum_{i \ne j}a_{ii}a_{jj} , tr(A^2)=\sum_{i=1}^p\sum_{j=1}^pa_{ij}^2

我们注意到 A 是一个对称矩阵,所以实际上 tr(A^2)=\sum_{i=1}^pa_{ii}^2+\sum_{i \ne j}a_{ij}^2 。这两个式子都写出来了,所以容易得到

(tr(A))^2+2tr(A^2)= 3\sum_{i=1}^pa_{ii}^2+\sum_{i \ne j}a_{ii}a_{jj}+2\sum_{i \ne j}a_{ij}^2

对比一下即可知道结论成立。

所以,综合在一起,我们终于知道了这个式子的结果

E(X^TAX)^2=\sigma^4[(tr(A))^2+2tr(A^2)]+4\sigma^2\mu^TA^2\mu+(\mu^TA\mu)^2+2\sigma^2\mu^TA\mu tr(A)

为什么最后的式子结果只有两项呢?注意到其实 [E(X^TAX)]^2 所有的式子都蕴含在 E(X^TAX)^2 中,在计算方差的时候会消掉,所以最后减掉就可以得到

D(X^TAX)=2\sigma^4tr(A^2)+4\sigma^2\mu^TA^2\mu

也就是我们的结论。

这个结论的证明可真是太复杂了不是吗……不过过了全过程下来,你也基本上算是把线性代数的性质给完整的应用了一遍了……

最后,我们给一个推论,来结束我们的这一节。

Corollary 5:设 X \sim N_p(\mu,\Sigma) , A 对称,则 D(X^TAX)=2tr(A\Sigma)^2+4\mu^TA\Sigma A\mu

我们只需要令 Y=\Sigma^{-1/2}X ,就可以把协差阵换为 I_p ,也就可以应用我们的上一个结论。具体就是

D(X^TAX)=D(Y^T\Sigma^{1/2}A\Sigma^{1/2}Y)=2tr((\Sigma^{1/2}A\Sigma^{1/2})^2) +4(\Sigma^{-1/2}\mu)^T(\Sigma^{1/2}A\Sigma^{1/2})^2(\Sigma^{-1/2}\mu)=2tr(A\Sigma)^2+4\mu^TA\Sigma A\mu (注意 tr(AB)=tr(BA) )

也就证明了结论。

小结

这一节主要关注了边缘分布,条件分布等相对较复杂的内容在多元意义下的体现。这一节涉及到了大量的矩阵的细节运算和概率论的计算部分,因此阅读的难度很大。希望大家能够坚持住。当然了,对于那些急需补充高代知识的人,我觉得这篇笔记很适合你。

——————————————————广告——————————————————

本专栏为我的个人专栏,也是我学习笔记的主要生产地。任何笔记都具有著作权,不可随意转载和剽窃

个人微信公众号:cha-diary,你可以通过它来有效的快速的获得最新文章更新的通知。

本人最近在寻找与数据科学,计算数学,统计有关的科研和实习机会。希望各路大佬神仙如果有看得上我的可以和我联系下~谢谢你们!

专栏目录:笔记专栏|目录

想要更多方面的知识分享吗?欢迎关注专栏:一个大学生的日常笔记。我鼓励和我相似的同志们投稿于此,增加专栏的多元性,让更多相似的求知者受益~



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3