ESL3.2(下)最小二乘法学习笔记(含施密特正交化,QR分解)

您所在的位置:网站首页 schmidt正交化系数怎么求 ESL3.2(下)最小二乘法学习笔记(含施密特正交化,QR分解)

ESL3.2(下)最小二乘法学习笔记(含施密特正交化,QR分解)

2023-10-21 16:37| 来源: 网络整理| 查看: 265

3.2(下) 最小二乘法

这是一篇有关《统计学习基础》,原书名The Elements of Statistical Learning的学习笔记,该书学习难度较高,有很棒的学者将其翻译成中文并放在自己的个人网站上,翻译质量非常高,本博客中有关翻译的内容都是出自该学者的网页,个人解读部分才是自己经过查阅资料和其他学者的学习笔记,结合个人理解总结成的原创内容。

原文 The Elements of Statistical Learning 翻译 szcf-weiya 时间 2018-08-21 解读 Hytn Chen 更新 2020-02-12 翻译原文 从简单单变量回归到多重回归

有 p > 1 p > 1 p>1 个输入的线性模型 (3.1) 称作 多重线性回归模型.用单 ( p = 1 p=1 p=1) 变量线性模型的估计能更好理解模型 ( 3.6 ) (3.6) (3.6) 的最小二乘估计,我们将在这节中指出.

首先假设我们有一个没有截距的单变量模型,也就是

Y = X β + ε (3.23) Y=X\beta + \varepsilon \tag{3.23} Y=Xβ+ε(3.23)

最小二乘估计和残差为

β ^ = ∑ 1 N x i y i ∑ 1 N x i 2 r i = y i − x i β ^ (3.24) \begin{aligned} \hat{\beta}&=\dfrac{\sum_1^Nx_iy_i}{\sum_1^Nx_i^2}\\ r_i &= y_i -x_i\hat{\beta} \end{aligned} \tag{3.24} β^​ri​​=∑1N​xi2​∑1N​xi​yi​​=yi​−xi​β^​​(3.24)

为了简便用向量表示,我们令 y = ( y 1 , … , y N ) T \mathbf{y}=(y_1,\ldots,y_N)^T y=(y1​,…,yN​)T, x = ( x 1 , … , x N ) T \mathbf{x}=(x_1,\ldots,x_N)^T x=(x1​,…,xN​)T,并且定义 ⟨ x , y ⟩ = ∑ i = 1 N x i y i = x T y (3.25) \begin{aligned} \langle\mathbf{x},\mathbf{y}\rangle &= \sum\limits_{i=1}^Nx_iy_i\\ &=\mathbf{x^Ty}\tag{3.25} \end{aligned} ⟨x,y⟩​=i=1∑N​xi​yi​=xTy​(3.25)

x \mathbf{x} x 和 y \mathbf{y} y 之间的内积,于是我们可以写成

β ^ = ⟨ x , y ⟩ ⟨ x , x ⟩ r = y − x β ^ (3.26) \begin{aligned} \hat{\beta}&=\dfrac{\langle \mathbf{x,y}\rangle}{\langle\mathbf{x,x} \rangle}\\ \mathbf{r}&=\mathbf{y}-\mathbf{x}\hat{\beta} \end{aligned} \tag{3.26} β^​r​=⟨x,x⟩⟨x,y⟩​=y−xβ^​​(3.26)

!!! note “weiya 注:原书脚注” The inner-product notation is suggestive of generalizations of linear regression to different metric spaces, as well as to probability spaces. 内积表示是线性回归模型一般化到不同度量空间(包括概率空间)建议的方式.

正如我们所看到的,这个简单的单变量回归提供了多重线性回归的框架 (building block).进一步假设输入变量 x 1 , x 2 , … , x p \mathbf{x}_1,\mathbf{x_2,\ldots,x_p} x1​,x2​,…,xp​(数据矩阵 X \mathbf{X} X 的列)是正交的;也就是对于所有的 j ≠ k j\neq k j​=k 有 ⟨ x j , x k ⟩ = 0 \langle \rm{x}_j,\rm{x}_k\rangle=0 ⟨xj​,xk​⟩=0.于是很容易得到多重最小二乘估计 β ^ j \hat{\beta}_j β^​j​ 等于 ⟨ x j , y ⟩ / ⟨ x j , x j ⟩ \langle \mathbf{x}_j,\mathbf{y}\rangle/\langle\mathbf{x}_j,\mathbf{x}_j\rangle ⟨xj​,y⟩/⟨xj​,xj​⟩ ——单变量估计.换句话说,当输入变量为正交的,它们对模型中其它的参数估计没有影响.

正交输入变量经常发生于平衡的、设定好的实验(强制了正交),但是对于实验数据几乎不会发生.因此为了后面实施这一想法我们将要对它们进行正交化.进一步假设我们有一个截距和单输入 x \bf{x} x.则 x \bf{x} x 的最小二乘系数有如下形式

β ^ 1 = ⟨ x − x ˉ 1 , y ⟩ ⟨ x − x ˉ 1 , x − x ˉ 1 ⟩ (3.27) \hat{\beta}_1=\dfrac{\langle \mathbf{x}-\bar{x}\mathbf{1},\mathbf{y}\rangle}{\langle \mathbf{x}-\bar{x}\mathbf{1},\mathbf{x}-\bar{x}\mathbf{1}\rangle}\tag{3.27} β^​1​=⟨x−xˉ1,x−xˉ1⟩⟨x−xˉ1,y⟩​(3.27)

其中, x ˉ = ∑ i x i / N \bar{x}=\sum_ix_i/N xˉ=∑i​xi​/N,且 N N N 维单位向量 1 = x 0 \mathbf{1}=x_0 1=x0​.我们可以将式 ( 3.27 ) (3.27) (3.27) 的估计看成简单回归 ( 3.26 ) (3.26) (3.26) 的两次应用.这两步是:

在 1 \bf{1} 1 上回归 x \bf{x} x 产生残差 z = x − x ˉ 1 \mathbf{z}=\mathbf{x}-\bar{x}\mathbf{1} z=x−xˉ1; 在残差 z \bf{z} z 上回归 y \bf{y} y 得到系数 β ^ 1 \hat{\beta}_1 β^​1​ 在这个过程中,“在 a \bf{a} a 上回归 b \bf{b} b”意思是 b \bf{b} b 在 a \bf{a} a 上的无截距的简单单变量回归,产生系数 γ ^ = ⟨ a , b ⟩ / ⟨ a , a ⟩ \hat{\gamma}=\langle\mathbf{a,b}\rangle/\langle\mathbf{a,a}\rangle γ^​=⟨a,b⟩/⟨a,a⟩ 以及残差向量 b − γ ^ a \mathbf{b}-\hat{\gamma}\mathbf{a} b−γ^​a.我们称 b \bf{b} b 由 a \bf{a} a 校正(adjusted),或者关于 a \bf{a} a 正交化.

第一步对 x \mathbf{x} x 作关于 x 0 = 1 \mathbf{x}_0=\mathbf{1} x0​=1 的正交化.第二步是一个利用正交预测变量 1 \mathbf{1} 1 和 z \mathbf{z} z 简单的单变量回归.图 3.4 展示了两个一般输入 x 1 \mathbf{x}_1 x1​ 和 x 2 \mathbf{x}_2 x2​ 的过程.正交化不会改变由 x 1 \mathbf{x}_1 x1​ 和 x 2 \mathbf{x}_2 x2​ 张成的子空间,它简单地产生一个正交基来表示子空间.

在这里插入图片描述

正交输入的最小二乘回归.向量 x 2 \mathbf{x}_2 x2​ 在向量 x 1 \mathbf{x}_1 x1​ 上回归,得到残差向量 z \mathbf{z} z. y \mathbf{y} y 在 z \mathbf{z} z 上的回归给出 x 2 \mathbf{x}_2 x2​ 的系数.把 y \mathbf{y} y 在 x 1 \mathbf{x}_1 x1​ 和 z \mathbf{z} z 上的投影加起来给出了最小二乘拟合 y ^ \mathbf{\hat{y}} y^​.

这个方法可以推广到 p p p 个输入的情形,如算法 3.1 所示.注意到第二步的输入 z _ 0 , … , z j − 1 \mathbf{z}\_0,\ldots,\mathbf{z}_{j-1} z_0,…,zj−1​ 是正交的,因此这里计算得到的简单回归的系数实际上是多重回归的系数.

在这里插入图片描述

算法 3.1 依次正交的回归(施密特正交化)

初始化 z 0 = x 0 = 1 \mathbf{z}_0=\mathbf{x}_0=\mathbf{1} z0​=x0​=1 对于 j = 1 , 2 , … , p j=1,2,\ldots,p j=1,2,…,p 在 z 0 , z 1 , … , z j − 1 \mathbf{z}_0,\mathbf{z}_1,\ldots,\mathbf{z}_{j-1} z


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3