数学建模:线性回归模型

您所在的位置:网站首页 线性回归方程的相关性 数学建模:线性回归模型

数学建模:线性回归模型

2023-09-02 16:32| 来源: 网络整理| 查看: 265

数学建模:线性回归模型 1.多重线性回归模型 1.1 引入

线性回归分类

简单线性回归(一个自变量)多重线性回归(多个自变量)

线性回归的前提条件:

线性(散点图,散点图矩阵)独立性正态性(回归分析过程中可以确定)方差齐性(回归分析过程中可以确定):建模中存在的误差

两个变量:X和Y

例1:人体的身高和体重

X:人体的身高

Y:人体的体重

身高X大时,体重Y也会倾向于增大,但是X不能严格地决定Y

1.2相关关系

相关关系:自变量的取值一定时,因变量的取值带有一定的随机性的两个变量之间的关系。

相关关系是一种非确定关系。对具有相关关系的两个变量进行统计分析的方法称为回归分析。

1.3经验回归方程

X:自变量或者预报变量

Y:因变量或者响应变量 Y { X 能 够 决 定 的 部 分 f ( x ) 其 他 未 考 虑 的 因 素 e : 误 差 Y\begin{cases} X能够决定的部分f(x)\\ 其他未考虑的因素e:误差 \end{cases} Y{X能够决定的部分f(x)其他未考虑的因素e:误差​ ​ 则得到下面的模型: Y = f ( x ) + e , E ( e ) = 0 特 别 的 , 当 f ( X ) = β 0 + β 1 X 时 是 线 性 函 数 β 0 和 β 1 都 称 作 回 归 系 数 Y = f(x) + e,E(e) = 0\\ 特别的,当f(X) = \beta_0+\beta_1X时是线性函数\\ \beta_0和\beta_1都称作回归系数 Y=f(x)+e,E(e)=0特别的,当f(X)=β0​+β1​X时是线性函数β0​和β1​都称作回归系数

第一步:确定模型第二步:观测模型

image-20210729094728457

于是有n组观测值(xi , yi ),如果Y与X 满足回归系数时,则(xi , yi )满足: y i = β 0 + β 1 x i + e i , i = 1 , 2 , . . . , n y_i = \beta_0+\beta_1x_i+e_i,\qquad i=1,2,...,n yi​=β0​+β1​xi​+ei​,i=1,2,...,n

第三步:确定未知参数值

根据第二步得到的方程组,应用用统计方法,可以得到 β 0 \beta_0 β0​和 β 1 \beta_1 β1​的估计值 β ^ 0 \hat\beta_0 β^​0​和 β ^ 1 \hat\beta_1 β^​1​

第四步:求得经验方程

将估计值 β ^ 0 \hat\beta_0 β^​0​和 β ^ 1 \hat\beta_1 β^​1​带入线性回归方程,略去误差项: Y = β ^ 0 + β ^ 1 X Y = \hat\beta_0+\hat\beta_1X Y=β^​0​+β^​1​X 称为经验回归方程

1.4多元线性模型

多元线性回归的一般形式: Y = β 0 + β 1 x + . . . + + β p − 1 x + e i Y = \beta_0+\beta_1 x+...++\beta_{p-1} x+e_i Y=β0​+β1​x+...++βp−1​x+ei​ 同样 β 0 \beta_0 β0​为常数项,$\beta_1,…,\beta_{p-1} 为 回 归 系 数 , 为回归系数, 为回归系数,e$为随机误差.

观测数据

多元线性模型就是有多个未知数 β \beta β y = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 ⋯ x 1 , p − 1 1 x 21 ⋯ x 2 , p − 1 ⋮ ⋮ ⋮ ⋮ 1 x n 1 ⋯ x n , p − 1 ] , β = [ β 0 β 1 ⋮ β p − 1 ] , e = [ e 1 e 2 ⋮ e n ] y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix} y=⎣⎢⎢⎢⎡​y1​y2​⋮yn​​⎦⎥⎥⎥⎤​,X=⎣⎢⎢⎢⎡​11⋮1​x11​x21​⋮xn1​​⋯⋯⋮⋯​x1,p−1​x2,p−1​⋮xn,p−1​​⎦⎥⎥⎥⎤​,β=⎣⎢⎢⎢⎡​β0​β1​⋮βp−1​​⎦⎥⎥⎥⎤​,e=⎣⎢⎢⎢⎡​e1​e2​⋮en​​⎦⎥⎥⎥⎤​

确定回归系数

求经验回归方程

设 β ^ = ( β ^ 0 , β ^ 1 , ⋯   , β ^ p − 1 ) ′ \hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})' β^​=(β^​0​,β^​1​,⋯,β^​p−1​)′为 β \beta β的一种估计,则经验方程是: Y = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p − 1 X p − 1 Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y=β^​0​+β^​1​X1​+⋯+β^​p−1​Xp−1​

1.5 非线性模型

非线性模型经过适当变换,转换为线性模型:比如两边取对数 ln ⁡ Q t = ln ⁡ a + b ln ⁡ L t + c ln ⁡ K t \ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t lnQt​=lna+blnLt​+clnKt​ 令 y t = ln ⁡ Q t ; x t 1 = ln ⁡ L t , β 0 = ln ⁡ a , β 1 = b , β 2 = c y_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c yt​=lnQt​;xt1​=lnLt​,β0​=lna,β1​=b,β2​=c

加上误差项即是线性关系

2.参数估计(最小二乘法)

在高等数学中有最小二乘法的介绍。简单地说就是要通过确定一系列的系数 β \beta β,使所有情况下的误差最小,即: e = ∣ y − X β ∣ e = |y-X\beta| e=∣y−Xβ∣ 的值最小。由于绝对值不好处理,这里转化成平方形式: e = ( y − X β ) 2 e = (y-X\beta)^2 e=(y−Xβ)2 上式展开,对 β \beta β求偏导,使其为0,得到线性方程组,解出 β i \beta_i βi​即可,这一组 β \beta β即是估计出的参数值。即是通过这一步最终得到了经验方程: Y ^ = β ^ 0 + β ^ 1 X 1 + ⋯ + β ^ p − 1 X p − 1 \hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y^=β^​0​+β^​1​X1​+⋯+β^​p−1​Xp−1​ 上述方程还需要进一步做统计分析,来确定是否, 描述了因变量与自变量的真实关系。

另外,进行线性回归之前,为了消除量纲等因素的影响,我们通常会对数据进行预处理。预处理有

中心化标准化 3.回归方程假设检验

但是经验回归方程是否真正刻画了因变量与自 变量之间的关系?——回归方程的显著性检验

因变量和所有自变量之间是否存在显著的关系?——回归系数的显著性检验

异常点检验

3.1回归方程的显著性检验

正态线性回归模型: y i = β ^ 0 + β ^ 1 x i 1 + ⋯ + β ^ p − 1 x i , p − 1 + e i e i — — N ( 0 , σ 2 ) , i = 1 , ⋯   , n y_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n yi​=β^​0​+β^​1​xi1​+⋯+β^​p−1​xi,p−1​+ei​ei​——N(0,σ2),i=1,⋯,n 经验方程是否正确刻画因变量与自变量之间的关系需要进行回归方程的显著性检验: 假设检验:所有回归系数都为0,即 H : β 1 = β 2 = , . . . , = β p − 1 = 0 H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0 H:β1​=β2​=,...,=βp−1​=0

拒绝原假设:至少有一个 β i \beta_i βi​不等于0

接受原假设:所有的 β i \beta_i βi​都等于0,相对误差而言,所有自变量对因变量Y 的影响是不重要的。

显著性检验

设 m = p − 1 m = p-1 m=p−1,检验假设H: β 1 = ⋯ = β p − 1 = 0 \beta_1 = \cdots=\beta_{p-1} = 0 β1​=⋯=βp−1​=0的统计量为: F 回 = S S 回 / p − 1 R S S / n − p F_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}} F回​=RSS/n−pSS回​/p−1​ 当原假设成立时, F 回 F_回 F回​~ F p − 1 , n − p F_{p-1,n-p} Fp−1,n−p​

对于某一置信度 α \alpha α, F 回 > F p − 1 , n − p ( α ) F_回>F_{p-1,n-p}(\alpha) F回​>Fp−1,n−p​(α)时,拒绝原假设,否则就接受H

image-20210730091549617

回归系数的显著性检验

异常点检验

4.衡量多重回归模型优劣的标准 4.1判定系数

S S T = S S E + S S R { S S T = ∑ i = 1 n ( y i − y ‾ ) 2 S S E = ∑ i = 1 n ( y i − y ^ i ) 2 S S R = ∑ i = 1 n ( y ^ i − y ‾ ) 2 SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases} SST=SSE+SSR⎩⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎧​SST=i=1∑n​(yi​−y​)2SSE=i=1∑n​(yi​−y^​i​)2SSR=i=1∑n​(y^​i​−y​)2​

另外我们定义了 R 2 R^2 R2 R 2 = S S R S S T , 0 ≤ R 2 ≤ 1 R^2 = \frac{SSR}{SST},0≤R^2≤1 R2=SSTSSR​,0≤R2≤1 R 2 R^2 R2越接近1,表示X和Y有较大的相依关系

image-20210730083123472 image-20210730083148081 5.回归自变量的选择 6.多重复共线性判断

一些大型线性回归问题(自变量较多),最小二乘估计有时表现不理想 :

有些回归系数的绝对值异常大回归系数的符号与实际意义相违背

复共线性:回归自变量之间存在着近似线性关系。

复共线性严重程度的判断

①方阵 X ′ X X'X X′X的条件数:最大特征值与最小特征值的比值 k = λ 1 λ p k=\frac{\lambda_1}{\lambda_p} k=λp​λ1​​ 有下面的判断标准:

image-20210730093118643

②方差膨胀因子

方差膨胀因子 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫, 𝐕𝐈𝐅 : 𝑽𝑰𝑭越大,表示共线性越严重。 𝑽𝑰𝑭一般不应该大于𝟓, 当𝑽𝑰𝑭>𝟏𝟎时,提示有严重的多重共线性存在

解决方案

(1) 增大样本含量,能部分解决复共线性问题。

(2) 把多种自变量筛选的方法结合起来组成拟合模型。建立一个 “最优”的逐步回归方程,但同时丢失一部分可利用的信息

(3) 从专业知识出发进行判断,去除专业上认为次要的,或者是 缺失值比较多、测量误差较大的共线性因子。

(4) 进行主成分分析,提取公因子代替原变量进行回归分析。

7.残差分析和回归诊断 7.1残差分析

目的:

线性假设的检验所有水平的x的常数方差的检验正态分布的检验

残差图分析

通过残差图判断正态性

残差: e ^ = y − X b ^ \hat e = y-X\hat b e^=y−Xb^,其中将$\hat e 称 为 残 差 ; 称为残差; 称为残差;\hat y = X\hat b , , ,\hat y_i$称为拟合值。

以残差为纵坐标,以任何其他的量为横坐标的散点图,称为残差图。

这里以拟合值 y ^ i \hat y_i y^​i​为横轴, r i r_i ri​为纵轴的残差图,平面上的点应该落在宽度为4的水平带 − 2 ≤ r i ≤ 2 -2≤r_i≤2 −2≤ri​≤2的区域内,且不呈任何趋势。

image-20210730095236567

image-20210730095310071

,其中将$\hat e 称 为 残 差 ; 称为残差; 称为残差;\hat y = X\hat b , , ,\hat y_i$称为拟合值。

以残差为纵坐标,以任何其他的量为横坐标的散点图,称为残差图。

这里以拟合值 y ^ i \hat y_i y^​i​为横轴, r i r_i ri​为纵轴的残差图,平面上的点应该落在宽度为4的水平带 − 2 ≤ r i ≤ 2 -2≤r_i≤2 −2≤ri​≤2的区域内,且不呈任何趋势。

[外链图片转存中…(img-TaQX83rE-1627610395779)]

[外链图片转存中…(img-8Xf0EFkx-1627610395781)]



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3