简单线性回归分析 (Simple Linear Regression Analysis) |
您所在的位置:网站首页 › 回归分析需要几个变量参与 › 简单线性回归分析 (Simple Linear Regression Analysis) |
在大量的医学科研与实践中,经常会对两个定量变量之间依存关系进行研究,例如肥胖人群的血脂与其血压水平的关系如何,此时可用简单线性回归分析来解决。本篇文章将举例介绍简单线性回归分析的适用条件及假设检验理论。 关键词:简单线性回归; 直线回归; 残差齐性检验; 残差正态检验; 一、适用条件简单线性回归分析,一般适用于以下6个条件: 条件1:因变量和自变量为定量变量。 条件2:因变量和自变量之间具有线性关系,可通过散点图加以判断。 条件3:因变量的观察值来自正态分布且方差相同。 条件4:观察变量不存在显著的异常值。 条件5:观察变量相互独立。 条件6:残差方差齐。 二、直线回归方程简单线性回归模型(Simple linear regression model)即描述因变量Y如何随自变量X改变而改变,该线性趋势所对应的直线称为回归直线(regression line),可用以下直线回归方程(linear regression equation)表示: \(\widehat{Y}=a+b X\) 其中,\(\widehat{Y}\)为X相对应的Y的总体均数的一个样本估计值,称为回归方程的预测值。a是回归直线在Y轴上的截距,表示当X取值为0时相应Y的均数估计值,称为常数项。b是直线斜率,称为回归系数,表示当X变化一个单位时Y的平均改变的估计值。 我们需要找到一条尽可能靠近所有点的直线。将实测值Y与估计值\(\widehat{Y}\)的纵向距离\(\mathrm{Y}-\widehat{\mathrm{Y}}\)称为残差或剩余量(residual),则问题转化为求最小的残差和。残差的符号有正负,通常取各点残差平方和最小的直线,即“最小二乘(least sum of squares, LS)”原则。数学上易得a、b的计算公式为: \(a=\bar{Y}-b \bar{X}\) \(b=\frac{\sum(X-\bar{X})(Y-\bar{Y})}{\sum(X-\bar{X})^{2}}=\frac{l_{X Y}}{l_{X X}}\) 三、直线回归中的统计推断 (一) 回归方程的假设检验建立样本直线回归方程后,还需检验该直线回归关系是否确实存在,即样本回归系数b对应的总体回归系数是否有β ≠ 0。这一问题可用方差分析或与其等价的t检验来回答。 1. 方差分析如图1所示,任一观察点P对应的纵坐标Y被回归直线\(\widehat{Y}\)和均数\(\overline{\mathrm{Y}}\)截成三段,即 \(\mathrm{Y}-\overline{\mathrm{Y}}=(\mathrm{Y}-\widehat{\mathrm{Y}})+(\widehat{\mathrm{Y}}-\overline{\mathrm{Y}})\) 将全部观察点都按上法处理,并将等式两端平方后再求和,则有: \(\sum(\mathrm{Y}-\overline{\mathrm{Y}})^{2}=\sum(\mathrm{Y}-\widehat{\mathrm{Y}})^{2}+\sum(\widehat{\mathrm{Y}}-\overline{\mathrm{Y}})^{2}+2\sum(\mathrm{Y}-\widehat{\mathrm{Y}})(\widehat{\mathrm{Y}}-\overline{\mathrm{Y}})\) 由于\(\sum(\mathrm{Y}-\widehat{\mathrm{Y}})(\widehat{\mathrm{Y}}-\overline{\mathrm{Y}})\)展开后结果为0,则上式有: \(\sum(\mathrm{Y}-\overline{\mathrm{Y}})^{2}=\sum(\mathrm{Y}-\widehat{\mathrm{Y}})^{2}+\sum(\widehat{\mathrm{Y}}-\overline{\mathrm{Y}})^{2}\) 用符号表示为: \(\mathrm{SS}_{\text {总 }}=\mathrm{SS}_{\text{残 }}+\mathrm{SS}_{\text {回 }}\) SS总为Y的离均差平方和,表示未考虑Y与X的回归关系时Y的总变异。 SS残为残差平方和。它反映了除X对Y影响之外的一切因素对Y的变异的作用,也就是在总平方和中无法用X解释的部分,表示考虑回归之后Y真正的随机误差。 SS回为回归平方和,反应了在Y的总变异中可以用Y与X的直线关系解释的变异。 上述三个平方和,各有其相应的自由度v,并有如下的关系: \(v_{\text {总 }}=v_{\text {残 }}+v_{\text {回 }},v_{\text {总 }}=\mathrm{n}-1,v_{\text{残}}=\mathrm{n}-2, v_{\text {回 }}=1\) 若两变量间总体回归关系确实存在,回归的贡献应大于随机误差,可计算如下F统计量: \(F=\frac{\mathrm{SS}_{\text {回 }} / v_{\text{回 }}}{\mathrm{SS}_{\text {残 }} / v_{\text{残 }}}=\frac{\mathrm{MS}_{\text{回 }}}{\mathrm{MS}_{\text {残 }}}\) 式中MS回、MS残分别称为回归均方和残差均方。统计量F服从自由度为v回v残的F分布。查(F界值表),得P值,按所取检验水准作出推断结论。 图1 2. t检验对β是否不为0这一假设,可以将b视为一个均数进行如下t检验 \(t=\frac{\mathrm{b}-0}{\mathrm{~S}_{\mathrm{b}}},v=\mathrm{n}-2\) \(\mathrm{S}_{\mathrm{b}}=\frac{\mathrm{S}_{\mathrm{Y} \cdot \mathrm{X}}}{\sqrt{l_{\mathrm{XX}}}}\) \(S_{\mathrm{Y} \cdot \mathrm{X}}=\sqrt{\frac{SS_{\text {残 }}}{n-2}}\) 式中SYX为样本回归的剩余标准差(standard deviation of residuals),即剩余均方开方。Sb为样本回归系数标准误。查(t界值表),得P值,按所取检验水准作出推断结论。 (二) 总体回归系数β的置信区间利用上述对回归系数的t检验,可以得到β的1-α置信区间为: \(b \pm \mathrm{t}_{\alpha / 2, v} \cdot \mathrm{S}_{\mathrm{b}}\) (三) 利用回归方程进行估计和预测 1. 总体均数\(\mu_{Y \mid X}\)的置信区间给定X的数值X0,由样本回归方程计算所得的\(\widehat{\mathrm{Y}}_{0}\)只是相应总体均数\(\mu_{Y \mid X}\)的一个点估计。反应其抽样误差大小的标准误公式为: \(S_{\widehat{Y}_{0}}=S_{Y \cdot X}\sqrt{\frac{1}{n}+\frac{\left(X_{0}-\bar{X}\right)^{2}}{\sum(X-\bar{X})^{2}}}\) 给定X = X0时,总体均数\(\mu_{Y \mid X}\)的1-α可信区间为: \(\widehat{\mathrm{Y}}_{0} \pm \mathrm{t}_{\alpha/ 2, v} \cdot S_{\widehat{\mathrm{Y}}_{0}}\) 2. 个体Y值的预测区间给定X的数值X0,对应的个体Y值也存在一个波动范围。其标准差\(S_{Y_{0}}\)的计算公式为 \(S_{Y_{0}}=S_{\mathrm{Y} \cdot \mathrm{X}}\sqrt{1+\frac{1}{n}+\frac{\left(X_{0}-\bar{X}\right)^{2}}{\sum(X-\bar{X})^{2}}}\) 给定X = X0时,个体Y值的1-α预测区间为 \(\widehat{\mathrm{Y}}_{0} \pm \mathrm{t}_{\alpha/ 2, v} \cdot S_{Y_{0}}\) (四) 决定系数决定系数(coefficient of determination)定义为回归平方和与总平方和之比,计算公式为: \(\mathrm{R}^{2}=\frac{\mathrm{SS}_{\text{回 }}}{\mathrm{SS}_{\text {总 }}}\) R2取值在0到1之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 四、案例数据研究健康成年人的体重和双肾脏总体积(ml)的关系,测得24名健康成年人的体重wt (kg)与双肾脏总体积volume (ml),拟探讨健康成年人的体重与双肾总体积是否有关,并希望通过健康成年人的体重预测双肾总体积。数据见图2。 图2 五、案例分析假设本案例满足简单线性回归分析的适用条件,下面构建其回归方程并进行建设检验。 (一) 建立直线回归方程 1. 计算X、Y的均数\(\overline{\boldsymbol{X}}\)、\(\overline{\boldsymbol{Y}}\)离均差平方和lXX、lYY与离均差积和lXY\(\bar{X}=\frac{\sum X}{n}=\frac{1436}{24}=59.83\) \(\bar{Y}=\frac{\sum Y}{n}=\frac{6474.77}{24}=269.78\) \(l_{X X}=\sum X^{2}-\frac{\left(\sum X\right)^{2}}{n}=90682-\frac{1436^{2}}{24}=4761.33\) \(l_{Y Y}=\sum Y^{2}-\frac{\left(\sum Y\right)^{2}}{n}=178277.41-\frac{6474.77^{2}}{24}=35500.47\) \(l_{X Y}=\sum X Y-\frac{\left(\sum X\right)\left(\sum Y\right)}{n}=399714.60-\frac{1436 * 6474.77}{24}=12307.53\) 2. 求回归系数b和截距a\(b=\frac{l_{X Y}}{l_{XX}}=\frac{12307.53}{4761.33}=2.585\) \(a=\bar{Y}-b \bar{X}=269.78-2.585 * 59.83=115.12\) 3. 列出直线回归方程\(\widehat{\mathrm{Y}}=115.12+2.585 \mathrm{X}\) (二) 回归方程的假设检验 1. 建立假设检验H0:β = 0,即健康成年人的体重和双肾脏总体积之间无直线关系; H1:β ≠ 0,即健康成年人的体重和双肾脏总体积之间存在直线关系。 α = 0.05 2. 方差分析\(F=\frac{\mathrm{SS}_{\text {回 }} / v_{\text{回 }}}{\mathrm{SS}_{\text {残 }} / v_{\text{残 }}}=\frac{31813.621 / 1}{3686.844 /22}=189.837\) 图3 方差分析表以v1 = 1,v2 = 22,查(F界值表),得P |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |