统计学习（Statistical Learning） 3：线性回归

您所在的位置：网站首页 › r语言gls估计如何让误差项相关联 › 统计学习（Statistical Learning） 3：线性回归

统计学习（Statistical Learning） 3：线性回归

2024-04-11 04:17| 来源: 网络整理| 查看: 265

本文参考书籍《An Introduction to Statistical Learning》[1]

本篇文章是关于线性回归的，这是一种用于监督学习的非常简单的方法，线性回归是预测定量响应的有用工具。线性回归已经存在了很长时间，并且是无数教科书的主题，尽管与本系列文章后面章节中介绍的一些更现代的统计学习方法相比，似乎线性回归有些沉闷，但线性回归仍然是一种有用且广泛使用的统计学习方法。在本篇文章中，我们回顾了线性回归模型的一些关键思想，以及最常用于拟合该模型的最小二乘法。

回顾第二章中的广告数据，图2.1显示了特定产品的销售额（以千为单位），它是电视，广播和报纸媒体的广告预算（以千美元为单位）的函数。假设以我们作为统计的角色，我们要求顾问根据这些数据为明年的营销计划提供建议，从而获得较高的产品销售，那么哪些信息对提供这样的建议有用？以下是我们可能要解决的一些重要问题：

1.广告预算和销售之间是否有关系？

我们的首要目标应该是确定数据是否提供了广告支出与销售之间的联系的证据，如果证据不充分，则广告可能并无效果。

2.广告预算和销售之间的关系有多牢固？

假设广告和销售之间存在某种关系，我们想知道这种关系的强弱，换句话说，在给定一定的广告预算的情况下，我们可以高精度地预测销售量吗？

3.哪些媒体有助于销售？

电视，广播和报纸这三种媒体都对销售额有贡献，还是其中一种或两种媒体才有贡献？为了回答这个问题，当我们在所有三种媒体上花钱时，我们必须找到一种方法来区分每种媒介的个别效果。

4.我们如何准确估计每种媒介对销售的影响？

在特定媒体上，每在广告上花费的每一美元，销售额就会增加多少？我们如何准确地预测这一增长量？

5.我们如何准确地预测未来的销售？

对于任何给定水平的电视，广播或报纸广告，我们对销售的预测是什么？该预测的准确性是什么？

6.关系是线性的吗？

如果各种媒体上的广告支出与销售额之间大约存在直线关系，则线性回归是一种合适的工具；如果没有，那么仍然有可能转换预测变量或响应，以便可以使用线性回归。

7.广告媒体之间是否存在协同作用？

与分别为电视或广播分配100,000美元相比，在电视广告上花费50,000美元和在电台广告上花费50,000美元可能会带来更多的销售额。在营销中，这被称为协同效应（synergy effect），而在统计中，它被称为互动效应（interaction effect）。

事实证明，线性回归可以用来回答这些问题，我们将首先在一般情况下讨论所有这些问题，然后在第3.4节中在特定情况下再次讨论它们。

3.1 简单线性回归

简单的线性回归（Simple linear regression）就如其名：它是一种基于单个预测变量X来预测定量响应Y的非常简单的方法。它假定X和Y之间存在近似线性关系，这种线性关系如下所示：

您可能将“≈”读为“近似建模为”，有时我们说（3.1）是说我们在X上将Y回归（或Y到X），例如，X可以代表电视广告，Y可以代表销售，然后可以通过拟合模型将销售回归到电视上，如下所示：

在公式3.1中， $\beta_{0}$ 和 $\beta_{1}$ 是两个未知常数，它们表示线性模型中的截距（intercept）和斜率（slope）， $\beta_{0}$ 和 $\beta_{1}$ 一起被称为模型系数（model coefficients）或参数（parameters）。一旦我们使用训练数据得出模型系数的估计值 $\tilde{\beta}_{0}$ 和 $\tilde{\beta}_{1}$ ，我们就可以根据特定的电视广告价值，来计算与预测未来的销售额，其计算公式如下所示：

其中 $\tilde{y}$ 表示基于 X=x 的的预测。这里我们使用一个符号，^，以表示未知参数或系数的估计值，或表示响应的预测值。

3.1.1估算系数

实际上， $\beta_{0}$ 和 $\beta_{1}$ 是未知的，因此在使用（3.1）进行预测之前，必须使用数据来估计系数。我们让（ $x_{1}$ ， $y_{1}$ ），（ $x_{2}$ ， $y_{2}$ ），...，（ $x_{n}$ ， $y_{n}$ ）代表n个观察对，每个观察对由X的测量值和Y的测量值组成。在广告示例中，此数据集由电视广告预算和n = 200个不同市场中的产品销售组成。我们的目标是获取系数估计值 $\tilde{\beta}_{0}$ 和 $\tilde{\beta}_{1}$ ，以便线性模型（3.1）很好地拟合可用数据，即 $y_{i}\approx \tilde{\beta}_{0} + \tilde{\beta}_{1}x_{i}$ (i = 1，...，n)。换句话说，我们想要找到一个截距 $\tilde{\beta}_{0}$ 和一个斜率 $\tilde{\beta}_{1}$ ，以使所得到的线尽可能接近n =200个数据点。但是到目前为止，最常用的方法是最小化最小二乘（least squares）准则，我们将在本篇文章中采用该方法，而在第六篇文章中将考虑替代方法（alternative approaches）。

令 $y_{i}=\tilde{\beta}_{0} + \tilde{\beta}_{1}x_{i}$ 是基于X的第i个值对Y的预测，然后令 $e_{i}=y_{i}-\tilde{y}_{i}$ 代表第i个残差，即第i个观察到的响应值与第i个由我们的线性模型预测的响应值之间的差，与此同时我们定义残差平方和（RSS）为如下表达式：

或者为另外一种表现形式：

最小二乘法选择 $\tilde{\beta}_{0}$ 和 $\tilde{\beta}_{1}$ 以最小化RSS。如果我们使用一些演算，可以表明极小化可以由如下形式的数学表达式推算得出：

其中 $\bar{y}=\frac{1}{n}\sum_{i=1}^{n}{y_{i}}$ 和 $\bar{x}=\frac{1}{n}\sum_{i=1}^{n}{x_{i}}$ 是样本均值，换句话说，（3.4）定义了用于简单线性回归的最小二乘系数估计。

图3.1 对于广告数据，显示了将销售额回归到电视上的最小二乘法，通过最小化平方误差之和来找到拟合。其中每个灰线段都代表一个误差，而拟合度通过平均其平方来做出折衷。在这种情况下，线性拟合捕获了关系的本质，尽管在图的左侧有些不足。

图3.1显示了对广告数据的简单线性回归拟合，其中 $\tilde{\beta}_{0}$ = 7.03和 $\tilde{\beta}_{1}$ = 0.0475。换句话说，根据此近似值，在电视广告上花费的额外$1,000与销售大约47.5单位的产品相关。

图3.2 RSS在广告数据上的等高线图和三维图，使用销售作为响应，以电视作为预测指标，所述点对应于由（3.4）给出的最小二乘方估计β0和β1。

在图3.2中，我们使用以销售额为响应，以电视为预测指标的广告数据，针对多个 $\beta_{0}$ 和 $\beta_{1}$ 值计算了RSS。在每个图中，红点表示由（3.4）给出的一对最小二乘估计值（ $\tilde{\beta}_{0}$ ， $\tilde{\beta}_{1}$ ），这些值显然使RSS实现了最小化。

3.1.2 评估系数估计的准确性（Assessing the Accuracy of the Coefficient Estimates）

我们把目光回到（2.1），假定对于某些未知函数，和之间的真实（true）关系为 $Y=f(X)+\epsilon$ 的形式，其中 $\epsilon$ 为均值是零的随机误差项。如果与线性函数近似，则我们可以将该关系写为如下形式：

在上式中， $\beta_{0}$ 是截距项，即X = 0时Y的期望值，而 $\beta_{1}$ 是斜率，即Y与X的单位增加相关的平均增长。但是变量之间真实的关系可能不是线性的，可能还有其他变量导致Y的变化，并且可能存在测量误差，而我们通常假设误差项与X无关。

图3.3 模拟数据集。左：红线表示真实关系，f（X）= 2 + 3X，被称为总体回归线。蓝线是最小二乘线；它是基于观察到的数据的f（X）的最小二乘估计，以黑色显示。右：人口回归线再次以红色显示，最小二乘线以深蓝色显示。浅蓝色显示了十条最小二乘线，每条线都是基于独立的随机观测集计算的。

由（3.5）给出的模型定义了总体回归线（population regression line），它是对X和Y之间真实关系的最佳线性近似。最小二乘回归系数估计值（3.4）表示了最小二乘线（least squares line）（3.2），图3.3的左侧面板在一个简单的模拟示例中显示了这两条线，我们创建了100个随机X，并从模型中生成了100个对应的Y，而模型的数学表达式则如下所示：

上式中 $\epsilon$ 均值为零，且符合正态分布生成。图3.3左侧面板中的虚线显示了真实关系，f（X）= 2 + 3X，而蓝线是基于观察到的数据的最小二乘估计值。通常对于真实数据来说，真正的关系是未知的，但是最小二乘法线始终可以使用（3.4）中给出的系数估计来计算。换句话说，在实际应用中，我们可以访问一组观测值，从中可以计算出最小二乘方线。在图3.3的右侧面板中，我们从（3.6）给出的模型中生成了十个不同的数据集，并绘制了相应的十条最小二乘法线。请注意，从同一个真实模型中生成的不同数据集产生的最小二乘方线略有不同，但是未观察到的人口回归线并没有发生明显变化。

乍看之下，总体回归线和最小二乘线之间的差异似乎有些微妙，我们只有一个数据集，那么两条不同的线描述预测变量和响应之间的关系是什么意思？从根本上讲，这两条线的概念是对标准统计方法的自然扩展，该方法使用样本中的信息来估计大量人口的特征。例如，假设我们对了解某个随机变量Y的总体均值μ感兴趣。不幸的是，μ是未知的，但是我们确实可以访问Y的n个观测值，我们可以将其写为 $y_{1}$ ，...， $y_{n}$ ，并可以用来估计μ。一个合理的估计是 $\tilde{\mu}=\bar{y}$ ，其中 $\bar{y}=\frac{1}{n}\sum_{i=1}^{n}{y_{i}}$ 表示的是样本均值（sample mean）。样本均值和总体均值（population mean）不同，但总体而言，样本均值将提供总体均值的良好估计。同样，线性回归中的未知系数 $\beta_{0}$ 和 $\beta_{1}$ 定义了人口回归线，我们试图使用（3.4）中给出的 $\beta_{0}$ 和 $\beta_{1}$ 来估计这些未知系数，而这些系数估计值定义了最小二乘法线。

基于偏差（bias）的概念，线性回归与随机变量均值估计之间的类比是恰当的，如果我们使用样本均值 $\tilde{\mu}$ 来估计 $\mu$ ，则此估计是无偏的（unbiased），在某种意义上，我们希望 $\tilde{\mu}$ 等于 $\mu$ 。这意味着，根据一组特定的观测值 $y_{1}$ ，...， $y_{n}$ ， $\tilde{\mu}$ 可能会低于 $\mu$ ，而根据另一组观测值， $\tilde{\mu}$ 可能会高于 $\mu$ 。但是，如果我们可以对从大量观测值中获得的 $\mu$ 的估计值求平均值，则该平均值将恰好（exactly）等于 $\mu$ 。因此，无偏估计器不会系统性地高估或低估真实参数。对于（3.4）给出的最小二乘系数估计，其无偏性质也成立：如果我们根据特定的数据集估计 $\beta_{0}$ 和 $\beta_{1}$ ，那么我们的估计将不等于 $\beta_{0}$ 和 $\beta_{1}$ 。但是，如果我们可以对从大量数据集获得的估计值取平均值，那么这些估计值的平均值就可以等于 $\beta_{0}$ 和 $\beta_{1}$ 了！实际上，我们可以从图3.3的右侧面板中看到，许多最小二乘法线的平均值（分别从一个单独的数据集估算得出）非常接近真实的人口回归线。

假设我们继续对随机变量的总体均值 $\mu$ 进行估算，我们就会遇到一个自然的问题：用样本的均值 $\tilde{\mu}$ 来作为 $\mu$ 的估计值有多准确？我们已经确定，许多数据集上 $\tilde{\mu}$ 的平均值将非常接近 $\mu$ ，但单个估计值 $\tilde{\mu}$ 可能会大大低于或高于 $\mu$ 。通常，我们可以通过计算 $\tilde{\mu}$ 的标准误差（standard error），即SE（ $\tilde{\mu}$ ）来回答这个问题，标准误差的公式如下所示：

上述式子中σ是Y的每个实现 $y_{i}$ 的标准偏差。粗略地说，标准误差告诉我们该估计值 $\tilde{\mu}$ 与 $\mu$ 的实际值不同的平均值。公式3.7还告诉我们该偏差如何随n减小：我们观察到的越多， $\tilde{\mu}$ 的标准误差越小。类似地，我们还想知道 $\tilde{\beta}_{0}$ 和 $\tilde{\beta}_{1}$ 与真实值 $\beta_{0}$ 和 $\beta_{1}$ 有多接近，为了计算与 $\tilde{\beta}_{0}$ 和 $\tilde{\beta}_{1}$ 相关的标准误差，我们可以使用如下公式：

上式中 $\sigma^{2}=Var(\epsilon)$ ，为了使这些公式严格有效，我们需要假设每次观察的误差 $\epsilon_{i}$ 与共同方差 $\sigma^{2}$ 不相关，这在图3.1中显然是不正确的，但是该公式仍然被证明是一个很好的近似值。需要注意的是，在公式中当 $x_{i}$ 分布更大时， $SE(\tilde{\beta}_{1})$ 则会变小，从直觉上讲，在这种情况下，我们有更大的杠杆作用（leverage）来估计斜率。我们还留意到如果 $\bar{x}$ 为零，则 $SE(\tilde{\beta}_{0})$ 与 $SE(\tilde{\mu})$ 相同（在这种情况下 $\tilde{\beta}_{0}$ 等于 $\bar{y}$ ）。通常情况下， $\sigma^{2}$ 是未知的，但可以根据数据进行估算，σ的估计值称为残差标准误差（residual standard error），由公式 $RSE=\sqrt{RSS/(n-2)}$ 给出。严格来说，当从数据中估计出 $\sigma^{2}$ 时，我们应该写 $\tilde{SE}(\tilde{\beta}_{1})$ 来表示已经做出了估计，但是为了简化表示，我们将删除这个额外的“帽子”。

标准误差可用于计算置信区间（confidence intervals），95％置信区间定义为一个概率为95%的值范围，该范围将包含参数的真实未知值。该范围是根据从数据样本计算出的上下限来定义的，对于线性回归， $\beta_{1}$ 的95％置信区间计算公式如下：

也就是说，下述区间大约有95％的机会包含真实未知值：

即上述范围内有95%的概率将包含 $\beta_{1}$ 的真实值，类似地， $\beta_{0}$ 的置信区间近似为如下形式：

对于广告数据， $\beta_{0}$ 的95％置信区间为[6.130，7.935]， $\beta_{1}$ 的95％置信区间为[0.042，0.053]。因此，我们可以得出结论，在没有任何广告的情况下，销售将平均介于6,130到7,940个单位之间。此外，电视广告每增加$ 1,000，平均销售量就会增加42至53个单位。

标准误差也可以用于对系数进行假设检验（hypothesis tests），最常见的假设检验涉及检验的原假设（null test hypothesis），如下所示：

与替代假设（alternative hypothesis），如下所示：

从数学上讲，这对应于如下两种测试：

因为如果 $\beta_{1}$ = 0，则模型（3.5）简化为Y =β0+ $\epsilon$ ，并且X不与Y关联。为了检验原假设，我们需要确定 $\tilde{\beta}_{1}$ （我们对 $\beta_{1}$ 的估计）是否距离零足够远，如果距离足够远的话我们就可以确信 $\beta_{1}$ 非零。距离的长远取决于 $\tilde{\beta}_{1}$ 的精度，即取决于 $SE(\tilde{\beta}_{1})$ 。如果 $SE(\tilde{\beta}_{1})$ 比较小，则即使 $\tilde{\beta}_{1}$ 的值相对较小也可以提供有力的证据证明 $\beta_{1}\ne0$ ，因此X和Y之间存在关系。相反，如果 $SE(\tilde{\beta}_{1})$ 比较大，则 $\tilde{\beta}_{1}$ 的绝对值必须大，以便我们拒绝原假设。在实践中，我们可以计算t统计量（t-statistic），如下所示：

t统计量能够测量 $\tilde{\beta}_{1}$ 远离0的标准偏差的数量，如果X和Y之间确实没有关系，那么我们期望（3.14）的t分布为n-2个自由度。 t分布呈钟形，当n值大于约30时，它与正态分布非常相似，因此，计算观察到等于| t |的任何数字的概率很简单。假设 $\beta_{1}$ = 0，则绝对值大于或等于绝对值，我们将此概率称为p值（p-value），粗略地说，我们将p值解释如下：如果p值足够小，我们就可以拒绝原假设，也就是说，我们可以声明X和Y之间存在关系。拒绝原假设的典型p值临界值为5％或1％。当n = 30时，它们分别对应于大约2和2.75的t统计量（3.14）。

表3.1 对于广告数据，最小二乘模型的系数用于电视广告预算中售出的单位数的回归。电视广告预算增加$ 1,000会导致销售量增加约50个单位（请注意，销售变量以千个单位为单位，电视变量以数千美元为单位）。

表3.1提供了用于广告数据的电视广告预算中售出单位数量回归的最小二乘模型的详细信息。需要注意的是， $\tilde{\beta}_{0}$ 和 $\tilde{\beta}_{1}$ 的系数相对于其标准误差而言非常大，因此t统计量也很大；如果H0为真，则看到这些值的概率实际上为零。因此我们可以得出结论： $\beta_{0}\ne0$ ， $\beta_{1}\ne0$ .

3.1.3 评估模型的准确性

一旦我们拒绝了原假设（3.12）而支持替代假设（3.13），自然就需要对模型拟合数据的程度进行量化，线性回归拟合的质量通常使用两个相关量进行评估：残差标准误差（residual standard error/RSE）和 $R^{2}$ 统计量。

表3.2 对于广告数据，有关最小二乘模型的更多信息，该模型用于对电视广告预算中售出的单位数进行回归。

表3.2显示了电视广告预算中售出单位数量的线性回归的 RSE ， $R^{2}$ 统计量和F统计量（将在3.2.2节中介绍）。

残留标准误差（Residual Standard Error）

大家可以从模型（3.5）中开始回顾，与每个观察相关的是一个错误项 $\epsilon$ ，由于存在这些误差项，即使我们知道真实的回归线（即即使知道 $\beta_{0}$ 和 $\beta_{1}$ ），也无法从完美地预测，RSE是的标准偏差 $\epsilon$ 的估计，粗略地说，它是响应偏离真实回归线的平均数量。我们使用如下公式来计算：

请注意，RSS在3.1.1节中定义，并由如下公式算出：

对于广告数据，从表3.2的线性回归输出中可以看到，RSE为3.26。换句话说，每个市场的实际销售量平均偏离真实回归线约3,260个单位。考虑这一点的另一种方法是，即使模型是正确的并且未知系数 $\beta_{0}$ 和 $\beta_{1}$ 的真实值是已知的，基于电视广告的任何销售预测仍将平均减少约3,260个单位。当然，是否可以接受3260个预测误差取决于问题的背景。在广告数据集中，销售整个市场的平均值约为14,000个单位，因此百分比误差为3,260 / 14,000 = 23％。

RSE被认为是模型（3.5）对数据缺乏拟合的一种度量，如果使用该模型获得的预测非常接近真实结果值（即，i = 1，...，n时， $\tilde{y}_{i}\approx y_{i}$ ），则（3.15）将很小，这时我们可以说该模型适合度很好。另一方面，如果对于一个或多个观测值， $\tilde{y}_{i}\$ 与 $y_{i}$ 距离很远，则RSE可能会很大，表明该模型不适合数据。

$R^{2}$ 统计（ $R^{2}$ Statistic）

RSE提供了一种绝对量度，从而能够来衡量模型（3.5）是否适合数据。但是，由于它是以Y为单位进行度量的，因此始终不清楚什么构成了良好的RSE，这时 $R^{2}$ 统计量提供拟合的替代度量。 $R^{2}$ 统计采用比例的形式（解释方差的比例），因此它始终取0到1之间的值，并且与Y的比例无关。

为了计算 $R^{2}$ ，我们可以使用如下公式：

其中 $TSS=\sum_{i=1}^{n}{\left( y_{i}-\bar{y} \right)^{2}}$ 叫做平方的总和（total sum of squares）， RSS 已经在（3.16）中定义过了。 TSS可以测量响应Y中的总方差，我们可以认为它是执行回归之前响应固有的可变性量。相反，RSS测量执行回归后无法解释的可变性的数量，因此，TSS-RSS度量通过执行回归来解释（或消除）的响应中的变异性， $R^{2}$ 的含义是Y中出现的变化可以被X解释的的比例（proportion of variability in Y that can be explained using X）。 $R^{2}$ 统计量接近1表示，回归已经解释了响应，接近0的数字表示回归并不能解释响应的大部分可变性，这可能是由于线性模型错误或固有误差 $\sigma^{2}$ 高或两者兼而有之。在表3.2中， $R^{2}$ 为0.61，因此电视上的线性回归解释了销售额变化的约三分之二。

$R^{2}$ 统计数据（3.17）比RSE（3.15）具有解释优势，因为它始终位于0到1之间。但是，确定什么是良好的R2值仍然是一个挑战。例如，在某些物理学问题中，我们可能知道数据确实来自残差很小的线性模型。在这种情况下，我们希望看到的 $R^{2}$ 值非常接近1，而 $R^{2}$ 值明显较小可能表明生成数据的实验存在严重问题。另一方面，在生物学，心理学，市场营销和其他领域的典型应用中，线性模型（3.5）充其量是对数据的极其粗略的近似，并且由于其他不可测因素而导致的残留误差通常非常大，在这种情况下，我们期望预测变量仅解释响应中很小一部分方差，并且 $R^{2}$ 值远低于0.1可能更实际。

$R^{2}$ 统计量是X和Y之间线性关系的度量。我们再回想一下相关性（correlation），其被定义为如下数学表达形式：

相关性本身也是X和Y之间线性关系的度量，这表明我们可以使用r = Cor（X，Y）代替 $R^{2}$ 来评估线性模型的拟合。实际上，可以证明在简单线性回归设置中， $R^{2}=r^{2}$ ，换句话说，平方相关和 $R^{2}$ 统计量是相同的。但是，在下一节中，我们将讨论多元线性回归问题，其中我们同时使用多个预测变量来预测响应。预测变量和响应之间的相关性概念不会自动扩展到此设置，因为相关性会量化单个变量对之间的关联，而不是大量变量之间的关联。

3.2 多元线性回归

简单的线性回归是基于单个预测变量来预测响应的有用方法。但是，实际上，我们经常有不止一个预测变量。例如在广告数据中，我们检查了销售与电视广告之间的关系，与此同时我们也有关于在广播和报纸上花费的广告费用的数据，这时广告公司可能想知道这两种媒体是否与销售相关，那么我们要如何扩展对广告数据的分析以适应这两个额外的预测因素？

表3.3 广告数据的更简单的线性回归模型。顶部：无线电广告预算；底部：报纸广告预算。广播广告支出增加$ 1,000会使平均销售量增加约203个单位，而报纸广告支出的相同增长将平均销售量增加约55个单位（请注意，销售变量以千单位，广播和报纸变量则以数千美元为单位）。

一种选择是运行三个单独的简单线性回归，每个回归都使用不同的广告媒介作为预测变量。例如，我们可以拟合一个简单的线性回归来基于广播广告上花费的金额来预测销售，结果示于表3.3（上表）。我们发现，广播广告支出增加$1,000会带来约203个单位的销售增长。表3.3（底部）包含了对报纸广告预算进行简单线性回归的销售的最小二乘系数，报纸广告预算增加$1,000会导致销售量增加约55个单位。

但是，为每个预测变量拟合单独的简单线性回归模型的方法并不完全令人满意。首先，由于三个预算中的每个预算都与一个单独的回归方程相关联，因此尚不清楚在给定三个广告媒体预算水平的情况下如何对销售额进行单一预测。其次，三个回归方程式中的每一个在形成回归系数的估计时都忽略了其他两种媒介，如果构成我们数据集的200个市场中的媒体预算相互关联，那么这可能会导致对各个媒体对销售的影响产生非常误导的估计。

与其为每个预测变量拟合一个单独的简单线性回归模型，更好的方法是扩展简单线性回归模型（3.5），以便它可以直接容纳多个预测变量。为此，我们可以在单个模型中为每个预测变量提供单独的斜率系数。通常，假设我们有p个不同的预测变量，然后多元线性回归模型采用如下所示的数学形式：

其中 $X_{j}$ 代表第个预测变量， $\beta_{j}$ 则量化了该变量与响应之间的关联，我们将 $\beta_{j}$ 解释为 $X_{j}$ 每增加1个单位对的平均影响，同时保持所有其他预测变量不变。在广告数据的示例中，（3.19）可以变为如下形式：

3.2.1 估计回归系数

与简单线性回归设置中的情况相同，（3.19）中的回归系数 $\beta_{0}$ ， $\beta_{1}$ ，...， $\beta_{p}$ 未知，必须进行估计。给定估计 $\tilde{\beta}_{0}$ ， $\tilde{\beta}_{1}$ ，...， $\tilde{\beta}_{p}$ ，我们可以使用以下公式进行预测：

使用与在简单线性回归中看到的相同的最小二乘法来估计参数。我们选择 $\beta_{0}$ ， $\beta_{1}$ ，...， $\beta_{p}$ 以最小化残差平方和，其数学表达形式如下所示：

图3.4 在具有两个预测变量和一个响应的三维设置中，最小二乘回归线变为一个平面，选择该平面是为了最小化每个观测值（以红色显示）和该平面之间的垂直距离平方的总和。

将（3.22）实现最小化的值 $\tilde{\beta}_{0}$ ， $\tilde{\beta}_{1}$ ，...， $\tilde{\beta}_{p}$ 是多个最小二乘回归系数估计值，与（3.4）中给出的简单线性回归估计不同，多元回归系数估计具有一些复杂的形式，这些形式最容易使用矩阵代数表示。图3.4给出了p = 2预测变量与玩具数据集的最小二乘拟合的示例。

表3.4 对于广告数据，广播，电视和报纸广告预算上售出的单位数量的多元线性回归的最小二乘系数估计。

表3.4显示了使用电视，广播和报纸广告预算通过广告数据预测产品销售时的多元回归系数估计。我们将这些结果解释如下：对于一定数量的电视和报纸广告，在广播广告上花费额外的$ 1,000会使销量增加大约189个单位。将这些系数估算值与表3.1和表3.3中显示的估算值进行比较，我们注意到电视和电台的多元回归系数估算值与简单的线性回归系数估算值非常相似，但是，尽管表3.3中的报纸回归系数估计值明显非零，但多元回归模型中报纸的系数估计值接近于零，相应的p值不再重要，其值约为0.86。这说明简单回归系数和多元回归系数可能有很大不同，这一差异源于以下事实：在简单回归的情况下，斜率项表示报纸广告每增加1000美元的平均效果，而忽略了电视和广播等其他预测因素。相比之下，在多元回归设置中，报纸系数代表在固定电视和广播的同时，报纸支出增加1000美元的平均效果。

表3.5 电视，广播，报纸和广告数据的销售的相关矩阵。

多元回归暗示销售与报纸之间没有任何关系，而简单的线性回归暗示相反，这是否有意义？实际上确实如此。考虑表3.5中显示的三个预测变量和响应变量的相关矩阵，其中广播电台和报纸之间的相关性是0.35。这表明在广播电台广告支出较多的市场上，报纸广告支出的倾向性。现在假设多元回归是正确的，报纸广告对销售没有直接影响，但是无线电广告确实可以增加销售。然后，在我们花更多时间在广播上的市场中，我们的销售额往往会更高，并且正如我们的相关矩阵所示，我们也倾向于在那些相同的市场上花更多的钱在报纸广告上。因此，在仅检查销售与报纸的简单线性回归中，我们将观察到报纸的较高价值往往与较高的销售价值相关联，即使报纸广告实际上并没有影响销售。

在许多现实生活中，这种有点违反直觉的结果非常普遍。例如在一段时间内，在给定的海滩社区下收集的数据中，鲨鱼袭击相对于冰淇淋销售的回归将显示出正相关，类似于销售与报纸之间的正相关。当然，还没有人建议在海滩上禁止冰淇淋以减少鲨鱼的袭击。实际上，较高的温度导致更多的人去海滩游玩，从而导致更多的冰淇淋销售和更多的鲨鱼袭击。鲨鱼攻击对冰淇淋销售量和温度的多元回归表明，正如直觉所暗示的那样，在调整温度后，以前的预测变量不再重要。

3.2.2 一些重要的问题

当我们执行多元线性回归时，我们通常有兴趣回答一些重要问题：

预测变量 $X_{1}$ ， $X_{2}$ ，...， $X_{p}$ 中至少有一个对预测响应有用吗？所有的预测变量都有助于解释

，还是仅一部分预测变量有用？模型对数据的拟合程度如何？给定一组预测值，我们应该预测哪个响应值，我们的预测有多准确？

现在，我们依次解决这些问题。

一：响应和预测变量之间有关系吗？（One: Is There a Relationship Between the Response and Predictors?）

我们可以回想一下，在简单线性回归设置中，为了确定响应和预测变量之间是否存在关系，我们可以简单地检查 $\beta_{1}$ =0。在带有预测变量的多元回归设置中，我们需要询问是否所有回归系数都为零，即 $\beta_{1}$ = $\beta_{2}$ =···= $\beta_{p}$ =0。与简单线性回归设置一样，我们使用假设检验来回答这个问题，我们可以测试如下所示的零假设：

与替代假设：

我们可以通过计算F统计量（F-statistic）进行假设检验：

与简单的线性回归一样， $TSS=\sum_{i=1}^{n}{\left( y_{i}-\bar{y} \right)^{2}}$ 以及 $RSS=\sum_{i=1}^{n}{\left( y_{i}-\tilde{y}_{i} \right)^{2}}$ ，如果线性模型假设是正确的，则可以证明如下等式：

只要 $H_{0}$ 为真，就可以得到如下等式：

因此，当响应和预测变量之间没有关系时，人们会期望F统计量取接近1的值。另一方面，如果 $H_{a}$ 成立，则E {（TSS-RSS）/ p}> $\sigma^{2}$ ，因此我们期望F大于1。

表3.6 有关广告数据中电视，报纸和广播广告预算上销售的单位数量回归的最小二乘模型的更多信息，表3.4中显示了有关此模型的其他信息。

表3.6显示了通过将销售回归到广播，电视和报纸上而获得的多元线性回归模型的F统计量。在此示例中，F统计量为570。由于它远大于1，因此它提供了针对原假设 $H_{0}$ 的令人信服的证据，换句话说，较大的F统计量表明至少一种广告媒体必须与销售有关。但是，如果F统计量更接近1怎么办？这时候答案取决于n和p的值：当n较大时，仅略大于1的F统计量仍可能提供针对 $H_{0}$ 的证据；相反，如果n较小，则需要较大的F统计量来拒绝 $H_{0}$ 。当 $H_{0}$ 为真且误差 $\epsilon_{i}$ 具有正态分布时，F统计量遵循F分布。对于n和p的任何给定值，可以使用任何统计软件包来计算与F统计量关联的p值分配，基于此p值，我们可以确定是否拒绝H0。对于广告数据，与表3.6中的F统计量关联的p值本质上为零，因此我们有充分的证据表明至少一种媒体与销售增长相关。

在（3.23）中，我们可以通过如上所述的方法测试 $H_{0}$ ，即测试所有系数为零，但是有时我们想测试系数q的特定子集为零，这对应于如下所示的原假设：

为了方便起见，我们将选择省略的变量放在列表的末尾，在这种情况下，我们拟合第二个模型，该模型使用除最后一个q之外的所有变量。假设该模型的残差平方和为 $RSS_{0}$ ，那么适当的F统计量可通过如下数学公式计算：

需要注意的是，在表3.4中报告了每个单独的预测变量的t统计量和p值。在调整了其他预测变量后，这些信息提供了有关每个预测变量是否与响应相关的信息。事实证明，这些变量中的每一个都完全等同于F测试，后者从模型中忽略了该单个变量，而其余所有变量都保留在模型中。因此，它报告了将该变量添加到模型中的部分影响，例如，正如我们前面所讨论的，这些p值表示电视和广播与销售有关，但没有证据表明存在这两者的情况下报纸与销售有关。

如果给定了每个变量单独的p值，为什么我们还需要查看总体F统计量？这是因为如果单个变量的p值中的任何一个很小，则似乎至少有一个预测变量与响应有关。但是，这种逻辑是有缺陷的，特别是在预测变量p的数量很大时。

例如，在一个示例中，p = 100且 $H_{0}$ ： $\beta_{1}$ = $\beta_{1}$ = ... = $\beta_{p}$ = 0为真，因此没有变量与响应真正关联。在这种情况下，与每个变量（表3.4中显示的类型）相关的p值的大约5％，偶然也会低于0.05。实际上，大多数情况下我们会偶然发现至少一个低于0.05的p值，因此，如果我们使用各个t统计量和相关的p值来确定变量和响应之间是否存在任何关联，则很有可能会错误地得出结论，认为存在关联。但是，F统计量不受此问题的影响，因为它会根据预测变量的数量进行调整。因此，如果 $H_{0}$ 成立，则无论预测变量的数量或观察的数量如何，F统计量导致p值低于0.05的可能性只有5％。

当p相对较小（与n相比肯定较小）时，使用F统计量来检验预测变量与响应之间的任何关联的方法有效。但有时我们有很多变量，如果p> n，则估计的系数 $\beta_{j}$ 将会多于从中估计系数的观测值。在这种情况下，我们甚至无法使用最小二乘法拟合多元线性回归模型，因此无法使用F统计量，而且截至本篇文章为止看到的大多数其他概念也无法使用。当p大时，可以使用下一节中讨论的某些方法，例如正向选择（forward selection），在第6篇文章将详细讨论这种高维（high-dimensional）设置。

二：确定重要变量（Two: Deciding on Important Variables）

正如前一部分所述，多元回归分析的第一步是计算F统计量并检查相关的p值，如果我们根据该p值得出结论，则至少有一个预测变量与响应有关。与此同时我们可以查看表3.4中的各个p值，但是正如所讨论的，如果p很大，我们可能会做出一些错误的发现。所有预测变量都可能与响应相关联，但更常见的是该响应仅与预测变量的子集有关的情况。为了适合仅涉及那些预测变量的单个模型，确定哪些预测变量与响应相关联的任务称为变量选择（variable selection）。变量选择问题将在第6篇文章中进行广泛研究，因此在这里我们仅提供一些经典方法的简要概述。

理想情况下，我们希望通过尝试许多不同的模型来执行变量选择，其中每个模型包含不同的预测变量子集。例如，如果p = 2，则可以考虑四个模型：（1）不包含变量的模型，（2）仅包含 $X_{1}$ 的模型，（3）仅包含 $X_{2}$ 的模型，以及（4）同时包含 $X_{1}$ 和 $X_{2}$ 的模型。然后，我们可以从我们考虑的所有模型中选择最佳模型。但是我们该如何确定最好的模型呢？其实我们可以使用各种统计信息来判断模型的质量，其中包括Mallow’s Cp，Akaike information criterion (AIC)，贝叶斯信息标准（Bayesian information criterion/BIC）和调整后的 $R^{2}$ （adjusted $R^{2}$ ），这些将在第6篇文章中详细讨论，我们还可以通过绘制各种模型输出（例如残差）来确定哪个模型最好，以便搜索模式。

不幸的是，总共有 $2^{p}$ 个模型包含p个变量的子集，这意味着即使对于中等p，尝试预测变量的每个可能子集也是不可行的。例如，我们看到如果p = 2，则有 $2^{2}=4$ =个模型要考虑；但是如果p = 30，那么我们必须考虑 $2^{30} = 1,073,741,824$ 个模型！这是不切实际的，因此，除非p非常小，否则我们不能考虑所有 $2^{p}$ 模型，而是需要一种自动有效的方法来选择要考虑的较小模型集。我们可以有三种经典方法可以完成此任务：

向前选择（Forward selection）。我们从空模型（null model）开始，空模型本身包含截距但没有预测变量。然后，我们拟合p个简单的线性回归，然后将导致最低RSS的变量添加到空模型中。然后，我们向该模型添加变量，以使新的两变量模型的RSS最低，之后继续执行此方法，直到满足某些停止规则为止。向后选择（Backward selection）。我们从模型中的所有变量开始，然后删除具有最大p值的变量，即具有最低统计意义的变量。之后拟合新的（p − 1）变量模型，并删除了p值最大的变量，再将此过程将继续进行，直到达到停止规则为止。当所有剩余变量的p值低于某个阈值时，我们可能会停止。混合选择（Mixed selection）。这是向前和向后选择的组合，我们从没有变量的模型开始，并且与正向选择一样，我们添加提供最佳拟合的变量。我们一一添加变量，当然，正如我们在“广告”示例中指出的那样，随着将新的预测变量添加到模型中，变量的p值会变大。因此，如果模型中某个变量的p值在任何时候都超过某个阈值，则我们将从模型中删除该变量。我们将继续执行这些向前和向后的步骤，直到模型中的所有变量都具有足够低的p值，并且如果将模型外部的所有变量添加到模型中，它们都将具有较大的p值。

如果p> n，则不能使用向后选择，而只能使用向前选择。向前选择是一种贪婪的方法，有些早期被包含在内的变量可能在后期会显得多余，而混合选择可以解决这个问题。

三：模型拟合（Three: Model Fit）

模型拟合的两个最常见的数值度量是 RSE 和 $R^{2}$ ，这两者都是方差的一部分，这些量的计算和解释方式与简单线性回归相同。

我们可以回想一下，在简单回归中， $R^{2}$ 是响应和变量的相关性的平方。在多元线性回归中，结果表明，它等于 $Cor\left( Y,\tilde{Y} \right)^{2}$ ，即响应与拟合线性模型之间的相关性平方。实际上，拟合线性模型的一个特性是它使所有可能的线性模型之间的这种相关性最大化。

$R^{2}$ 值接近1表示模型解释了响应变量中很大一部分的方差。例如，在表3.6中我们可以看到，对于广告数据，使用所有三种广告媒体来预测销售的模型的 $R^{2}$ 为0.8972。另一方面，仅使用电视和广播来预测销售量的模型的 $R^{2}$ 值为0.89719。换句话说，如果我们已经在包含电视和广播广告的模型中包括报纸广告，则 $R^{2}$ 会有小幅增长，即使我们早先看到表3.4中报纸广告的p值并不重要。事实证明，将更多的变量添加到模型中时， $R^{2}$ 总是会增加，即使这些变量与响应之间的关联很小。将报纸广告添加到仅包含电视和广播广告的模型中，导致 $R^{2}$ 的增加很小，这一事实表明报纸可以从模型中删除。从本质上讲，报纸没有对训练样本的模型进行任何实际改进，并且由于过度拟合，报纸的加入可能会导致独立测试样本的结果不佳。

相反，仅包含电视作为预测变量的模型的 $R^{2}$ 为0.61（表3.2）。向模型中添加无线电会大大改善 $R^{2}$ ，这意味着使用电视和广播支出来预测销售的模型要比仅使用电视广告的模型好得多。通过查看仅包含电视和广播预测变量的模型中的无线电系数的p值，我们可以进一步量化这种改进。

仅包含电视和广播作为预测变量的模型的RSE为1.681，还包含报纸作为预测变量的模型的RSE为1.686（表3.6），相反，仅包含TV的模型的RSE为3.26（表3.2），这证实了我们先前的结论：即使用电视和广播支出来预测销售的模型比仅使用电视支出的模型要准确得多（在训练数据上）。认真观察的读者可能会想，假设RSS必须减少，那么当将报纸添加到模型中时，RSE如何增加，在情况下通常，RSE定义为如下数学形式：

对于简单的线性回归，上述式子简化为（3.15），因此，如果RSS的减少相对于p的增加较小，则具有更多变量的模型可以具有较高的RSE。

图3.5 对于广告数据，线性回归适合使用电视和广播作为预测指标的销售。从残差的角度看，我们可以看到数据中存在明显的非线性关系。正残差（那些在表面上方可见的残差）倾向于沿着45度线分布，在此45度电视和广播预算平均分配。负残差（最不可见）倾向于远离预算更不平衡的那条线。

除了查看刚才讨论的 RSE 和 $R^{2}$ 统计信息外，对数据进行绘图也可能很有用，图形摘要可以揭示模型的问题，这些问题从数值统计中看不到。例如，图3.5显示了电视和广播与销售的三维关系图，我们看到一些观察值位于最小平方回归平面的上方，而某些观察值位于最小二乘回归平面的下方。尤其是，线性模型似乎高估了某些广告费用全部花在电视或广播上的情况下的销售额；对于预算在两种媒体之间分配的实例，它低估了销售额。这种明显的非线性模式无法使用线性回归精确建模，它暗示了广告媒体之间的协同效应或相互作用，从而将媒体结合在一起比使用任何一种单独的媒体都能带来更大的销售增长。在第3.3.2节中，我们将讨论通过使用交互项来扩展线性模型以适应这种协同效应。

四：预测（Four: Predictions）

一旦我们拟合了多元回归模型，就可以直接应用（3.21）来基于预测变量 $X_{1}$ ， $X_{2}$ ，...， $X_{p}$ 的一组值来预测响应，但是，与该预测相关的不确定性有三种：

1.系数估计值 $\tilde{\beta}_{0}$ ， $\tilde{\beta}_{1}$ ，...， $\tilde{\beta}_{p}$ 是对 $\beta_{0}$ ， $\beta_{1}$ ，...， $\beta_{p}$ 的估计，即最小二乘平面（e least squares plane ）

只是对如下所示的真实总体回归平面（true population regression plane）的估计：

系数估计中的不准确性与第2章中的可减少误差有关，我们可以计算一个置信区间，以确定 $\tilde{Y}$ 有多接近 f(X) 。

2.当然，在实践中，假设 f(X) 的线性模型几乎总是逼近现实，因此存在潜在的可减少误差的另一个来源，我们一般称其为模型偏差（model bias）。因此，当我们使用线性模型时，实际上是在估计与真实表面的最佳线性近似，但是，这里我们将忽略这种差异，并像线性模型一样进行操作。

3.即使我们知道 f(X) ，也就是说，即使我们知道 $\beta_{0}$ ， $\beta_{1}$ ，...， $\beta_{p}$ 的真实值，也不能完全预测响应值，因为模型中存在随机误差（3.21）。在第二篇文章中，我们将其作为不可减少的误差（irreducible error）。在回答“ 与 $\tilde{Y}$ 相差多少？”的问题时，我们可以使用预测间隔（prediction intervals）来回答这个问题，预测间隔总是比置信区间宽，因为它们既包含了 f(X) 估计中的误差（可归约误差），又包含了单个点与总体回归平面相差多少的不确定性（不可归约误差）。

我们使用置信区间（confidence interval）来量化围绕许多城市平均销售额的不确定性。例如，假设每个城市的电视广告支出为100,000美元，广播广告支出为20,000美元，则95％的置信区间为[10,985，11,528]。我们将其解释为意味着此表格的以95％的概率包含 f(X) 的真实值。另一方面，我们可以使用预测间隔（prediction interval）来量化围绕特定城市销售的不确定性。假设该城市的电视广告支出为$100,000，广播广告支出为$20,000，则95％的预测间隔为[7,930，14,580]。我们将此解释为表示此形式的间隔将以95%的概率包含Y的真实值。请注意，两个间隔均以11,256为中心，但是预测间隔远大于置信区间，这反映了与多个位置的平均销售额相比，给定城市的销售额不确定性增加。

3.3 回归模型中的其他注意事项

3.3.1 定性预测因子（Qualitative Predictors）

到目前为止，在我们的讨论中，我们都假设线性回归模型中的所有变量都是定量的，但实际上一些预测指标是定性的。

图3.6 信用数据集包含有关许多潜在客户的余额，年龄，卡，教育程度，收入，限额和等级的信息。

图3.6中显示的Credit数据集记录了余额（若干个人的平均信用卡债务）以及几个定量预测变量：年龄，卡数（信用卡数），教育程度（受教育年限），收入（千美元），限额（信用额度）和等级（信用等级）。图3.6的每个面板都是一对变量的散点图，其变量由相应的行和列标签给出。例如，单词“ Balance”右边的散点图描述了余额与年龄的关系，而“年龄”右边的散点图对应于年龄与卡数的关系。除了这些定量变量外，我们还具有四个定性变量：性别，学生（学生身份），地位（婚姻状况）和种族（白种人，非裔美国人或亚裔）。

只有两个级别的预测变量（Predictors with Only Two Levels）

假设我们希望调查男性和女性之间信用卡余额的差异，而暂时忽略其他变量，这时如果定性预测变量（也称为因子）只有两个级别或可能的值，那么将其合并到回归模型中非常简单。我们只需创建一个具有两个可能数值的指标或虚拟变量。例如，基于性别变量，我们可以创建一个新的变量，其形式如下所示：

并在回归方程中将此变量用作预测变量。结果就是如下所示的模型：

现在， $\beta_{0}$ 可解释为男性之间的平均信用卡债务， $\beta_{0}$ + $\beta_{1}$ 可解释为女性之间的平均信用卡债务，而 $\beta_{1}$ 可解释为女性和男性之间的信用卡债务平均差。

表3.7 最小二乘系数估计值与Credit数据集中的性别均衡回归相关，其线性模型在（3.27）中给出，即性别在（3.26）中被编码为虚拟变量。

表3.7显示了系数估计和与模型（3.27）相关的其他信息，男性的平均信用卡债务估计为$509.80，而女性的信用卡债务估计为$19.73，总债务为$509.80 + $19.73 = $529.53。但需要注意的是，虚拟变量的p值非常高，这表明没有统计证据表明性别之间的平均信用卡债务存在差异。

在（3.27）中将女性编码为1并将男性编码为0的决定是任意的，并且对回归拟合没有影响，但是确实改变了系数的解释。如果我们将男性编码为1，将女性编码为0，则对 $\beta_{0}$ 和 $\beta_{1}$ 的估计分别为529.53和-19.73，从而再次导致对信用卡债务的预测为$529.53-$19.73=$ 509.80，女性预计为$ 529.53。另外，如果想要代替0 / 1的编码方案，我们可以创建一个如下所示的虚拟变量（dummy variable）：

并在我们可以在回归方程中使用此变量，其结果是如下所示的模型：

现在， $\beta_{0}$ 可以解释为总体平均信用卡负债（忽略性别影响）， $\beta_{1}$ 是女性高于平均水平而男性低于平均水平的金额。在此示例中，对 $\beta_{0}$ 的估计为519.665美元，这个数值介于男性平均值509.80美元和女性529.53美元之间。 $\beta_{1}$ 的估计值为$ 9.865，是$19.73（女性与男性之间平均差异）的一半。无论使用哪种编码方案，男性和女性信贷余额的最终预测都将相同，其中唯一的区别在于系数的解释方式。

具有两个以上级别的定性预测变量（Qualitative Predictors with More than Two Levels）

当定性预测变量具有两个以上的级别时，单个虚拟变量不能代表所有可能的值，在这种情况下，我们可以创建其他虚拟变量。例如，对于种族变量，我们创建了两个虚拟变量，第一个为：

第二个：

然后可以在回归方程中使用这两个变量，以获得如下所示的模型：

现在， $\beta_{0}$ 可以解释为非裔美国人的平均信用卡余额， $\beta_{1}$ 可以解释为亚裔和非裔美国人类别之间的平均余额之差， $\beta_{2}$ 可以解释为白种人与非裔美国人之间的平均余额之差。我们可以发现虚拟变量总是比级别数少一个，没有虚拟变量的水平（在此示例中为非裔美国人）被称为基准（baseline）。

表3.8。与Credit数据集中的债务余额与种族回归相关的最小二乘系数估计，线性模型在（3.30）中给出。从图中可以看到，种族是通过两个虚拟变量（3.28）和（3.29）进行编码的。

从表3.8中可以看到，基线（非裔美国人）的估计余额为$531.00。据估计，亚洲类别的债务将比非裔美国人类别少18.69美元，而高加索类别的债务则比非裔美国人类别少12.50美元。但是，与两个虚拟变量的系数估计值相关的p值非常大，这表明没有统计证据表明种族之间的信用卡余额存在真正的差异。再次，选择作为基线类别的级别是任意的，并且无论此选择如何，每个组的最终预测都将相同，但是，系数及其p值确实取决于伪变量编码的选择。可以不使用F检验来检验 $H_{0}$ ： $\beta_{1}=\beta_{2}=0$ ;此F检验的p值为0.96，这表明我们不能拒绝零余额假设，即平衡与种族之间没有任何关系。

当结合定量和定性预测变量时，使用这种虚拟变量方法不会带来任何困难。例如，要在定量变量（例如收入）和定性变量（例如学生）上均实现回归平衡，我们必须简单地为研究者创建一个虚拟变量，然后使用收入和虚拟变量作为信用卡余额的预测变量来拟合多元回归模型。

除了此处采用的虚拟变量方法外，还有许多不同的编码定性变量的方法。所有这些方法都导致等效的模型拟合，但是系数不同并且具有不同的解释。

3.3.2 线性模型的扩展（Extensions of the Linear Model）

标准的线性回归模型（3.19）提供了可解释的结果，并且在许多现实世界中的问题上都非常有效。但是，它提出了一些在实践中经常被违反的严格限制的假设。最重要的两个假设指出，预测变量与响应之间的关系是可加的（additive）和线性的（linear）。加性假设意味着预测变量 $X_{j}$ 的变化对响应的影响独立于其他预测变量的值；线性假设表明，无论 $X_{j}$ 的值如何，由于 $X_{j}$ 的单位变化而导致的响应的变化都是恒定的。在这里，我们将简要地检查一些常见的经典方法来扩展线性模型。

删除可加性假设（Removing the Additive Assumption）

在我们先前对广告数据的分析中，我们得出结论，即电视和广播似乎都与销售有关。构成该结论基础的线性模型假设，增加一种广告媒体对销售的影响与在其他媒体上花费的金额无关。例如，线性模型（3.20）指出，电视广播每单位销量增长的平均效果始终为 $\beta_{1}$ ，而与广播上的支出无关。

但是，此简单模型可能并不正确。假设花在广播广告上的钱实际上提高了电视广告的有效性，那么电视的斜率应该随着广播的增加而增加。在这种情况下，如果固定预算为100,000美元，则在广播上花费一半，在电视上花费一半可以使销售增加的数值应该超过将全部金额分配给电视或广播使销售增加的数值。在营销中，这被称为协同效应，而在统计中，它被称为交互效应（synergy effect），而图3.5表明这种效果可能出现在广告数据中。需要注意的是，当电视或收音机的水平较低时，实际销售额将低于线性模型的预测；但是，当广告在两种媒体之间分配时，该模型往往会低估销售额。

我们来考虑下带有两个变量的标准线性回归模型，其形式如下：

根据该模型，如果我们将 $X_{1}$ 增加1个单位，则将平均增加 $\beta_{1}$ 个单位。请注意， $X_{2}$ 的存在也不会改变该变化，也就是说，无论 $X_{2}$ 的值如何， $X_{1}$ 的单位增加都会导致的 $\beta_{1}$ 单位增加。扩展此模型以允许交互作用的一种方法是包括一个称为交互项（interaction term）的第三预测变量，该变量通过计算X1和X2的乘积来构造，其模型如下所示：

包含此相互作用项如何使加法假设的条件放宽呢？此时（3.31）可以重写为如下形式：

其中 $\tilde{\beta}_{1}$ （注意，这里是真的波浪线符号）= $\beta_{1}$ + $\beta_{3}X_{2}$ 。由于 $\tilde{\beta}_{1}$ 随着 $X_{2}$ 的变化而变化，因此 $X_{1}$ 对的影响不再恒定：调整 $X_{2}$ 将改变 $X_{1}$ 对的影响。

例如，假设我们对研究工厂的生产率感兴趣，我们希望根据生产线的数量和工人总数来预测生产的单位数量。增加生产线数量的效果似乎取决于工人的数量，因为如果没有工人可用，操作生产线，然后增加生产线数量不会增加产量，这表明在线性模型中包括生产线和工人之间的相互作用项以预测单位是适当的。假设我们拟合模型时，可以获得如下所示的函数：

换句话说，增加一条生产线将增加3.4 + 1.4×工人的生产数量，因此，我们拥有的工人越多，线条的效果就会越强。

现在我们回到广告示例，使用广播，电视以及两者之间的相互作用来预测销售的线性模型形成了如下表达式：

我们可以将 $\beta_{3}$ 解释为无线电广告每增加1个单位（反之亦然），电视广告的有效性将会提高，表3.9给出了由拟合模型（3.33）得出的系数：

表3.9 对于广告数据，具有交互项的最小平方系数估计与电视和广播上的销售回归相关联，如（3.33）所示。

表3.9中的结果表明，包含交互作用项的模型要优于仅包含主要作用（main effect）的模型。交互作用项的TV✖radio值的p值极低，表明有很强的证据表明 $H_{a}：\beta_{3}\ne0$ ，换句话说，真实的关系不是可加的。（3.33）模型的 $R^{2}$ 为96.8％，相比之下，使用电视和无线电广告预测销售而没有交互项的模型的 $R^{2}$ 只有89.7％。这意味着（96.8-89.7）/（100-89.7）=69%，即拟合加性模型后剩余的销售变异性的69％已由交互项解释。表3.9中的系数估计值表明，电视广告的增加$1,000与（ $\tilde{\beta}_{1}$ + $\tilde{\beta}_{3}$ ×广播）×1,000 = 19 + 1.1×广播单元的销售增加相关。广播广告增加$1,000会带来（ $\tilde{\beta}_{2}$ + $\tilde{\beta}_{3}$ ×电视）×1,000 =29 +1.1×电视单位的销售增长。

在此示例中，与电视，广播和交互作用项相关联的p值在统计上都是有意义的（表3.9），因此，所有三个变量都应包括在模型中。但是，有时交互项的p值很小，但相关的主要效果（在这种情况下是电视和广播）则没有。分层原则（hierarchical principle）指出，如果我们在模型中包括交互作用，则即使与系数相关的p值不显着，我们也应包括主效应（if we include interaction in a model, we should also include the main effects, even if the p-values associated with their coefficients are not significant）。换句话说，如果 $X_{1}$ 和 $X_{2}$ 之间的相互作用似乎很重要，那么即使 $X_{1}$ 和 $X_{2}$ 的系数估计值具有较大的p值，我们也应将 $X_{1}$ 和 $X_{2}$ 都包括在模型中。此原理的合理性是，如果 $X_{1}$ × $X_{2}$ 与响应有关，那么 $X_{1}$ 或 $X_{2}$ 的系数是否正好为零就无关紧要了。另外， $X_{1}$ × $X_{2}$ 通常与 $X_{1}$ 和 $X_{2}$ 相关，而将它们隐藏起来往往会改变交互的含义。

在前面的示例中，我们考虑了电视和广播之间的相互作用，两者都是定量变量，但是，交互作用的概念同样适用于定性变量，也适用于定量和定性变量的组合。实际上，定性变量和定量变量之间的相互作用具有特别好的解释。我们重新考虑3.3.1节中的信用数据集，并假设我们希望使用收入（定量）和学生（质性）变量来预测债务余额，在没有交互项的情况下，模型采用以下形式来表现：

请注意，这相当于将两条平行线拟合到数据，一条用于学生，另一条用于非学生。学生和非学生的直线的截距不同，一个是 $\beta_{0}+\beta_{2}$ ，而另一个是 $\beta_{0}$ ，但两者斜率相同，即都是 $\beta_{1}$ 。

图3.7 对于“学分”数据显示了最小二乘线，同时用于预测学生和非学生的收入余额。左：适合模型（3.34），即收入和学生之间没有相互作用。右：合适。模型（3.35），即收入和学生之间有一个交互作用。

如上图所示，图3.7的左侧面板对此进行了说明。两条线是平行的事实意味着对单位收入增加的平均平衡影响并不取决于个人是否为学生，这代表了该模型的潜在严重局限，因为实际上收入的变化可能对学生和非学生的信用卡余额有非常不同的影响。

现在模型变为了如下形式：

这一次，我们为学生和非学生提供了两条不同的回归线，但是现在这些回归线具有不同的截距，即 $\beta_{0}+\beta_{1}$ 与 $\beta_{0}$ ，以及不同的斜率， $\beta_{1}+\beta_{3}$ 与 $\beta_{1}$ ，这使得收入的变化可能会不同地影响学生和非学生的信用卡余额。图3.7的右侧面板显示了模型中学生和非学生的收入与余额之间的估计关系（3.35），我们注意到学生的斜率低于非学生的斜率，这表明与非学生相比，收入的增加与学生之间信用卡余额的增加量较小有关。

非线性关系（Non-linear Relationships）

如前文所述，线性回归模型（3.19）假设响应和预测变量之间存在线性关系，但是在某些情况下，响应和预测变量之间的真实关系可能是非线性的。在这里，我们提供了一种使用多项式回归直接扩展线性模型以适应非线性关系的简单方法，在后面的章节中，我们将介绍在更一般的设置中执行非线性拟合的更复杂的方法。

图3.8 自动数据集。对于许多汽车，显示了mpg和马力。线性回归拟合以橙色显示。包含马力2的模型的线性回归拟合显示为蓝色曲线。绿色显示了包含所有马力多项式直至五次方的模型的线性回归拟合。

如图3.8所示，其在“自动”数据集中显示了许多汽车的mpg（汽油英里数/加仑），橙色线表示线性回归拟合。mpg和马力之间存在明显的关系，但显然这种关系实际上是非线性的：数据表明存在曲线关系，用于将非线性关联合并到线性模型中的简单方法是在模型中包括预测变量的转换版本。例如，图3.8中的点似乎具有二次形状，这表明该形式的模型如下所示：

上述模型可能会提供更好的契合度，公式3.36涉及使用马力的非线性函数预测mpg，但这仍然是线性模型！也就是说，（3.36）只是一个多元线性回归模型，其中X1 =马力，X2 =马力的平方。因此，我们可以使用标准的线性回归软件来估计 $\beta_{0}$ ， $\beta_{1}$ 和 $\beta_{2}$ ，从而产生非线性拟合，图3.8中的蓝色曲线显示了对数据的二次拟合。

表3.10 对于自动数据集，最小二乘系数估计与mpg回归为马力和马力的平方有关。

二次拟合似乎比仅包含线性项时获得的拟合更好，二次拟合的 $R^{2}$ 为0.688，而线性拟合的 $R^{2}$ 为0.606，表3.10中二次项的p值非常重要。

如果包括马力的平方导致模型有如此大的改进，为什么不包括马力的三次方，马力的四次方甚至马力的五次方？图3.8中的绿色曲线显示了将所有多项式包括到模型中的五次方（3.36）所得到的拟合。产生的拟合似乎令人费解，我们不清楚包含附加次方的马力是否真的能更好地拟合数据。

我们刚才描述的用于扩展线性模型以适应非线性关系的方法称为多项式回归（polynomial regression），因为我们已将预测变量的多项式函数包括在回归模型中，我们将在第7篇文章中进一步探讨这种方法以及线性模型的其他非线性扩展。

3.3.3 潜在问题

当我们将线性回归模型拟合到特定数据集时，可能会出现许多问题。其中最常见的是以下六个：

响应预测器关系的非线性。误差项的相关性。误差项的非恒定变化。异常值。高杠杆点。共线性。

在实践中，识别和克服这些问题是一门科学，关于这一主题，学者已经撰写了无数书籍中的许多页面。由于此处不是线性回归模型的主要重点，因此我们将仅简要概述一些关键点。

1.数据的非线性（Non-linearity of the Data）

线性回归模型假设预测变量和响应之间存在直线关系，如果真正的关系远不是线性的，那么我们从拟合中得出的几乎所有结论都是可疑的，而且可能显着降低模型的预测准确性。

残差图（Residual plots）是识别非线性的有用图形工具。假设给定一个简单的线性回归模型，我们可以绘制残差 $e_{i}=y_{i}-\tilde{y}_{i}$ 与预测值 $x_{i}$ 的关系。在多元回归模型的情况下，由于存在多个预测变量，因此我们将残差相对于预测值（或拟合值 fitted value） $\tilde{y}_{i}$ 作图。理想情况下，残差图不会显示可辨别的模式，模式的存在可能表明线性模型的某些方面存在问题。

图3.9 自动数据集的残差与预测（或拟合）值的关系图。在每个图中，红线与残差平滑拟合，旨在使其更容易识别趋势。左：mpg对马力的线性回归。残差中的强模式表示数据中的非线性。右：mpg对马力和马力的平方的线性回归，残差很少。

图3.9的左面板显示了mpg线性回归到Auto数据集（图3.8所示）上的马力的残差图。红线是对残差的平滑拟合，显示它是为了使识别任何趋势更加容易，残差呈现清晰的U形，这强烈表明了数据中的非线性。相比之下，图3.9的右侧面板显示了由模型（3.36）产生的残差图，该残差图包含一个二次项，残差中似乎没有任何模式，这表明二次项可以改善对数据的拟合度。

如果残差图表明数据中存在非线性关联，则一种简单的方法是在回归模型中使用预测变量的非线性转换，例如 log X ， $\sqrt{X}$ 和 $X^{2}$ 。在本系列文章的后续章节中，我们将讨论用于解决此问题的其他更高级的非线性方法。

2.误差项的相关性（Correlation of Error Terms）

线性回归模型的一个重要假设是误差项 $\epsilon_{1}$ 、 $\epsilon_{2}$ ，...， $\epsilon_{n}$ 是不相关的。这是什么意思呢？例如，如果错误是不相关的，则 $\epsilon_{i}$ 为正的事实提供的信息很少或没有 $\epsilon_{i+1}$ 的符号信息。因为我们的假设为估计的回归系数或拟合值计算的标准误差与误差项不相关，如果实际上误差项之间存在相关性，则估计的标准误差将倾向于低估真实的标准误差，出现这种现象的结果是，置信度和预测间隔将比应有的更窄。例如，实际上95％的置信区间可能比包含参数真实值的0.95的概率要低得多。此外，与模型关联的p值将低于应有的值；这可能导致我们错误地得出结论。简而言之，如果误差项是相关的，则我们对模型的信任感可能会毫无根据。

举一个极端的例子，假设我们不小心将数据加倍，导致观察和误差项成对相同。如果我们忽略这一点，我们的标准误差计算就好像我们有一个大小为2n的样本，而实际上我们只有n个样本，但是对于2n个样本，我们估计的参数将与n个样本相同，但置信区间将缩小 $\sqrt{2}$ ！

为什么误差项之间会发生关联？这种相关性通常发生在时间序列数据的上下文中，该时间序列数据由在离散时间点获得测量值的观察组成。在许多情况下，在相邻时间点获得的观察值将具有正相关的误差。为了确定给定数据集是否属于这种情况，我们可以将模型中的残差绘制成时间的函数，如果误差是不相关的，则应该没有可识别的模式。另一方面，如果误差项是正相关的，那么我们可能会看到残差中的跟踪，也就是说，相邻残差可能具有相似的值。

图3.10 来自模拟时间序列数据集的残差图，其中相邻时间点的误差项之间的相关度ρ不同。

图3.10提供了一个说明，在顶部面板中，我们看到线性回归的残差拟合到具有不相关误差的数据，没有证据表明残差与时间呈趋势相关。相反，底部面板的残差来自数据集，其中相邻误差的相关性为0.9。现在，残差有一个清晰的模式，即相邻残差往往具有相似的值。最后，中间面板显示了一个更适度的情况，其中残差的相关性为0.5，其仍然有跟踪的证据，但模式尚不清楚。

3.误差项的非恒定变化（Non-constant Variance of Error Terms）

线性回归模型的另一个重要假设是误差项具有恒定的方差Var（ $\epsilon_{i}$ ）= $\sigma^{2}$ ，与线性模型相关的标准误差，置信区间和假设检验均基于此假设。

图3.11 残留图。在每个图中，红线与残差平滑吻合，旨在使趋势更容易识别。蓝线跟踪残差的外部分位数，并强调模式。左：漏斗形状表示异方差。右：响应已被对数转换，现在没有证据表明存在异方差。

不幸的是，通常误差项的方差是非恒定的，例如，误差项的方差可能随响应的值而增加。人们可以根据残差图中漏斗形状的存在来识别误差的非恒定方差或异方差。在图3.11的左侧面板中显示了一个示例，其中残差的大小趋于随拟合值增加，遇到此问题时，一种可能的解决方案是使用凹函数（例如 log Y 或 $\sqrt{Y}$ ）转换响应。这种转换导致较大响应的收缩量更大，从而导致异方差降低。图3.11的右侧面板显示了使用 log Y 转换响应后的残差图，这时残差似乎具有恒定的方差，我们可以认为这里有一些证据表明数据中存在轻微的非线性关系。

有时我们对每个响应的方差都有一个好的idea，例如，第i个响应可以是所有原始观测值 $n_{i}$ 的平均值，如果这些原始观测值中的每一个均与方差 $\sigma^{2}$ 不相关，则它们的平均值具有方差 $\sigma_{i}^{2}$ = $\sigma^{2}$ / $n_{i}$ 。在这种情况下，一种简单的补救方法是通过加权最小二乘法拟合我们的模型，权重与反方差成正比，即 $w_{i}=n_{i}$ ，而大多数线性回归软件都允许观察权重。

4.异常值（Outliers）

异常点（outlier）是 $y_{i}$ 远离模型预测的值的点，异常值可能由于多种原因而出现，例如在数据收集过程中对观察值的错误记录。

图3.12 左：最小二乘回归线显示为红色，去除异常值后的回归线显示为蓝色。中心：残差图清楚地标识了异常值。右：异常值的学生残差为6；通常，我们期望值在-3和3之间。

图3.12左侧面板中的红点（观察点20）说明了一个典型的异常值，红色实线是最小二乘回归拟合，而蓝色虚线是去除异常值后的最小二乘拟合。在这种情况下，移除异常值对最小二乘方线几乎没有影响：它几乎不会导致斜率发生变化，并且截距的减小很小。对于没有异常预测值的异常值，通常对最小二乘拟合几乎没有影响。但是，即使离群值对最小二乘拟合没有太大影响，也可能导致其他问题。例如，在此示例中，当异常值包含在回归中时，RSE为1.09，但是当离群值被删除时，RSE仅为0.77。由于RSE用于计算所有置信区间和p值，因此，由单个数据点引起的如此急剧的增加可能对拟合的解释产生影响。同样，包含异常值会使 $R^{2}$ 从0.892下降到0.805。

残差图可用于识别异常值。在此示例中，离群值在图3.12中心面板所示的残差图中清晰可见。但是实际上，在我们认为该点是异常值之前，可能很难决定残差需要达到多少。为了解决这个问题，我们可以绘制学生化残差（studentized residual），而不是绘制残差，方法是将每个残差ei除以其估计的标准误差来计算。学生残差的绝对值大于3的观测值可能是异常值。在图3.12的右侧面板中，异常值的学生化残差超过6，而所有其他观测值的学生化残差在-2和2之间。

如果我们认为由于数据收集或记录错误导致发生了异常值，则一种解决方案是简单地删除观察值，因为异常值可能表示模型存在缺陷。

5.高杠杆点

图3.13 左：观察值41是一个高杠杆点，而20则不是。红线是所有数据的拟合值，蓝线是除去了41的观察值的拟合值。中：红色观测值在X1值或X2值上并不罕见，但仍落在大部分数据之外，因此具有很高的杠杆作用。右：观察值41具有较高的杠杆作用和较高的残差。

我们只是看到异常值是在给定 $x_{i}$ 的情况下响应 $y_{i}$ 不寻常的观测值，相反，具有高杠杆作用的观测值对 $x_{i}$ 具有非同寻常的价值。例如，图3.13左侧面板中的观察值41具有很高的杠杆作用（high leverage），因为该观察值的预测值相对于其他观察值而言较大，（请注意，图3.13中显示的数据与图3.12中显示的数据相同，但增加了一个高杠杆观察值）红色实线是拟合数据的最小二乘，而蓝色虚线是拟合的数据当观察点41移开时产生。比较图3.12和3.13的左侧面板，我们可以观察到删除高杠杆率观测值对最小二乘法的影响要比删除异常值大得多。实际上，高杠杆率的观察往往会对估计的回归线产生相当大的影响。如果最小二乘方线受到仅几个观察值的严重影响，就值得我们去关注，因为这些点的任何问题都可能使整个拟合无效，因此，确定高杠杆率观察值很重要。

在简单的线性回归中，高杠杆率的观察值很容易识别，因为我们可以简单地查找预测值超出观察值正常范围的观察值。但是，在具有许多预测变量的多元线性回归中，有可能观察到的结果恰好在每个预测变量值的范围内，但是就整套预测变量而言，这是不寻常的。图3.13的中央面板中显示了一个示例，其中包含两个预测变量X1和X2。大多数观测值的预测值都在蓝色虚线椭圆之内，但是红色观测值远不在此范围内，但它对X1的值或对X2的值都不是异常，因此，如果仅检查X1或X2，我们将不会注意到这一高杠杆点。在具有两个以上预测变量的多重回归设置中，此问题更为明显，因为没有一种简单的方法可以同时绘制数据的所有维度。

为了量化观察的杠杆作用，我们计算了杠杆作用统计量（leverage statistic），此统计数据的较大值表示观察结果具有很高的杠杆作用。对于简单的线性回归，该数值可以通过如下数学等式计算得出：

从该方程式可以明显看出， $h_{i}$ 随 $x_{i}$ 与 $\bar{x}$ 的距离增加而增加。杠杆率统计值 $h_{i}$ 始终在1 / n和1之间，并且所有观察值的平均杠杆率始终等于（p +1）/ n。因此，如果给定观察值的杠杆率统计数据大大超过（p + 1）/ n，那么我们可能会怀疑对应点具有很高的杠杆率。

图3.13的右侧面板提供了图3.13左侧面板中数据的学生残差与 $h_{i}$ 的关系图，其中观察值41具有很高的杠杆率统计数据以及很高的学生化残差。换句话说，它既是异常值，也是高杠杆率的观察值，这是一个特别危险的组合！该图还揭示了观察值20对图3.12的最小二乘拟合影响较小的原因：它的杠杆率低。

6.共线性（Collinearity）

图3.14 信用数据集中的观察结果散点图。左：年龄与极限的关系图，这两个变量不是共线的。右：等级与极限的关系图，这两个变量共线性度高。

共线性（Collinearity）是指两个或多个预测变量彼此紧密相关的情况，图3.14使用信用卡数据集说明了共线性的概念。在图3.14的左侧面板中，两个预测变量的极限和年龄似乎没有明显的关系，相比之下，在图3.14的右侧面板中，预测变量的极限和等级彼此之间高度相关，我们这时可以说它们是共线的。共线性的存在会在回归上下过程中引起问题，因为可能很难区分出共线性变量对响应的各个影响。换句话说，由于界限和等级往往会一起增加或减少，因此很难确定每个人如何分别与响应，平衡相关联。

图3.15 RSS值的等高线图是涉及Credit数据集的各种回归的参数β的函数。在每个图中，黑点表示对应于最小RSS的系数值。左：RSS的等高线图，用于将余额回归到年龄和限制上，其中最小值已明确定义。右：RSS的等高线图，用于将余额回归到额定和极限上，由于共线性，存在许多RSS值相似的对。

图3.15说明了共线性可能导致的一些困难，图3.15的左侧面板是RSS（3.22）的等高线图，它与极限和年龄平衡的回归的不同可能的系数估计相关。每个椭圆表示一组与同一RSS相对应的系数，其中距中心最近的椭圆占RSS的最小值。黑点和相关的虚线表示得出可能的最小RSS系数的系数估计值，换句话说，这些是最小二乘估计值。限制和年龄轴已缩放，以便该图包括可能的系数估计，最小二乘估计的任一侧最多可包含四个标准误差。因此，该图包括所有可能的系数值。例如，我们看到真正的极限系数几乎可以确定在0.15和0.20之间。

相比之下，图3.15的右侧面板显示了RSS的等高线图，它与可能的系数估计值相关，以将平衡回归到极限和等级上，我们知道这是高度共线的，因为系数估计值的取值范围广泛，导致RSS的值相等。因此，数据的微小变化可能导致一对产生最小RSS（即最小二乘估计值）的系数值沿着该谷移动到任何位置，这导致系数估计中的大量不确定性。需要注意的是，极限系数的标度现在从大约0.2到0.2；与年龄的回归相比，这是极限系数合理范围内的八倍增长。有趣的是，尽管极限系数和额定系数现在具有更多的不确定性，但它们几乎肯定会位于轮廓谷中的某个位置。例如，我们不希望极限系数和额定系数的真实值分别为0.1和1，即使对于每个系数而言，这样的值是合理的。

由于共线性降低了回归系数估计的准确性，因此导致 $\tilde{\beta}_{j}$ 的标准误差增大，这是因为每个预测变量的t统计量是通过将 $\tilde{\beta}_{j}$ 除以其标准误差来计算的，因此，共线性导致t统计量下降。结果，在共线性的情况下，我们可能无法拒绝 $H_{0}：\beta_{j}=0$ ，这意味着假设检验的功效/power（正确检测到非零系数的概率）会由于共线性而降低。

表3.11 显示了涉及信用数据集的两个多元回归模型的结果。模型1是年龄和界限平衡的回归，模型2是等级和界限平衡的回归。由于共线性，β极限的标准误差在第二次回归中增加了12倍。

表3.11比较了从两个单独的多元回归模型获得的系数估计，第一个是年龄和界限平衡的回归，第二个是等级和界限平衡的回归。在第一回归中，年龄和限制都非常重要，p值很小。在第二个回归中，极限和额定值之间的共线性导致极限系数估计的标准误差增加了12倍，p值增加到0.701。换句话说，由于共线性的存在，限制了极限变量的重要性。为避免这种情况，我们希望在拟合模型的同时识别并解决潜在的共线性问题。

检测共线性的一种简单方法是查看预测变量的相关矩阵，此矩阵的绝对值很大的元素表示一对高度相关的变量，因此表示数据中的共线性问题。不幸的是，并非所有的共线性问题都可以通过检查相关矩阵来检测到：即使没有一对变量具有特别高的相关性，三个或更多变量之间也可能存在共线性，我们称这种情况为多重共线性（multicollinearity）。代替检查相关矩阵，评估多重共线性的更好方法是计算方差膨胀因子（variance inflation factor/VIF）。VIF是拟合整个模型时 $\tilde{\beta}_{j}$ 的方差除以 $\tilde{\beta}_{j}$ （如果单独拟合）的方差的比率，VIF的最小可能值为1，其表示完全没有共线性。通常在实践中，预测变量之间存在少量共线性。通常，VIF值超过5或10表示共线性度有问题。我们可以使用以下公式计算每个变量的VIF：

其中 $R_{X_{j}|X_{-j}}^{2}$ 是 $X_{j}$ 回归到所有其他预测变量上的 $R^{2}$ ，如果 $R_{X_{j}|X_{-j}}^{2}$ 接近于1，则存在共线性，因此VIF将很大。

在Credit数据中，年龄，等级和限制之间的平衡回归表明，预测变量的VIF值为1.01、160.67和160.59。正如我们所怀疑的那样，数据中存在相当大的共线性！

面对共线性问题，有两种简单的解决方案。首先是从回归中删除一个有问题的变量，由于共线性的存在意味着该变量提供的有关响应的信息在存在其他变量的情况下是多余的，因此通常可以在不对回归拟合有太多折衷的情况下完成此操作。例如，如果我们在没有评级预测变量的情况下将余额回归到年龄和限制，则最终的VIF值接近最小可能值1， $R^{2}$ 从0.754下降到0.75。在不影响拟合度的情况下解决了共线性问题。第二种解决方案是将共线变量组合在一起成为单个预测变量，例如，我们可以取极限和费率的标准化版本的平均值，以便创建一个衡量信用度的新变量。

3.4 营销计划

现在，我们简要地返回关于广告数据的七个问题，我们将在本章开始时回答这些问题。

1.广告销售与预算之间是否有关系？

如（3.20）所示，我们可以通过在电视，广播和报纸上拟合销售的多元回归模型并检验假设 $H_{0}：\beta_{TV}=\beta_{radio}=\beta_{newspaper}=0$ ，从而来回答这个问题。在3.2.2节中，我们表明F统计量可用于确定我们是否应该拒绝该原假设，在这种情况下，与表3.6中的F统计量相对应的p值非常低，表明广告和销售之间存在关联的明确证据。

2.这种关系有多牢固？

我们在第3.1.3节中讨论了两种模型准确性的度量。首先，RSE是从人口回归线估计响应的标准偏差，对于广告数据，RSE为1,681单位，而响应的平均值为14,022，表明百分比误差约为12％。其次， $R^{2}$ 统计数据记录了预测变量所解释的响应变异性百分比，预测变量解释了几乎90％的方差销售，RSE和 $R^{2}$ 统计信息显示在表3.6中。

3.哪些媒体有助于销售？

为了回答这个问题，我们可以检查与每个预测变量的t统计量相关的p值（第3.1.2节）。在表3.4中显示的多元线性回归中，电视和广播电台的p值较低，而报纸的p值则较低，这表明只有电视和广播与销售有关。在第6篇文章中，我们将探讨这个问题的更多细节。

4.每种媒介对销售的影响有多大？

我们在3.1.2节中看到， $\tilde{\beta}_{j}$ 的标准误可用于构造 $\beta_{j}$ 的置信区间。对于广告数据，95％置信区间如下：电视（0.043，0.049），广播（0.172，0.206），报纸（-0.013，0.011）。电视和广播的置信区间很窄，远非零，这证明这些媒体与销售有关。但是报纸的时间间隔包括零，表明该变量在电视和电台的值给定下在统计上不显着。

我们在3.3.3节中看到，共线性会导致很大的标准误差。共线性是否可能是与报纸相关的置信区间如此宽泛的原因？电视，广播和报纸的VIF得分分别为1.005、1.145和1.145，这表明没有共线性的证据。

为了评估每种媒介在销售中的关联，我们可以执行三个单独的简单线性回归。结果示于表3.1和3.3。有证据表明，电视与销售之间以及广播与销售之间有着非常紧密的联系，当电视和广播的价值被忽略时，报纸和销售之间的联系会很温和。

5.我们如何准确地预测未来的销售？

我们可以使用（3.21）预测响应，与该估计相关的准确性取决于我们是否希望预测单个响应Y = f（X）+ $\epsilon$ ，或是平均响应f（X）（第3.2.2节）。如果是前者，则使用预测区间；如果是后者，则使用置信区间。预测间隔将始终比置信区间宽，因为它们考虑了与不可约误差相关的不确定性。

6.关系是线性的吗？

在3.3.3节中，我们看到可以使用残差图来识别非线性。如果关系是线性的，则残留图不应显示任何图案。对于广告数据，我们在图3.5中观察到了非线性影响，尽管在残留图中也可以观察到这种影响。在3.3.2节中，我们讨论了线性回归模型中预测变量的转换是否包含在内，以适应非线性关系。

7.广告媒体之间是否存在协同作用？

标准线性回归模型假设预测变量和响应之间存在加性关系，加性模型易于解释，因为每个预测变量对响应的影响与其他预测变量的值无关。但是，对于某些数据集，加性假设可能是不现实的。在3.3.2节中，我们展示了如何在回归模型中包括一个交互项，以适应非加性关系。与交互作用项相关的小p值表示存在这种关系，而图3.5建议广告数据不能相加，在模型中包含一个交互项会导致R2从大约90％大幅增加到几乎97％。

3.5 线性回归与K最近邻的比较

正如我们在第2篇文章中所述，线性回归是参数方法的一个示例，因为它假设f（X）的线性函数形式。参数化方法具有几个优点：它们通常很容易拟合，因为仅估计少量系数。在线性回归的情况下，系数具有简单的解释，并且可以容易地进行统计显着性检验。但是参数方法确实有一个缺点：通过构造，它们对f（X）的形式做出了强有力的假设，如果指定的函数形式与事实相去甚远，并且预测精度是我们的目标，则参数方法的效果会很差。例如，如果我们假设X和Y之间存在线性关系，但真正的关系远非线性，那么结果模型将无法很好地拟合数据，并且从中得出的任何结论都是可疑的。

相反，非参数方法没有明确假设f（X）的参数形式，从而为执行回归提供了另一种更灵活的方法，我们在本系列文章中讨论了各种非参数方法。在这里，我们考虑最简单，最著名的非参数方法之一，即K近邻回归（K-nearest neighbors regression/KNN回归）。

KNN回归方法与第2篇文章中讨论的KNN分类器密切相关。假设给定K的值和预测点 $x_{0}$ ，KNN回归首先确定最接近 $x_{0}$ 的K个训练观测值，用 $N_{0}$ 表示。然后，它使用 $N_{0}$ 中所有训练响应的平均值来估计f（ $x_{0}$ ），即可以通过如下数学等式计算得出：

图3.16 使用KNN回归在64个观测值（橙色点）的二维数据集上绘制f（X）的图。左：K = 1导致粗步函数拟合；右：K = 9会产生更平滑的拟合。

图3.16说明了在p = 2个预测变量的数据集上的两个KNN拟合，K = 1的拟合显示在左侧面板中，而右面板对应于K = 9。我们看到当K = 1时，KNN拟合完美地内插了训练观测值，因此采取阶跃函数的形式。当K = 9时，KNN拟合仍然是一个阶跃函数，但是对9个观测值求平均会得到较小的恒定预测区域，从而使拟合更平滑。通常，K的最佳值将取决于我们在第2篇文章中介绍的偏差-方差权衡（bias-variance tradeoff），较小的K值将提供最灵活的拟合，偏差小但方差大。产生这种差异的原因是，给定区域中的预测完全取决于一个观测值。相反，K值越大，拟合越平滑，变量变化就越小。一个区域的预测平均为几个点，因此改变一个观测值的影响较小。但是，平滑可能会通过掩盖f（X）中的某些结构而导致偏差。在第5篇文章中，我们将介绍几种估计测试错误率的方法，这些方法可用于识别KNN回归中K的最佳值。

最小二乘线性回归等参数方法在什么情况下会胜过KNN回归等非参数方法？答案很简单：如果选择的参数形式接近的真实形式，则参数方法将胜过非参数方法（the parametric approach will outperform the nonparametric approach if the parametric form that has been selected is closeto the true form of f）。

图3.17 在具有100个观测值的一维数据集上使用KNN回归绘制f^（X）的图，真正的关系由黑色实线给出。左：蓝色曲线对应于K = 1训练数据。右：蓝色曲线对应于K = 9，线条更平滑。

图3.17提供了一个由一维线性回归模型生成的数据的示例，图中黑色实线代表f（X），而蓝色曲线对应于使用K = 1和K = 9的KNN拟合。在这种情况下，K = 1的预测值变化太大，而更平滑的K = 9的拟合值更接近到f（X）。但是，由于真实关系是线性的，因此非参数方法很难与线性回归竞争：非参数方法会产生方差，而方差不会被偏差的减少所抵消。

图3.18 进一步研究了图3.17所示的相同数据集。左：蓝色虚线是拟合数据的最小二乘法。由于f（X）实际上是线性的（显示为黑线），因此最小二乘回归线可以很好地估计f（X）。右：水平虚线表示最小二乘方测试集MSE，而绿色实线对应于KNN的MSE，是1 / K的函数（在对数刻度上）。

图3.18左侧面板中的蓝色虚线表示对相同数据的线性回归拟合，这几乎是完美的。图3.18的右侧面板显示，对于该数据，线性回归优于KNN。绿色实线绘制为1 / K的函数，代表KNN的测试集均方误差（MSE）。 KNN误差远高于黑色虚线，当K的值较大时，就MSE而言，KNN的表现仅比最小二乘回归差一点；而当K较小时，KNN的表现要差得多。

图3.19 左上角：在X和Y之间的关系略微非线性（黑色实线）的情况下，用KNN拟合了K = 1（蓝色）和K = 9（红色）。右上：对于稍微非线性的数据，将显示最小二乘回归（水平黑色）和KNN（具有各种值1 / K（绿色））的测试集MSE。左下方和右下方：与顶部面板相同，但X和Y之间存在强烈的非线性关系。

图3.18和3.19显示了当关系为线性时，KNN的效果比线性回归差的情况，但是对于非线性情况，其效果要好于线性回归。在真实关系未知的现实生活中，人们可能会得出这样的结论：应该优先考虑KNN而不是线性回归，因为如果真实关系是线性的，它在最坏的情况下会比线性回归稍差，而如果真实关系是非线性的，则可能会给出更好的结果。但是实际上，即使真正的关系是高度非线性的，KNN仍可能会为线性回归提供较差的结果。特别是，图3.18和3.19都说明了p = 1预测变量的设置，但是在更高维度上，KNN的性能通常比线性回归差。

图3.20 随着变量p的增加，测试MSE的线性回归（黑色虚线）和KNN（绿色曲线）的变化。真正的函数在第一个变量中是非线性的，如图3.19的下部面板中所示，并且不依赖于其他变量。在存在这些附加噪声变量的情况下，线性回归的性能会缓慢下降，而随着p的增加，KNN的性能下降会更快。

图3.20考虑了与图3.19第二行相同的强烈非线性情况，只是我们添加了与响应无关的其他噪声预测器。当p = 1或p = 2时，KNN优于线性回归。但是对于p = 3，结果是混合的，而对于p≥4，线性回归优于KNN。实际上，增加的维数仅导致线性回归测试集MSE的小幅下降，但导致KNN的MSE增长超过十倍。随着维数的增加，性能的下降是KNN的一个常见问题，这是由于在较大的维数中有效地减少了样本大小。在此数据集中，有100个训练观察值。当p = 1时，这提供了足够的信息来准确估计f（X）。但是，将100个观测值分布在p = 20维上会导致一种现象，即给定的观测值与附近没有人相邻-这就是所谓的维数诅咒（curse of dimensionality）。也就是说，当p大时，最接近给定测试观察值 $x_{0}$ 的K个观察值在p维空间中可能与 $x_{0}$ 距离很远，从而导致f（ $x_{0}$ ）的预测非常差，因此KNN拟合差。通常，当每个预测变量的观测值较少时，参数方法往往会胜过非参数方法。

即使在维数较小的问题中，从可解释性的角度来看，我们可能更喜欢线性回归而不是KNN。如果KNN的检验MSE仅略低于线性回归的检验，我们可能会愿意放弃一个简单的预测精度。

【本文地址】

统计学习（Statistical Learning） 3：线性回归

统计学习（Statistical Learning） 3：线性回归

今日新闻

推荐新闻