统计学习(Statistical Learning) 3:线性回归 |
您所在的位置:网站首页 › r语言gls估计如何让误差项相关联 › 统计学习(Statistical Learning) 3:线性回归 |
本文参考书籍《An Introduction to Statistical Learning》[1] 本篇文章是关于线性回归的,这是一种用于监督学习的非常简单的方法,线性回归是预测定量响应的有用工具。线性回归已经存在了很长时间,并且是无数教科书的主题,尽管与本系列文章后面章节中介绍的一些更现代的统计学习方法相比,似乎线性回归有些沉闷,但线性回归仍然是一种有用且广泛使用的统计学习方法。在本篇文章中,我们回顾了线性回归模型的一些关键思想,以及最常用于拟合该模型的最小二乘法。 回顾第二章中的广告数据,图2.1显示了特定产品的销售额(以千为单位),它是电视,广播和报纸媒体的广告预算(以千美元为单位)的函数。假设以我们作为统计的角色,我们要求顾问根据这些数据为明年的营销计划提供建议,从而获得较高的产品销售,那么哪些信息对提供这样的建议有用? 以下是我们可能要解决的一些重要问题: 1.广告预算和销售之间是否有关系? 我们的首要目标应该是确定数据是否提供了广告支出与销售之间的联系的证据,如果证据不充分,则广告可能并无效果。 2.广告预算和销售之间的关系有多牢固? 假设广告和销售之间存在某种关系,我们想知道这种关系的强弱,换句话说,在给定一定的广告预算的情况下,我们可以高精度地预测销售量吗? 3.哪些媒体有助于销售? 电视,广播和报纸这三种媒体都对销售额有贡献,还是其中一种或两种媒体才有贡献? 为了回答这个问题,当我们在所有三种媒体上花钱时,我们必须找到一种方法来区分每种媒介的个别效果。 4.我们如何准确估计每种媒介对销售的影响? 在特定媒体上,每在广告上花费的每一美元,销售额就会增加多少? 我们如何准确地预测这一增长量? 5.我们如何准确地预测未来的销售? 对于任何给定水平的电视,广播或报纸广告,我们对销售的预测是什么?该预测的准确性是什么? 6.关系是线性的吗? 如果各种媒体上的广告支出与销售额之间大约存在直线关系,则线性回归是一种合适的工具; 如果没有,那么仍然有可能转换预测变量或响应,以便可以使用线性回归。 7.广告媒体之间是否存在协同作用? 与分别为电视或广播分配100,000美元相比,在电视广告上花费50,000美元和在电台广告上花费50,000美元可能会带来更多的销售额。在营销中,这被称为协同效应(synergy effect),而在统计中,它被称为互动效应(interaction effect)。 事实证明,线性回归可以用来回答这些问题,我们将首先在一般情况下讨论所有这些问题,然后在第3.4节中在特定情况下再次讨论它们。 3.1 简单线性回归 简单的线性回归(Simple linear regression)就如其名:它是一种基于单个预测变量X来预测定量响应Y的非常简单的方法。它假定X和Y之间存在近似线性关系,这种线性关系如下所示: ![]() 您可能将“≈”读为“近似建模为”,有时我们说(3.1)是说我们在X上将Y回归(或Y到X),例如,X可以代表电视广告,Y可以代表销售,然后可以通过拟合模型将销售回归到电视上,如下所示: ![]() 在公式3.1中, ![]() 其中 3.1.1估算系数 实际上, 令 ![]() 或者为另外一种表现形式: ![]() 最小二乘法选择 ![]() 其中 ![]() 图3.1显示了对广告数据的简单线性回归拟合,其中 ![]() 在图3.2中,我们使用以销售额为响应,以电视为预测指标的广告数据,针对多个 3.1.2 评估系数估计的准确性(Assessing the Accuracy of the Coefficient Estimates) 我们把目光回到(2.1),假定对于某些未知函数 ![]() 在上式中, ![]() 由(3.5)给出的模型定义了总体回归线(population regression line),它是对X和Y之间真实关系的最佳线性近似。最小二乘回归系数估计值(3.4)表示了最小二乘线(least squares line)(3.2),图3.3的左侧面板在一个简单的模拟示例中显示了这两条线,我们创建了100个随机X,并从模型中生成了100个对应的Y,而模型的数学表达式则如下所示: ![]() 上式中 乍看之下,总体回归线和最小二乘线之间的差异似乎有些微妙,我们只有一个数据集,那么两条不同的线描述预测变量和响应之间的关系是什么意思?从根本上讲,这两条线的概念是对标准统计方法的自然扩展,该方法使用样本中的信息来估计大量人口的特征。例如,假设我们对了解某个随机变量Y的总体均值μ感兴趣。不幸的是,μ是未知的,但是我们确实可以访问Y的n个观测值,我们可以将其写为 基于偏差(bias)的概念,线性回归与随机变量均值估计之间的类比是恰当的,如果我们使用样本均值 假设我们继续对随机变量 ![]() 上述式子中σ是Y的每个实现 ![]() 上式中 标准误差可用于计算置信区间(confidence intervals),95%置信区间定义为一个概率为95%的值范围,该范围将包含参数的真实未知值。该范围是根据从数据样本计算出的上下限来定义的,对于线性回归, ![]() 也就是说,下述区间大约有95%的机会包含真实未知值: ![]() 即上述范围内有95%的概率将包含 ![]() 对于广告数据, 标准误差也可以用于对系数进行假设检验(hypothesis tests),最常见的假设检验涉及检验的原假设(null test hypothesis),如下所示: ![]() 与替代假设(alternative hypothesis),如下所示: ![]() 从数学上讲,这对应于如下两种测试: ![]() 因为如果 ![]() t统计量能够测量 ![]() 表3.1提供了用于广告数据的电视广告预算中售出单位数量回归的最小二乘模型的详细信息。需要注意的是, 3.1.3 评估模型的准确性 一旦我们拒绝了原假设(3.12)而支持替代假设(3.13),自然就需要对模型拟合数据的程度进行量化,线性回归拟合的质量通常使用两个相关量进行评估:残差标准误差(residual standard error/RSE)和 ![]() 表3.2显示了电视广告预算中售出单位数量的线性回归的 残留标准误差(Residual Standard Error) 大家可以从模型(3.5)中开始回顾,与每个观察相关的是一个错误项 ![]() 请注意,RSS在3.1.1节中定义,并由如下公式算出: ![]() 对于广告数据,从表3.2的线性回归输出中可以看到,RSE为3.26。换句话说,每个市场的实际销售量平均偏离真实回归线约3,260个单位。考虑这一点的另一种方法是,即使模型是正确的并且未知系数 RSE被认为是模型(3.5)对数据缺乏拟合的一种度量,如果使用该模型获得的预测非常接近真实结果值(即,i = 1,...,n时,
RSE提供了一种绝对量度,从而能够来衡量模型(3.5)是否适合数据。 但是,由于它是以Y为单位进行度量的,因此始终不清楚什么构成了良好的RSE,这时 为了计算 ![]() 其中
![]() 相关性本身也是X和Y之间线性关系的度量,这表明我们可以使用r = Cor(X,Y)代替 简单的线性回归是基于单个预测变量来预测响应的有用方法。 但是,实际上,我们经常有不止一个预测变量。 例如在广告数据中,我们检查了销售与电视广告之间的关系,与此同时我们也有关于在广播和报纸上花费的广告费用的数据,这时广告公司可能想知道这两种媒体是否与销售相关,那么我们要如何扩展对广告数据的分析以适应这两个额外的预测因素? ![]() 一种选择是运行三个单独的简单线性回归,每个回归都使用不同的广告媒介作为预测变量。 例如,我们可以拟合一个简单的线性回归来基于广播广告上花费的金额来预测销售,结果示于表3.3(上表)。 我们发现,广播广告支出增加$1,000会带来约203个单位的销售增长。 表3.3(底部)包含了对报纸广告预算进行简单线性回归的销售的最小二乘系数,报纸广告预算增加$1,000会导致销售量增加约55个单位。 但是,为每个预测变量拟合单独的简单线性回归模型的方法并不完全令人满意。首先,由于三个预算中的每个预算都与一个单独的回归方程相关联,因此尚不清楚在给定三个广告媒体预算水平的情况下如何对销售额进行单一预测。其次,三个回归方程式中的每一个在形成回归系数的估计时都忽略了其他两种媒介,如果构成我们数据集的200个市场中的媒体预算相互关联,那么这可能会导致对各个媒体对销售的影响产生非常误导的估计。 与其为每个预测变量拟合一个单独的简单线性回归模型,更好的方法是扩展简单线性回归模型(3.5),以便它可以直接容纳多个预测变量。 为此,我们可以在单个模型中为每个预测变量提供单独的斜率系数。通常,假设我们有p个不同的预测变量,然后多元线性回归模型采用如下所示的数学形式: ![]() 其中 ![]() 3.2.1 估计回归系数 与简单线性回归设置中的情况相同,(3.19)中的回归系数 ![]() 使用与在简单线性回归中看到的相同的最小二乘法来估计参数。 我们选择 ![]() ![]() 将(3.22)实现最小化的值 ![]() 表3.4显示了使用电视,广播和报纸广告预算通过广告数据预测产品销售时的多元回归系数估计。我们将这些结果解释如下:对于一定数量的电视和报纸广告,在广播广告上花费额外的$ 1,000会使销量增加大约189个单位。将这些系数估算值与表3.1和表3.3中显示的估算值进行比较,我们注意到电视和电台的多元回归系数估算值与简单的线性回归系数估算值非常相似,但是,尽管表3.3中的报纸回归系数估计值明显非零,但多元回归模型中报纸的系数估计值接近于零,相应的p值不再重要,其值约为0.86。这说明简单回归系数和多元回归系数可能有很大不同,这一差异源于以下事实:在简单回归的情况下,斜率项表示报纸广告每增加1000美元的平均效果,而忽略了电视和广播等其他预测因素。相比之下,在多元回归设置中,报纸系数代表在固定电视和广播的同时,报纸支出增加1000美元的平均效果。 ![]() 多元回归暗示销售与报纸之间没有任何关系,而简单的线性回归暗示相反,这是否有意义?实际上确实如此。考虑表3.5中显示的三个预测变量和响应变量的相关矩阵,其中广播电台和报纸之间的相关性是0.35。这表明在广播电台广告支出较多的市场上,报纸广告支出的倾向性。现在假设多元回归是正确的,报纸广告对销售没有直接影响,但是无线电广告确实可以增加销售。然后,在我们花更多时间在广播上的市场中,我们的销售额往往会更高,并且正如我们的相关矩阵所示,我们也倾向于在那些相同的市场上花更多的钱在报纸广告上。因此,在仅检查销售与报纸的简单线性回归中,我们将观察到报纸的较高价值往往与较高的销售价值相关联,即使报纸广告实际上并没有影响销售。 在许多现实生活中,这种有点违反直觉的结果非常普遍。 例如在一段时间内,在给定的海滩社区下收集的数据中,鲨鱼袭击相对于冰淇淋销售的回归将显示出正相关,类似于销售与报纸之间的正相关。 当然,还没有人建议在海滩上禁止冰淇淋以减少鲨鱼的袭击。 实际上,较高的温度导致更多的人去海滩游玩,从而导致更多的冰淇淋销售和更多的鲨鱼袭击。 鲨鱼攻击对冰淇淋销售量和温度的多元回归表明,正如直觉所暗示的那样,在调整温度后,以前的预测变量不再重要。 3.2.2 一些重要的问题 当我们执行多元线性回归时,我们通常有兴趣回答一些重要问题: 预测变量现在,我们依次解决这些问题。 一:响应和预测变量之间有关系吗?(One: Is There a Relationship Between the Response and Predictors?) 我们可以回想一下,在简单线性回归设置中,为了确定响应和预测变量之间是否存在关系,我们可以简单地检查 ![]() 与替代假设: ![]() 我们可以通过计算F统计量(F-statistic)进行假设检验: ![]() 与简单的线性回归一样, ![]() 只要 ![]() 因此,当响应和预测变量之间没有关系时,人们会期望F统计量取接近1的值。另一方面,如果 ![]() 表3.6显示了通过将销售回归到广播,电视和报纸上而获得的多元线性回归模型的F统计量。在此示例中,F统计量为570。由于它远大于1,因此它提供了针对原假设 在(3.23)中,我们可以通过如上所述的方法测试 ![]() 为了方便起见,我们将选择省略的变量放在列表的末尾,在这种情况下,我们拟合第二个模型,该模型使用除最后一个q之外的所有变量。 假设该模型的残差平方和为 ![]() 需要注意的是,在表3.4中报告了每个单独的预测变量的t统计量和p值。在调整了其他预测变量后,这些信息提供了有关每个预测变量是否与响应相关的信息。 事实证明,这些变量中的每一个都完全等同于F测试,后者从模型中忽略了该单个变量,而其余所有变量都保留在模型中。因此,它报告了将该变量添加到模型中的部分影响,例如,正如我们前面所讨论的,这些p值表示电视和广播与销售有关,但没有证据表明存在这两者的情况下报纸与销售有关。 如果给定了每个变量单独的p值,为什么我们还需要查看总体F统计量? 这是因为如果单个变量的p值中的任何一个很小,则似乎至少有一个预测变量与响应有关。但是,这种逻辑是有缺陷的,特别是在预测变量p的数量很大时。 例如,在一个示例中,p = 100且 当p相对较小(与n相比肯定较小)时,使用F统计量来检验预测变量与响应之间的任何关联的方法有效。但有时我们有很多变量,如果p> n,则估计的系数 二:确定重要变量(Two: Deciding on Important Variables) 正如前一部分所述,多元回归分析的第一步是计算F统计量并检查相关的p值,如果我们根据该p值得出结论,则至少有一个预测变量与响应有关。与此同时我们可以查看表3.4中的各个p值,但是正如所讨论的,如果p很大,我们可能会做出一些错误的发现。所有预测变量都可能与响应相关联,但更常见的是该响应仅与预测变量的子集有关的情况。 为了适合仅涉及那些预测变量的单个模型,确定哪些预测变量与响应相关联的任务称为变量选择(variable selection)。 变量选择问题将在第6篇文章中进行广泛研究,因此在这里我们仅提供一些经典方法的简要概述。 理想情况下,我们希望通过尝试许多不同的模型来执行变量选择,其中每个模型包含不同的预测变量子集。例如,如果p = 2,则可以考虑四个模型:(1)不包含变量的模型,(2)仅包含 不幸的是,总共有 如果p> n,则不能使用向后选择,而只能使用向前选择。 向前选择是一种贪婪的方法,有些早期被包含在内的变量可能在后期会显得多余,而混合选择可以解决这个问题。 三:模型拟合(Three: Model Fit) 模型拟合的两个最常见的数值度量是 我们可以回想一下,在简单回归中,
相反,仅包含电视作为预测变量的模型的 仅包含电视和广播作为预测变量的模型的RSE为1.681,还包含报纸作为预测变量的模型的RSE为1.686(表3.6),相反,仅包含TV的模型的RSE为3.26(表3.2),这证实了我们先前的结论:即使用电视和广播支出来预测销售的模型比仅使用电视支出的模型要准确得多(在训练数据上)。认真观察的读者可能会想,假设RSS必须减少,那么当将报纸添加到模型中时,RSE如何增加,在情况下通常,RSE定义为如下数学形式: ![]() 对于简单的线性回归,上述式子简化为(3.15),因此,如果RSS的减少相对于p的增加较小,则具有更多变量的模型可以具有较高的RSE。 ![]() 除了查看刚才讨论的 四:预测(Four: Predictions) 一旦我们拟合了多元回归模型,就可以直接应用(3.21)来基于预测变量 1.系数估计值 ![]() 只是对如下所示的真实总体回归平面(true population regression plane)的估计: ![]() 系数估计中的不准确性与第2章中的可减少误差有关,我们可以计算一个置信区间,以确定 2.当然,在实践中,假设 3.即使我们知道 我们使用置信区间(confidence interval)来量化围绕许多城市平均销售额的不确定性。例如,假设每个城市的电视广告支出为100,000美元,广播广告支出为20,000美元,则95%的置信区间为[10,985,11,528]。我们将其解释为意味着此表格的以95%的概率包含 3.3.1 定性预测因子(Qualitative Predictors) 到目前为止,在我们的讨论中,我们都假设线性回归模型中的所有变量都是定量的,但实际上一些预测指标是定性的。 ![]() 图3.6中显示的Credit数据集记录了余额(若干个人的平均信用卡债务)以及几个定量预测变量:年龄,卡数(信用卡数),教育程度(受教育年限),收入(千美元),限额(信用额度)和等级(信用等级)。图3.6的每个面板都是一对变量的散点图,其变量由相应的行和列标签给出。例如,单词“ Balance”右边的散点图描述了余额与年龄的关系,而“年龄”右边的散点图对应于年龄与卡数的关系。 除了这些定量变量外,我们还具有四个定性变量:性别,学生(学生身份),地位(婚姻状况)和种族(白种人,非裔美国人或亚裔)。 只有两个级别的预测变量(Predictors with Only Two Levels) 假设我们希望调查男性和女性之间信用卡余额的差异,而暂时忽略其他变量,这时如果定性预测变量(也称为因子)只有两个级别或可能的值,那么将其合并到回归模型中非常简单。 我们只需创建一个具有两个可能数值的指标或虚拟变量。 例如,基于性别变量,我们可以创建一个新的变量,其形式如下所示: ![]() 并在回归方程中将此变量用作预测变量。 结果就是如下所示的模型: ![]() 现在, ![]() 表3.7显示了系数估计和与模型(3.27)相关的其他信息,男性的平均信用卡债务估计为$509.80,而女性的信用卡债务估计为$19.73,总债务为$509.80 + $19.73 = $529.53。 但需要注意的是,虚拟变量的p值非常高,这表明没有统计证据表明性别之间的平均信用卡债务存在差异。 在(3.27)中将女性编码为1并将男性编码为0的决定是任意的,并且对回归拟合没有影响,但是确实改变了系数的解释。如果我们将男性编码为1,将女性编码为0,则对 ![]() 并在我们可以在回归方程中使用此变量,其结果是如下所示的模型: ![]() 现在, 具有两个以上级别的定性预测变量(Qualitative Predictors with More than Two Levels) 当定性预测变量具有两个以上的级别时,单个虚拟变量不能代表所有可能的值,在这种情况下,我们可以创建其他虚拟变量。例如,对于种族变量,我们创建了两个虚拟变量,第一个为: ![]() 第二个 : ![]() 然后可以在回归方程中使用这两个变量,以获得如下所示的模型: ![]() 现在, ![]() 从表3.8中可以看到,基线(非裔美国人)的估计余额为$531.00。据估计,亚洲类别的债务将比非裔美国人类别少18.69美元,而高加索类别的债务则比非裔美国人类别少12.50美元。但是,与两个虚拟变量的系数估计值相关的p值非常大,这表明没有统计证据表明种族之间的信用卡余额存在真正的差异。再次,选择作为基线类别的级别是任意的,并且无论此选择如何,每个组的最终预测都将相同,但是,系数及其p值确实取决于伪变量编码的选择。可以不使用F检验来检验 当结合定量和定性预测变量时,使用这种虚拟变量方法不会带来任何困难。例如,要在定量变量(例如收入)和定性变量(例如学生)上均实现回归平衡,我们必须简单地为研究者创建一个虚拟变量,然后使用收入和虚拟变量作为信用卡余额的预测变量来拟合多元回归模型。 除了此处采用的虚拟变量方法外,还有许多不同的编码定性变量的方法。所有这些方法都导致等效的模型拟合,但是系数不同并且具有不同的解释。 3.3.2 线性模型的扩展(Extensions of the Linear Model) 标准的线性回归模型(3.19)提供了可解释的结果,并且在许多现实世界中的问题上都非常有效。但是,它提出了一些在实践中经常被违反的严格限制的假设。最重要的两个假设指出,预测变量与响应之间的关系是可加的(additive)和线性的(linear)。 加性假设意味着预测变量 删除可加性假设(Removing the Additive Assumption) 在我们先前对广告数据的分析中,我们得出结论,即电视和广播似乎都与销售有关。构成该结论基础的线性模型假设,增加一种广告媒体对销售的影响与在其他媒体上花费的金额无关。 例如,线性模型(3.20)指出,电视广播每单位销量增长的平均效果始终为 但是,此简单模型可能并不正确。假设花在广播广告上的钱实际上提高了电视广告的有效性,那么电视的斜率应该随着广播的增加而增加。在这种情况下,如果固定预算为100,000美元,则在广播上花费一半,在电视上花费一半可以使销售增加的数值应该超过将全部金额分配给电视或广播使销售增加的数值。 在营销中,这被称为协同效应,而在统计中,它被称为交互效应(synergy effect),而图3.5表明这种效果可能出现在广告数据中。 需要注意的是,当电视或收音机的水平较低时,实际销售额将低于线性模型的预测;但是,当广告在两种媒体之间分配时,该模型往往会低估销售额。 我们来考虑下带有两个变量的标准线性回归模型,其形式如下: ![]() 根据该模型,如果我们将 ![]() 包含此相互作用项如何使加法假设的条件放宽呢?此时(3.31)可以重写为如下形式: ![]() 其中 例如,假设我们对研究工厂的生产率感兴趣,我们希望根据生产线的数量和工人总数来预测生产的单位数量。增加生产线数量的效果似乎取决于工人的数量,因为如果没有工人可用, 操作生产线,然后增加生产线数量不会增加产量,这表明在线性模型中包括生产线和工人之间的相互作用项以预测单位是适当的。假设我们拟合模型时,可以获得如下所示的函数: ![]() 换句话说,增加一条生产线将增加3.4 + 1.4×工人的生产数量,因此,我们拥有的工人越多,线条的效果就会越强。 现在我们回到广告示例,使用广播,电视以及两者之间的相互作用来预测销售的线性模型形成了如下表达式: ![]() 我们可以将 ![]() 表3.9中的结果表明,包含交互作用项的模型要优于仅包含主要作用(main effect)的模型。交互作用项的TV✖radio值的p值极低,表明有很强的证据表明 在此示例中,与电视,广播和交互作用项相关联的p值在统计上都是有意义的(表3.9),因此,所有三个变量都应包括在模型中。但是,有时交互项的p值很小,但相关的主要效果(在这种情况下是电视和广播)则没有。分层原则(hierarchical principle)指出,如果我们在模型中包括交互作用,则即使与系数相关的p值不显着,我们也应包括主效应(if we include interaction in a model, we should also include the main effects, even if the p-values associated with their coefficients are not significant)。换句话说,如果 在前面的示例中,我们考虑了电视和广播之间的相互作用,两者都是定量变量,但是,交互作用的概念同样适用于定性变量,也适用于定量和定性变量的组合。实际上,定性变量和定量变量之间的相互作用具有特别好的解释。我们重新考虑3.3.1节中的信用数据集,并假设我们希望使用收入(定量)和学生(质性)变量来预测债务余额,在没有交互项的情况下,模型采用以下形式来表现: ![]() 请注意,这相当于将两条平行线拟合到数据,一条用于学生,另一条用于非学生。学生和非学生的直线的截距不同,一个是 ![]() 如上图所示,图3.7的左侧面板对此进行了说明。 两条线是平行的事实意味着对单位收入增加的平均平衡影响并不取决于个人是否为学生,这代表了该模型的潜在严重局限,因为实际上收入的变化可能 对学生和非学生的信用卡余额有非常不同的影响。 现在模型变为了如下形式: ![]() 这一次,我们为学生和非学生提供了两条不同的回归线,但是现在这些回归线具有不同的截距,即 如前文所述,线性回归模型(3.19)假设响应和预测变量之间存在线性关系,但是在某些情况下,响应和预测变量之间的真实关系可能是非线性的。在这里,我们提供了一种使用多项式回归直接扩展线性模型以适应非线性关系的简单方法,在后面的章节中,我们将介绍在更一般的设置中执行非线性拟合的更复杂的方法。 ![]() 如图3.8所示,其在“自动”数据集中显示了许多汽车的mpg(汽油英里数/加仑),橙色线表示线性回归拟合。mpg和马力之间存在明显的关系,但显然这种关系实际上是非线性的:数据表明存在曲线关系,用于将非线性关联合并到线性模型中的简单方法是在模型中包括预测变量的转换版本。例如,图3.8中的点似乎具有二次形状,这表明该形式的模型如下所示: ![]() 上述模型可能会提供更好的契合度,公式3.36涉及使用马力的非线性函数预测mpg,但这仍然是线性模型! 也就是说,(3.36)只是一个多元线性回归模型,其中X1 =马力,X2 =马力的平方。 因此,我们可以使用标准的线性回归软件来估计 ![]() 二次拟合似乎比仅包含线性项时获得的拟合更好,二次拟合的 如果包括马力的平方导致模型有如此大的改进,为什么不包括马力的三次方,马力的四次方甚至马力的五次方? 图3.8中的绿色曲线显示了将所有多项式包括到模型中的五次方(3.36)所得到的拟合。产生的拟合似乎令人费解,我们不清楚包含附加次方的马力是否真的能更好地拟合数据。 我们刚才描述的用于扩展线性模型以适应非线性关系的方法称为多项式回归(polynomial regression),因为我们已将预测变量的多项式函数包括在回归模型中,我们将在第7篇文章中进一步探讨这种方法以及线性模型的其他非线性扩展。 3.3.3 潜在问题 当我们将线性回归模型拟合到特定数据集时,可能会出现许多问题。 其中最常见的是以下六个: 响应预测器关系的非线性。误差项的相关性。误差项的非恒定变化。异常值。高杠杆点。共线性。在实践中,识别和克服这些问题是一门科学,关于这一主题,学者已经撰写了无数书籍中的许多页面。由于此处不是线性回归模型的主要重点,因此我们将仅简要概述一些关键点。 1.数据的非线性(Non-linearity of the Data) 线性回归模型假设预测变量和响应之间存在直线关系,如果真正的关系远不是线性的,那么我们从拟合中得出的几乎所有结论都是可疑的,而且可能显着降低模型的预测准确性。 残差图(Residual plots)是识别非线性的有用图形工具。假设给定一个简单的线性回归模型,我们可以绘制残差 ![]() 图3.9的左面板显示了mpg线性回归到Auto数据集(图3.8所示)上的马力的残差图。红线是对残差的平滑拟合,显示它是为了使识别任何趋势更加容易,残差呈现清晰的U形,这强烈表明了数据中的非线性。相比之下,图3.9的右侧面板显示了由模型(3.36)产生的残差图,该残差图包含一个二次项,残差中似乎没有任何模式,这表明二次项可以改善对数据的拟合度。 如果残差图表明数据中存在非线性关联,则一种简单的方法是在回归模型中使用预测变量的非线性转换,例如 2.误差项的相关性(Correlation of Error Terms) 线性回归模型的一个重要假设是误差项 举一个极端的例子,假设我们不小心将数据加倍,导致观察和误差项成对相同。 如果我们忽略这一点,我们的标准误差计算就好像我们有一个大小为2n的样本,而实际上我们只有n个样本,但是对于2n个样本,我们估计的参数将与n个样本相同,但置信区间将缩小 为什么误差项之间会发生关联?这种相关性通常发生在时间序列数据的上下文中,该时间序列数据由在离散时间点获得测量值的观察组成。在许多情况下,在相邻时间点获得的观察值将具有正相关的误差。为了确定给定数据集是否属于这种情况,我们可以将模型中的残差绘制成时间的函数,如果误差是不相关的,则应该没有可识别的模式。另一方面,如果误差项是正相关的,那么我们可能会看到残差中的跟踪,也就是说,相邻残差可能具有相似的值。 ![]() 图3.10提供了一个说明,在顶部面板中,我们看到线性回归的残差拟合到具有不相关误差的数据,没有证据表明残差与时间呈趋势相关。相反,底部面板的残差来自数据集,其中相邻误差的相关性为0.9。现在,残差有一个清晰的模式,即相邻残差往往具有相似的值。最后,中间面板显示了一个更适度的情况,其中残差的相关性为0.5,其仍然有跟踪的证据,但模式尚不清楚。 3.误差项的非恒定变化(Non-constant Variance of Error Terms) 线性回归模型的另一个重要假设是误差项具有恒定的方差Var( ![]() 不幸的是,通常误差项的方差是非恒定的,例如,误差项的方差可能随响应的值而增加。 人们可以根据残差图中漏斗形状的存在来识别误差的非恒定方差或异方差。 在图3.11的左侧面板中显示了一个示例,其中残差的大小趋于随拟合值增加,遇到此问题时,一种可能的解决方案是使用凹函数(例如 有时我们对每个响应的方差都有一个好的idea,例如,第i个响应可以是所有原始观测值 4.异常值(Outliers) 异常点(outlier)是 ![]() 图3.12左侧面板中的红点(观察点20)说明了一个典型的异常值,红色实线是最小二乘回归拟合,而蓝色虚线是去除异常值后的最小二乘拟合。在这种情况下,移除异常值对最小二乘方线几乎没有影响:它几乎不会导致斜率发生变化,并且截距的减小很小。对于没有异常预测值的异常值,通常对最小二乘拟合几乎没有影响。但是,即使离群值对最小二乘拟合没有太大影响,也可能导致其他问题。例如,在此示例中,当异常值包含在回归中时,RSE为1.09,但是当离群值被删除时,RSE仅为0.77。由于RSE用于计算所有置信区间和p值,因此,由单个数据点引起的如此急剧的增加可能对拟合的解释产生影响。同样,包含异常值会使 残差图可用于识别异常值。 在此示例中,离群值在图3.12中心面板所示的残差图中清晰可见。 但是实际上,在我们认为该点是异常值之前,可能很难决定残差需要达到多少。 为了解决这个问题,我们可以绘制学生化残差(studentized residual),而不是绘制残差,方法是将每个残差ei除以其估计的标准误差来计算。 学生残差的绝对值大于3的观测值可能是异常值。 在图3.12的右侧面板中,异常值的学生化残差超过6,而所有其他观测值的学生化残差在-2和2之间。 如果我们认为由于数据收集或记录错误导致发生了异常值,则一种解决方案是简单地删除观察值,因为异常值可能表示模型存在缺陷。 5.高杠杆点 ![]() 我们只是看到异常值是在给定 在简单的线性回归中,高杠杆率的观察值很容易识别,因为我们可以简单地查找预测值超出观察值正常范围的观察值。但是,在具有许多预测变量的多元线性回归中,有可能观察到的结果恰好在每个预测变量值的范围内,但是就整套预测变量而言,这是不寻常的。图3.13的中央面板中显示了一个示例,其中包含两个预测变量X1和X2。大多数观测值的预测值都在蓝色虚线椭圆之内,但是红色观测值远不在此范围内,但它对X1的值或对X2的值都不是异常,因此,如果仅检查X1或X2,我们将不会注意到这一高杠杆点。 在具有两个以上预测变量的多重回归设置中,此问题更为明显,因为没有一种简单的方法可以同时绘制数据的所有维度。 为了量化观察的杠杆作用,我们计算了杠杆作用统计量(leverage statistic),此统计数据的较大值表示观察结果具有很高的杠杆作用。 对于简单的线性回归,该数值可以通过如下数学等式计算得出: ![]() 从该方程式可以明显看出, 图3.13的右侧面板提供了图3.13左侧面板中数据的学生残差与 6.共线性(Collinearity) ![]() 共线性(Collinearity)是指两个或多个预测变量彼此紧密相关的情况,图3.14使用信用卡数据集说明了共线性的概念。 在图3.14的左侧面板中,两个预测变量的极限和年龄似乎没有明显的关系,相比之下,在图3.14的右侧面板中,预测变量的极限和等级彼此之间高度相关,我们这时可以说它们是共线的。 共线性的存在会在回归上下过程中引起问题,因为可能很难区分出共线性变量对响应的各个影响。 换句话说,由于界限和等级往往会一起增加或减少,因此很难确定每个人如何分别与响应,平衡相关联。 ![]() 图3.15说明了共线性可能导致的一些困难,图3.15的左侧面板是RSS(3.22)的等高线图,它与极限和年龄平衡的回归的不同可能的系数估计相关。 每个椭圆表示一组与同一RSS相对应的系数,其中距中心最近的椭圆占RSS的最小值。 黑点和相关的虚线表示得出可能的最小RSS系数的系数估计值,换句话说,这些是最小二乘估计值。 限制和年龄轴已缩放,以便该图包括可能的系数估计,最小二乘估计的任一侧最多可包含四个标准误差。 因此,该图包括所有可能的系数值。 例如,我们看到真正的极限系数几乎可以确定在0.15和0.20之间。 相比之下,图3.15的右侧面板显示了RSS的等高线图,它与可能的系数估计值相关,以将平衡回归到极限和等级上,我们知道这是高度共线的,因为系数估计值的取值范围广泛,导致RSS的值相等。因此,数据的微小变化可能导致一对产生最小RSS(即最小二乘估计值)的系数值沿着该谷移动到任何位置,这导致系数估计中的大量不确定性。需要注意的是,极限系数的标度现在从大约0.2到0.2;与年龄的回归相比,这是极限系数合理范围内的八倍增长。有趣的是,尽管极限系数和额定系数现在具有更多的不确定性,但它们几乎肯定会位于轮廓谷中的某个位置。例如,我们不希望极限系数和额定系数的真实值分别为0.1和1,即使对于每个系数而言,这样的值是合理的。 由于共线性降低了回归系数估计的准确性,因此导致 ![]() 表3.11比较了从两个单独的多元回归模型获得的系数估计,第一个是年龄和界限平衡的回归,第二个是等级和界限平衡的回归。在第一回归中,年龄和限制都非常重要,p值很小。 在第二个回归中,极限和额定值之间的共线性导致极限系数估计的标准误差增加了12倍,p值增加到0.701。换句话说,由于共线性的存在,限制了极限变量的重要性。为避免这种情况,我们希望在拟合模型的同时识别并解决潜在的共线性问题。 检测共线性的一种简单方法是查看预测变量的相关矩阵,此矩阵的绝对值很大的元素表示一对高度相关的变量,因此表示数据中的共线性问题。不幸的是,并非所有的共线性问题都可以通过检查相关矩阵来检测到:即使没有一对变量具有特别高的相关性,三个或更多变量之间也可能存在共线性,我们称这种情况为多重共线性(multicollinearity)。代替检查相关矩阵,评估多重共线性的更好方法是计算方差膨胀因子(variance inflation factor/VIF)。VIF是拟合整个模型时 ![]() 其中 在Credit数据中,年龄,等级和限制之间的平衡回归表明,预测变量的VIF值为1.01、160.67和160.59。正如我们所怀疑的那样,数据中存在相当大的共线性! 面对共线性问题,有两种简单的解决方案。首先是从回归中删除一个有问题的变量,由于共线性的存在意味着该变量提供的有关响应的信息在存在其他变量的情况下是多余的,因此通常可以在不对回归拟合有太多折衷的情况下完成此操作。例如,如果我们在没有评级预测变量的情况下将余额回归到年龄和限制,则最终的VIF值接近最小可能值1, 现在,我们简要地返回关于广告数据的七个问题,我们将在本章开始时回答这些问题。 1.广告销售与预算之间是否有关系? 如(3.20)所示,我们可以通过在电视,广播和报纸上拟合销售的多元回归模型并检验假设 2.这种关系有多牢固? 我们在第3.1.3节中讨论了两种模型准确性的度量。首先,RSE是从人口回归线估计响应的标准偏差,对于广告数据,RSE为1,681单位,而响应的平均值为14,022,表明百分比误差约为12%。其次, 3.哪些媒体有助于销售? 为了回答这个问题,我们可以检查与每个预测变量的t统计量相关的p值(第3.1.2节)。在表3.4中显示的多元线性回归中,电视和广播电台的p值较低,而报纸的p值则较低,这表明只有电视和广播与销售有关。 在第6篇文章中,我们将探讨这个问题的更多细节。 4.每种媒介对销售的影响有多大? 我们在3.1.2节中看到, 我们在3.3.3节中看到,共线性会导致很大的标准误差。 共线性是否可能是与报纸相关的置信区间如此宽泛的原因? 电视,广播和报纸的VIF得分分别为1.005、1.145和1.145,这表明没有共线性的证据。 为了评估每种媒介在销售中的关联,我们可以执行三个单独的简单线性回归。 结果示于表3.1和3.3。 有证据表明,电视与销售之间以及广播与销售之间有着非常紧密的联系,当电视和广播的价值被忽略时,报纸和销售之间的联系会很温和。 5.我们如何准确地预测未来的销售? 我们可以使用(3.21)预测响应,与该估计相关的准确性取决于我们是否希望预测单个响应Y = f(X)+ 6.关系是线性的吗? 在3.3.3节中,我们看到可以使用残差图来识别非线性。 如果关系是线性的,则残留图不应显示任何图案。对于广告数据,我们在图3.5中观察到了非线性影响,尽管在残留图中也可以观察到这种影响。在3.3.2节中,我们讨论了线性回归模型中预测变量的转换是否包含在内,以适应非线性关系。 7.广告媒体之间是否存在协同作用? 标准线性回归模型假设预测变量和响应之间存在加性关系,加性模型易于解释,因为每个预测变量对响应的影响与其他预测变量的值无关。 但是,对于某些数据集,加性假设可能是不现实的。在3.3.2节中,我们展示了如何在回归模型中包括一个交互项,以适应非加性关系。 与交互作用项相关的小p值表示存在这种关系,而图3.5建议广告数据不能相加,在模型中包含一个交互项会导致R2从大约90%大幅增加到几乎97%。 3.5 线性回归与K最近邻的比较正如我们在第2篇文章中所述,线性回归是参数方法的一个示例,因为它假设f(X)的线性函数形式。 参数化方法具有几个优点:它们通常很容易拟合,因为仅估计少量系数。在线性回归的情况下,系数具有简单的解释,并且可以容易地进行统计显着性检验。 但是参数方法确实有一个缺点:通过构造,它们对f(X)的形式做出了强有力的假设,如果指定的函数形式与事实相去甚远,并且预测精度是我们的目标,则参数方法的效果会很差。例如,如果我们假设X和Y之间存在线性关系,但真正的关系远非线性,那么结果模型将无法很好地拟合数据,并且从中得出的任何结论都是可疑的。 相反,非参数方法没有明确假设f(X)的参数形式,从而为执行回归提供了另一种更灵活的方法,我们在本系列文章中讨论了各种非参数方法。 在这里,我们考虑最简单,最著名的非参数方法之一,即K近邻回归(K-nearest neighbors regression/KNN回归)。 KNN回归方法与第2篇文章中讨论的KNN分类器密切相关。假设给定K的值和预测点 ![]() ![]() 图3.16说明了在p = 2个预测变量的数据集上的两个KNN拟合,K = 1的拟合显示在左侧面板中,而右面板对应于K = 9。我们看到当K = 1时,KNN拟合完美地内插了训练观测值,因此采取阶跃函数的形式。当K = 9时,KNN拟合仍然是一个阶跃函数,但是对9个观测值求平均会得到较小的恒定预测区域,从而使拟合更平滑。通常,K的最佳值将取决于我们在第2篇文章中介绍的偏差-方差权衡(bias-variance tradeoff),较小的K值将提供最灵活的拟合,偏差小但方差大。产生这种差异的原因是,给定区域中的预测完全取决于一个观测值。相反,K值越大,拟合越平滑,变量变化就越小。一个区域的预测平均为几个点,因此改变一个观测值的影响较小。但是,平滑可能会通过掩盖f(X)中的某些结构而导致偏差。在第5篇文章中,我们将介绍几种估计测试错误率的方法,这些方法可用于识别KNN回归中K的最佳值。 最小二乘线性回归等参数方法在什么情况下会胜过KNN回归等非参数方法?答案很简单:如果选择的参数形式接近 ![]() 图3.17提供了一个由一维线性回归模型生成的数据的示例,图中黑色实线代表f(X),而蓝色曲线对应于使用K = 1和K = 9的KNN拟合。在这种情况下,K = 1的预测值变化太大,而更平滑的K = 9的拟合值更接近到f(X)。但是,由于真实关系是线性的,因此非参数方法很难与线性回归竞争:非参数方法会产生方差,而方差不会被偏差的减少所抵消。 ![]() 图3.18左侧面板中的蓝色虚线表示对相同数据的线性回归拟合,这几乎是完美的。图3.18的右侧面板显示,对于该数据,线性回归优于KNN。绿色实线绘制为1 / K的函数,代表KNN的测试集均方误差(MSE)。 KNN误差远高于黑色虚线,当K的值较大时,就MSE而言,KNN的表现仅比最小二乘回归差一点;而当K较小时,KNN的表现要差得多。 ![]() 图3.18和3.19显示了当关系为线性时,KNN的效果比线性回归差的情况,但是对于非线性情况,其效果要好于线性回归。 在真实关系未知的现实生活中,人们可能会得出这样的结论:应该优先考虑KNN而不是线性回归,因为如果真实关系是线性的,它在最坏的情况下会比线性回归稍差,而如果真实关系是非线性的,则可能会给出更好的结果。但是实际上,即使真正的关系是高度非线性的,KNN仍可能会为线性回归提供较差的结果。 特别是,图3.18和3.19都说明了p = 1预测变量的设置,但是在更高维度上,KNN的性能通常比线性回归差。 ![]() 图3.20考虑了与图3.19第二行相同的强烈非线性情况,只是我们添加了与响应无关的其他噪声预测器。当p = 1或p = 2时,KNN优于线性回归。但是对于p = 3,结果是混合的,而对于p≥4,线性回归优于KNN。实际上,增加的维数仅导致线性回归测试集MSE的小幅下降,但导致KNN的MSE增长超过十倍。随着维数的增加,性能的下降是KNN的一个常见问题,这是由于在较大的维数中有效地减少了样本大小。在此数据集中,有100个训练观察值。当p = 1时,这提供了足够的信息来准确估计f(X)。但是,将100个观测值分布在p = 20维上会导致一种现象,即给定的观测值与附近没有人相邻-这就是所谓的维数诅咒(curse of dimensionality)。也就是说,当p大时,最接近给定测试观察值 即使在维数较小的问题中,从可解释性的角度来看,我们可能更喜欢线性回归而不是KNN。 如果KNN的检验MSE仅略低于线性回归的检验,我们可能会愿意放弃一个简单的预测精度。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |