如何平衡机器学习中偏差与方差

您所在的位置:网站首页 偏差举例说明 如何平衡机器学习中偏差与方差

如何平衡机器学习中偏差与方差

2024-05-27 00:20| 来源: 网络整理| 查看: 265

本文介绍偏差与方差的概念和K折交叉验证,并通过示例展示其实现过程。

方差与偏差

为了评估模型在数据集上的表现,我们需要衡量模型预测与观测数据的匹配程度。对于回归模型,通常使用的指标是MSE(mean squared error),其计算公式为:

MSE = (1/n)*Σ(y i {_i} i​ – f(x i {_i} i​)) 2 {^2} 2

n 为观测数据量y i {_i} i​ 第i个观测数据的响应值f(x i {_i} i​)) 为第i个观测数据对于的预测值

模型预测值越接近响应值,则MSE越小。我们注意到MSE是通过看不见数据(测试数据集)计算的,但更应该关心的是如何面对不存在的数据(实际应用中的数据)。举例,如果模型基于历史数据预测股市走势非常好,但真正想要的是模型能够准确预测未来数据。

事实说明MSE总是可以分为两个部分:

方差

指的是使用不同训练集估计函数产生的变化量。

偏差

指用很简单模型逼近可能极其复杂的现实问题所产生的误差。

数学公式表示为:

Test MSE = Var(f(x 0 {_0} 0​)) + [Bias(f(x 0 {_0} 0​))] 2 {^2} 2 + Var(ε)

均方误差 = 方差 + 偏差 2 {^2} 2 + 未知误差

第三项表示未知错误,不能简单通过任何模型消除的误差,因为解释变量和响应变量关系中总是存在一些噪声。

模型有较高的偏差则对应方差趋向偏小。举例,简单线性关系模型有高偏差和低方差(模型评估从一个样本换为另一个样本不会变化太多)。

反之,模型有低偏差则方差趋于偏高。举例,复杂的非线性模型(没有假设响应变量与解释变量有明确关系)一般有低偏差和高方差(模型评估从一个样本换位另一个样本变化较大)。

偏差与方差平衡

偏差-方差权衡指的是当我们选择降低偏差(通常会增加方差)或降低方差(通常会增加偏差)时发生的权衡。

可以通过图形直观理解:

在这里插入图片描述

总误差随着模型复杂性的增加而减小,但仅到某一点。超过某一点,方差开始增加,总误差也开始增加。

在实践中,我们只关心最小化模型的总误差,而不一定要最小化方差或偏差。事实证明,最小化总误差的方法是在方差和偏差之间取得适当的平衡。换句话说,我们想要一个足够复杂的模型来捕捉解释变量和响应变量之间的真实关系,但又不能过于复杂,以至于它能发现实际上根本不存在的模式。

当一个模型过于复杂时,它会过度拟合数据。之所以会出现这种情况,是因为它很难在训练数据中找到只是由随机因素引起的模式。这种类型的模型在处理不可见数据时可能表现不佳。但是,当一个模型过于简单时,它就会与数据不符。这是因为它假设解释变量和响应变量之间的关系比实际更简单。

在机器学习中,选择最优模型的方法是在偏差和方差之间取得平衡,从而使模型对未来不可见数据的测试误差最小化。在实践中,最小化测试MSE的常见方法是使用交叉验证。

K折交叉验证

首先我们看下MSE的计算过程:

把数据集分为训练集和测试集

使用训练集构建模型

使用测试机进行预测并计算MSE

测试MSE让我们了解模型在处理之前从未见过的数据时的表现。然而只使用单个测试集的缺点是很大程度上过于依赖训练和测试过程中使用了哪些观察数据。

避免这个问题的常用方法是多次使用不同的训练和测试集拟合模型,然后计算所有测试MSE的平均值作为测试MSE。这种通用的方法被称为交叉验证,常用的交叉验证方法是K折交叉验证。

K折交叉验证过程如下:

随机把数据集分为K组,每组数据大致相等 在这里插入图片描述

选择其中一组作为测试集,使用其他剩下组作为训练集拟合模型,基于测试集计算MSE 在这里插入图片描述

重复这个过程K次,每次使用不同组作为测试集 在这里插入图片描述

计算所有测试MSE的平均值作为整个测试MSE

MSE = (1/k)* ∑ {\sum} ∑MSE i {_i} i​

如何确定K值。一般来说,我们在k折交叉验证中使用的组数越多,检验MSE的偏差越低,但方差越高。相反使用的组数越少,偏差越高但方差越低。这是机器学习中偏方差权衡的经典问题。

在实践中通常选择使用5~10之间数值。正如在《统计学习导论》中所指出的,这已被证明在偏差和方差之间提供了最佳平衡。

通过使用k折交叉验证,我们通过训练集和测试集的几种不同变化来计算测试MSE,从而更有可能得到测试MSE的无偏估计。

R实现K折交叉验证

实现K折交叉验证,比较简单方式是使用caret包中的 trainControl() 函数。下面是示例数据集。

# 示例数据集 df


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3