一份关于机器学习“模型再训练”的终极指南

您所在的位置：网站首页 › 财务预测的数据根据什么预测呢 › 一份关于机器学习“模型再训练”的终极指南

一份关于机器学习“模型再训练”的终极指南

2024-07-02 19:20| 来源: 网络整理| 查看: 265

·预测和标签均可用，但不能结合在一起。

即使预测和标签可以合并在一起，也可能需要一段时间才能使用标签。例如一个可以预测下一季度收入的财务预测模型。在这种情况下，只有在该季度过去之后才能观察到实际收入，所以直到那个时候你才能够量化模型的效果。在此类预测问题中，回填预测（即训练模型，并根据过去的历史数据生成预测）可以帮助您了解模型性能下降的速度。

正如Josh Wills 指出的那样，在部署模型之前您可以做的最重要的事情之一就是试图了解离线环境中的模型漂移。数据科学家应想办法回答以下问题：“如果我使用六个月前的数据对这组特征进行训练，并将其应用于今天生成的数据，那么这个模型比我一个月前未经训练而创建并应用到今天的模型差多少呢?”。离线执行此分析，您可以估计模型性能下降的速度以及需要重新训练的频率。当然，这种方法的前提是要有一台“时光机”来访问过去任何时候的实时数据。

检查训练和实时数据的特征分布

由于随着输入特征的分布逐渐偏离训练数据的分布，模型性能会下降，因此比较这些分布是推断模型漂移的好方法。请注意，这里说的是推断而不是检测模型漂移，因为我们没有观察到预测性能的实际下降，而是“预计”会出现下降。在由于数据生成这一过程的性质，而无法观察到实际基本事实的情况下，这会非常有用。

每个特征需要监视许多不同的东西，包括：

·可能值的范围

·值直方图

·该功能是否接受NULL，如果是，则预期的NULL数量

能够通过控制界面快速监控这些分布，是朝正确方向迈出的一步。当特征差异很大时，可以通过自动跟踪训练服务偏差并在特性差异显著时发出警告，进一步实现这一点。

检查特征之间的关联

许多模型会假定特征之间的关系必须保持固定。因此，您还需要监视各个输入特征之间的成对关联。如您的ML测试分数是多少？ML生产系统的规范等等，可以通过以下方法实现：

·监视特征之间的相关系数

·训练具有一两个特征的模型

·训练一组模型，每个模型都删除其中一个特征

检查目标分布

如果目标变量的分布发生显着变化，那么模型的预测性能几乎一定会变差。《机器学习：技术债务高息信用卡》的作者指出，一种简单而有用的诊断方法是跟踪目标分布。与训练数据的偏差可能意味着需要重新评估部署模型的质量，但请记住，“这绝不是一项全面的测试，因为它可以通过空模型来满足，该模型可以简单地预测标签出现的平均值，而无需考虑输入特征。”

模型再训练到底是什么意思？

模型再训练似乎是一个超负荷的操作，它是否只涉及到寻找现有模型架构的新参数？对于更改超参数搜索空间怎么样？如何搜索不同的模型类型（RandomForest，SVM等）？我们可以包括新特征还是可以排除以前使用的特征？这些都是很好的问题，因此尽可能明确这些问题是非常重要的。要回答这些问题，重要的是直接考虑我们要解决的问题——也就是说，减少模型漂移对我们部署的模型的影响。

在将模型部署到生产数据之前，科学家需要经过严格的模型验证过程，其中包括：

·汇编数据集–收集来自不同来源（例如不同数据库）的数据集。

·特征工程–从原始数据中提取列，提高预测性能。

·模型选择–比较不同的学习算法。

·错误估计–在搜索空间上进行优化，找到最佳模型并估计其泛化误差。

此过程会产生一些最佳的模型，然后将其部署到生产中。由于模型漂移具体是指所选模型的预测性能由于特征/目标数据分布的变化而下降，因此模型再训练不应该带来不同的模型生成过程。确切地说，重新训练只是指在新的训练数据集上重新运行生成先前选择的模型的过程。功能、模型算法和超参数搜索空间都应保持相同。可以这样想，再训练不涉及任何代码更改，只涉及改变训练数据集。

这并不是说模型的未来迭代不应包含新特征或不考虑其他算法类型/体系结构。只是说，这些类型的更改会产生完全不同的模型——在部署到生产环境之前，应该对它们进行不同的测试。根据您的机器学习团队的成熟程度，理想情况下，此类更改将与A / B测试一起引入，以测量新模型对预先确定的兴趣指标（例如用户参与度或保留率）的影响。

应该多久重新训练一次模型

有时机器学习问题本身会给出何时需要重新训练模型的建议。例如，假设您正在一家大学招生办工作，并负责建立一个可以预测学生下学期是否会回来的学生流失模型。该模型将在期中后直接用于对当前学生群体进行预测。被确定有流失风险的学生将自动被纳入辅导课程或其他干预措施。

下面我们思考一下这种模型的时间范围。由于我们每学期一次批量生成预测，因此没有必要再频繁地重新训练模型，因为我们将无法访问任何新的训练数据。因此，在观察上学期的哪些学生退学后，我们可能选择在每个学期开始时重新训练我们的模型。这就是定期再训练计划的一个示例。从这个简单的策略开始，往往是一个好办法，但是您需要确定重新训练的频率。快速更改的训练集可能需要您每天或每周进行一次训练。较慢的发行版本可能需要每月或每年进行重新训练。

如果您的团队已经具备了监控上一节中所讨论的度量标准的基础设施，那么将模型漂移的管理自动化可能是有意义的。这个解决方案需要跟踪诊断，然后在实时数据上的诊断与训练数据诊断不同时触发模型再训练。但这种方法也有其自身的挑战。首先，您需要确定一个发散的阈值，它将触发模型再训练。如果阈值太低，则您可能会过于频繁地进行再训练，从而带来高计算成本。如果阈值过高，则可能会因为不经常进行再训练，而导致生产中的模型偏劣质。这比看起来要复杂得多，因为你必须去确定，要收集多少新的训练数据，才能代表世界的新状态。在世界已经发生改变时，用一个训练集太小的模型来代替现有的模型也是没有意义的。

如果您的模型已经在对抗性环境中运行，则需要特别考虑。在诸如欺诈检测这样的设置中，对抗方会改变数据分布以使自己获利。这些问题可以从在线学习中受益，在这之中，模型随着新数据的出现而不断更新。

如何重新训练模型？

最后，但并非最不重要的一点，我们需要讨论如何重新训练模型。您用于模型再训练的方法与您决定再训练的频率直接相关。

如果您打算定期去重新训练模型，那么批量进行重新训练就完全足够了。这种方法涉及使用工作调度程序（例如Jenkins或Kubernetes CronJobs）定期地调度模型训练过程。

最后，利用在线学习技术更新当前正在生产的模型可能也是有意义的。这种方法依赖于使用当前部署的模型去“播种”一个新模型。随着新数据的产生，模型参数将使用新的训练数据进行更新。

结论

一般情况下，将模型部署到生产环境时，机器学习模型的预测性能往往都会下降。因此，工程师必须通过设置特定于ML的监视解决方案和工作流来启用模型重新训练，从而为性能下降做好准备。虽然重新训练的频率因具体问题而异，但ML工程师可以从简单的策略开始，随着新数据的到来，该策略会定期对模型进行重新训练，并发展为对模型漂移进行量化和做出反应的更复杂的过程。

原文作者：Luigi Patruno返回搜狐，查看更多

【本文地址】

一份关于机器学习“模型再训练”的终极指南

一份关于机器学习“模型再训练”的终极指南

今日新闻

推荐新闻