集成学习的四大类（Bagging, Boosting, Stacking,Blending）

您所在的位置：网站首页 › 公园分为四大类别是什么 › 集成学习的四大类（Bagging, Boosting, Stacking,Blending）

集成学习的四大类（Bagging, Boosting, Stacking,Blending）

2024-07-14 16:44| 来源: 网络整理| 查看: 265

集成学习（随机森林，AdaBoost）集成学习Bagging：随机森林Boosting（串行训练）：Adaboost; GBDT; XgBooststacking （新的训练数据集和新的测试集）Blending（训练数据划分为训练和验证集+新的训练数据集和新的测试集）

集成学习

集成学习是一种机器学习范式，多个学习器被训练来解决同一个问题。普通机器学习：从训练数据中学习一个假设。集成方法：试图构建一组假设并将它们组合起来。

集成方法分类为：

Bagging(并行训练)：随机森林Boosting（串行训练）：Adaboost; GBDT; XgBoostStacking:Blending:

或者分类为串行集成方法和并行集成方法

串行模型：通过基础模型之间的依赖，给错误分类样本一个较大的权重来提升模型的性能。并行模型的原理：利用基础模型的独立性，然后通过平均能够较大地降低误差 Bagging：随机森林

从训练集从进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果。

Bagging框架图 ALT

第一步：在训练数据集中随机采样，对有m个样本训练集做T次的随机采样随机采样：采集固定个数的样本，有放回的采样（每采样一个样本，都将样本放回）。一般是随机采集和训练集样本数m一样个数的样本。这样得到的采样集和训练集样本的个数相同，但是样本内容不同第二步：训练一个基模型，对不同的子集进行训练。得到T个基模型。第三步：T个基模型对测试数据进行预测，得到测试结果。第四步：将T中结果综合起来。分类任务通常使用投票的方式得出结果，回归任务用平均的方式得到结果。 Boosting（串行训练）：Adaboost; GBDT; XgBoost

训练过程为阶梯状，基模型的训练集按照某种策略每次都进行一定的转化，对所有基模型预测的结果进行线性综合产生最终的预测结果。 Boosting architecture

第一步：初始化训练数据的权重，w1=w2=…=wn=1/N，N为样本的数量。 (训练数据是带有权重的，权重值一开始是用1/样本数量初始化)第二步：训练第一个基模型，计算模型的错误率，计算模型的系数。第三步：更新数据集的权重，误分类数据的权重调大，分类正确的数据权值调小。在训练一个基类模型。依次进行第四步：每个模型对测试数据，进行预测。第五部：对所有基模型的预测结果进行加权求和。准确率高的模型调大权值，准确率低的模型减小权值。 stacking （新的训练数据集和新的测试集）

stacking是将训练好的所有基模型对训练集进行预测：其中，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值。最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。框架图如下： architecture of stacking

第一步：使用训练数据，训练T个不同的模型，得到T个基模型。第二步：使用T个基模型，分别对训练数据进行预测，与原始训练数据的标签一起组成新的训练数据。第三步：使用T个基模型，分别对测试数据进行预测，生成新的测试数据。第四步：使用新的训练数据，训练一个元模型。（什么是元模型）:元模型往往用来在某一特定的领域定义一个基础的通用的语言,来讨论和描述该领域的问题及解决方法。第五步：使用元模型对测试数据进行预测，得到最终结果。元模型：定义了描述某一模型的规范，具体来说就是组成模型的元素和元素之间的关系 Blending（训练数据划分为训练和验证集+新的训练数据集和新的测试集）

将训练数据进行划分，划分之后的训练数据一部分训练基模型，一部分经模型预测后作为新的特征训练元模型。测试数据同样经过基模型预测，形成新的测试数据。最后，元模型对新的测试数据进行预测。Blending框架图如下所示：注意：其是在stacking的基础上加了划分数据 architecture of stacking

第一步：将原始训练数据划分为训练集和验证集。第二步：使用训练集对训练T个不同的模型。第三步：使用T个基模型，对验证集进行预测，结果作为新的训练数据。第四步：使用新的训练数据，训练一个元模型。第五步：使用T个基模型，对测试数据进行预测，结果作为新的测试数据。第六步：使用元模型对新的测试数据进行预测，得到最终结果。

【本文地址】

集成学习的四大类（Bagging, Boosting, Stacking,Blending）

集成学习的四大类（Bagging, Boosting, Stacking,Blending）

今日新闻

推荐新闻