什么是随机森林?

您所在的位置:网站首页 随机森林干嘛的 什么是随机森林?

什么是随机森林?

2023-10-26 09:53| 来源: 网络整理| 查看: 265

随机森林是一种常用的机器学习算法,由 Leo Breiman 和 Adele Cutler 注册为商标,这种算法会整合多个决策树的输出以生成单一结果。 它灵活易用,既可以处理分类问题,也可以处理回归问题,这些都推动着人们对它的采用。

决策树

由于随机森林模型由多个决策树组成,因此从简要描述决策树算法开始了解随机森林会很有帮助。 决策树以一个基本问题开始,例如,“我应该去冲浪吗?” 您之后可以问一系列问题来确定答案,例如,“海浪涌动的时间很长吗?” 或者“风是吹向海面的吗?”。 这些问题构成决策树中的决策节点,是一种拆分数据的方法。 每个问题都有助于个人做出最终决定,最终决定将由叶节点表示。 符合条件的观测值将进入“是”分支,而不符合条件的观测值将进入备用路径。  决策树旨在找到最佳拆分以形成数据子集,通常会通过分类和回归树 (CART) 算法对其进行训练。 基尼不纯度、信息增益或均方误差 (MSE) 等指标可用于评估拆分的质量。  

该决策树是分类问题的一个示例,其中分类标签为“冲浪”和“不冲浪”。

虽然决策树是常见的监督学习算法,但它们容易出现偏差和过拟合等问题。 然而,当多个决策树在随机森林算法中形成一个整体时,它们预测的结果就会更加准确,各决策树彼此互不相关时尤为如此。

集成方法

集成学习方法由一组分类器(例如决策树)组成,会收集它们的预测结果,识别出现频率最高的结果。 最广为人知的集成方法是 Bagging(又称“引导聚集算法”)和 Boosting。 1996 年,Leo Breiman(链接位于 ibm.com 外部)(PDF, 810 KB) 提出 Bagging 算法;在这种方法中,用替换法来选择训练集中的随机数据样本,这意味着可多次选择单个数据点。 在生成多个数据样本后,将单独训练这些模型,并且根据任务类型(如回归或分类),这些预测的平均值或多数值会产生更准确的估计值。 这种方法通常用于降低噪声数据集中的方差。

随机森林算法

随机森林算法是 Bagging 方法的扩展,它利用 Bagging 和特征随机性来创建一个不相关的决策树森林。 特征随机性也称为特征 Bagging 或“随机子空间方法”(链接位于 ibm.com 外部)(PDF, 121 KB),可生成随机的特征子集,确保决策树之间的相关性较低。 这是决策树和随机森林之间的关键区别。 虽然决策树会考虑所有可能的特征拆分,但随机森林仅选择这些特征的子集。

如果我们回到“我应该去冲浪吗?” 这个例子,我为了确定预测结果而提出的问题可能不如其他人的问题集全面。 通过考虑数据中可能存在的所有易变性,我们可以降低过拟合、偏差和总体方差的风险,最终实现更准确的预测。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3