什么是随机森林？

2023-10-26 09:53| 来源: 网络整理| 查看: 265

随机森林是一种常用的机器学习算法，由 Leo Breiman 和 Adele Cutler 注册为商标，这种算法会整合多个决策树的输出以生成单一结果。它灵活易用，既可以处理分类问题，也可以处理回归问题，这些都推动着人们对它的采用。

决策树

由于随机森林模型由多个决策树组成，因此从简要描述决策树算法开始了解随机森林会很有帮助。决策树以一个基本问题开始，例如，“我应该去冲浪吗？” 您之后可以问一系列问题来确定答案，例如，“海浪涌动的时间很长吗？” 或者“风是吹向海面的吗？”。这些问题构成决策树中的决策节点，是一种拆分数据的方法。每个问题都有助于个人做出最终决定，最终决定将由叶节点表示。符合条件的观测值将进入“是”分支，而不符合条件的观测值将进入备用路径。决策树旨在找到最佳拆分以形成数据子集，通常会通过分类和回归树 (CART) 算法对其进行训练。基尼不纯度、信息增益或均方误差 (MSE) 等指标可用于评估拆分的质量。

该决策树是分类问题的一个示例，其中分类标签为“冲浪”和“不冲浪”。

虽然决策树是常见的监督学习算法，但它们容易出现偏差和过拟合等问题。然而，当多个决策树在随机森林算法中形成一个整体时，它们预测的结果就会更加准确，各决策树彼此互不相关时尤为如此。

集成方法

集成学习方法由一组分类器（例如决策树）组成，会收集它们的预测结果，识别出现频率最高的结果。最广为人知的集成方法是 Bagging（又称“引导聚集算法”）和 Boosting。 1996 年，Leo Breiman（链接位于 ibm.com 外部）(PDF, 810 KB) 提出 Bagging 算法；在这种方法中，用替换法来选择训练集中的随机数据样本，这意味着可多次选择单个数据点。在生成多个数据样本后，将单独训练这些模型，并且根据任务类型（如回归或分类），这些预测的平均值或多数值会产生更准确的估计值。这种方法通常用于降低噪声数据集中的方差。

随机森林算法

随机森林算法是 Bagging 方法的扩展，它利用 Bagging 和特征随机性来创建一个不相关的决策树森林。特征随机性也称为特征 Bagging 或“随机子空间方法”（链接位于 ibm.com 外部）(PDF, 121 KB)，可生成随机的特征子集，确保决策树之间的相关性较低。这是决策树和随机森林之间的关键区别。虽然决策树会考虑所有可能的特征拆分，但随机森林仅选择这些特征的子集。

如果我们回到“我应该去冲浪吗？” 这个例子，我为了确定预测结果而提出的问题可能不如其他人的问题集全面。通过考虑数据中可能存在的所有易变性，我们可以降低过拟合、偏差和总体方差的风险，最终实现更准确的预测。

【本文地址】

什么是随机森林？

什么是随机森林？

今日新闻

推荐新闻