树模型总结

您所在的位置：网站首页 › 线性模型优势 › 树模型总结

树模型总结

2024-07-13 11:31| 来源: 网络整理| 查看: 265

树模型总结 1.树模型基础介绍。

什么是树模型？一种基于特征空间划分的具有树形分支结构的模型。

树模型的特点？方差大、对量纲没有要求、由多条规则组成、能够处理数值型和类别型数据、有较高的解释性。

树模型的优点？ 1）需要准备的数据量不大。 2）算法时间的复杂度是用于训练决策树的数据点的对数。 3）能够处理数值型和类别型数据。 4）相对对神经网络，解释性比较强。

树模型的缺点？有的规则不具备可解释性、抗干扰能力弱、最优决策划分是NP难问题、对数据不均衡类别倾向数据多的类别。

2.决策树介绍。

一切树模型的都是基于特征空间划分的条件概率分布，都具有方差大的特性，对量纲无要求，所以我们先介绍几种条件概率公式：

条件概率

定义：设A,B是两个事件，且P（A）>0,称

为在事件A发生的条件下事件B发生的概率。

全概率

定理设随机试验E的样本空间为S，A为E的事件，， ,……，为样本空间S的一个划分，且P(A)>0,P()>0 (i = 1,2,3,……),则有全概率公式：

贝叶斯

定理设随机试验E的样本空间为S，A为E的事件，， ,……，为样本空间S的一个划分，且P(A)>0,P()>0 (i = 1,2,3,……),则有贝叶斯公式：

什么是决策树？决策树是如何工作的？

决策树是一种监督学习算法(具有预定义的目标变量)，它主要用于分类问题，输入和输出变量可以是离散值或连续值。在决策树中，我们根据输入变量中最具有区分性的变量，把数据集或样本分割为两个或两个以上的子集合。

决策树的类型

1、分类树：目标为离散变量决策树，具有离散型目标变量的决策树。例如在上述学生分类问题中，目标变量是学生是否玩板球，即“是”或“否”。

2、回归树：连续变量决策树，具有连续型目标变量的决策树

树如何决定在哪里分裂？

分列策略对树的准确率影响很大，回归树和分类树具有不同的决策标准。常见的几种分裂算法： 1.基尼系数是指，如果我们从样本集中随机选择两个样本点，如果该样本集是纯的，那么这两个样本点属于相同的类的概率是1。适合于“是/否”这种二元分裂。 2.卡方，是找到子节点和父节点之间差别的统计意义。我们通过目标变量的观测值和期望值的标准化差异平方和来衡量。卡方 = ((实际值 - 期望值) / 期望值)^(1/2)。适合于“是/否”这种二元分裂。 3.信息增益， ,为信息出现的概率，易受量纲的影响，C4.5中采用信息增益比。根据信息熵进行分裂的步骤：1）计算父节点的信息熵。2）计算根据每个节点进行分裂的信息熵，计算所有子节点可能分裂的加权平均。

树模型的关键参数是什么？决策树中如何避免过拟合？

1）剪枝。

2）特征尽量避免使用连续型变量，

3）减小树的深度。

4）节点分裂的最小样本数，太高的值会导致欠拟合，因此需要使用CV(交叉验证)进行调参。

5）叶节点中的最小样本数 .

6）叶节点的最大数目。

7）考虑分裂的最大特征个数。

树模型比线性模型更好么？决策树的优缺点？

不一定，线性回归可以解决回归问题，逻辑回归可以解决分类问题，为什么还要使用树模型呢：

1、如果因变量和自变量的关系能用线性模型很好地近似表达，线性回归会优于树模型。

2、如果因变量和自变量的关系是高度非线性和非常复杂关系，树模型会优于经典回归方法。

3、如果你需要构建一个易于解释的模型，决策树模型总会比线性模型更好。决策树模型甚至比线性回归模型更容易解释。

优点

1、易于理解：决策树的输出是非常容易理解的，即使是对于没有数据分析背景的人。它不需要任何统计知识去阅读和解释。它的图形标识非常直观，用户可以很容易地和他们的假设联系在一起。

2、在数据探索中非常有用：决策树是发现最相关的两个或多个变量关系的最快速的方式之一。在决策树的帮助下，我们可以创建新的具有更强预测能力的变量/特征，可以参考这篇文章(提升回归模型的技巧)。它还可以用于数据探索阶段。例如，我们正在研究一个具有数百个变量信息的问题，决策树可以帮助我们确定最重要的哪些变量。

3、需要更少的数据清洗：相对于其他建模技术，决策树需要较少的数据清洗。它不会收到离群点和缺失值的特别大的影响。

4、数据类型不受约束：决策树可以处理数值型和离散型数据变量。

5、非参数方法：决策树是一个非参数方法。这意味着它不对数据的空间分布和分类结构做任何假设。

缺点

1、过拟合：过拟合是决策树最难处理的困难之一，这个问题通过设置模型参数和剪枝(下面讨论)来解决。

2、不适合于连续型变量：当处理连续数值型变量时，当决策树把连续变量划分成一系列离散值的时候会导致信息丢失

3.集成学习Bagging之RF介绍。基于树模型的集成方法有哪些？

集成学习（Ensemble Methods）使用一组预测相同目标的模型通过投票、加权平均、梯度提升等组合方法，多多个弱学习模型进行组合。

偏差和方差的问题？

几乎所有的模型都有偏差和方差问题，偏差表示预测值与目标值之间偏离程度，方差表示是指同一个数据集在模型预测结果的差异程度。（通常是样本目标异常导致的）

通常，当你增加模型复杂度，你会看到由于模型的偏差降低，预测错误率会降低。当你持续提升模型复杂度，会导致模型过拟合，你的模型会产生高偏差。

常用的集成方法

Bagging、Boosting和Stacking

Bagging的工作原理

1）有放回抽样多个数据集建模形成多个分类器。 2）对多个分类器结果进行投票处理。典型代表RF随机森林。

Boosting的工作原理？

1）初始化每个训练样本相同的权重。

2）每次训练更新一次权重，对分类错误的样本重采样时加大权重。

典型代表：AdaBoost、GBDT。

stacking的工作原理？

对多个学习器的预测结果作为新模型的输入重新训练。

Random Forest RF的工作原理？

1）随机放回抽样训练样本。（列采样，行采样） 2）随机选择特征。 3）构建决策树。 4）分类：投票。回归：平方误差最小化。

RF有两个随机采样过程

有放回的随机采样-bootstrap采样：行采样：采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本列采样：从M个feature中，选择m个(m

【本文地址】

树模型总结

树模型总结

今日新闻

推荐新闻