树模型总结

您所在的位置:网站首页 线性模型优势 树模型总结

树模型总结

2024-07-13 11:31| 来源: 网络整理| 查看: 265

树模型总结 1.树模型基础介绍。

什么是树模型? 一种基于特征空间划分的具有树形分支结构的模型。

树模型的特点? 方差大、对量纲没有要求、由多条规则组成、能够处理数值型和类别型数据、有较高的解释性。

树模型的优点? 1)需要准备的数据量不大。 2)算法时间的复杂度是用于训练决策树的数据点的对数。 3)能够处理数值型和类别型数据。 4)相对对神经网络,解释性比较强。

树模型的缺点? 有的规则不具备可解释性、抗干扰能力弱、最优决策划分是NP难问题、对数据不均衡类别倾向数据多的类别。

2.决策树介绍。

一切树模型的都是基于特征空间划分的条件概率分布,都具有方差大的特性,对量纲无要求,所以我们先介绍几种条件概率公式:

条件概率

定义:设A,B是两个事件,且P(A)>0,称

为在事件A发生的条件下事件B发生的概率。

 

全概率

定理 设随机试验E的样本空间为S,A为E的事件, , ,……, 为样本空间S的一个划分,且P(A)>0,P()>0 (i = 1,2,3,……),则有全概率公式:

贝叶斯

定理 设随机试验E的样本空间为S,A为E的事件, , ,……, 为样本空间S的一个划分,且P(A)>0,P()>0 (i = 1,2,3,……),则有贝叶斯公式:

什么是决策树?决策树是如何工作的?

决策树是一种监督学习算法(具有预定义的目标变量),它主要用于分类问题,输入和输出变量可以是离散值或连续值。在决策树中,我们根据输入变量中最具有区分性的变量,把数据集或样本分割为两个或两个以上的子集合。

决策树的类型

1、分类树:目标为离散变量决策树,具有离散型目标变量的决策树。例如在上述学生分类问题中,目标变量是学生是否玩板球,即“是”或“否”。

2、回归树:连续变量决策树,具有连续型目标变量的决策树

树如何决定在哪里分裂?

分列策略对树的准确率影响很大,回归树和分类树具有不同的决策标准。 常见的几种分裂算法: 1.基尼系数是指,如果我们从样本集中随机选择两个样本点,如果该样本集是纯的,那么这两个样本点属于相同的类的概率是1。适合于“是/否”这种二元分裂。 2.卡方,是找到子节点和父节点之间差别的统计意义。我们通过目标变量的观测值和期望值的标准化差异平方和来衡量。卡方 = ((实际值 - 期望值) / 期望值)^(1/2)。适合于“是/否”这种二元分裂。 3.信息增益, ,为信息出现的概率,易受量纲的影响,C4.5中采用信息增益比。根据信息熵进行分裂的步骤:1)计算父节点的信息熵。2)计算根据每个节点进行分裂的信息熵,计算所有子节点可能分裂的加权平均。

树模型的关键参数是什么?决策树中如何避免过拟合?

1)剪枝。

2)特征尽量避免使用连续型变量,

3)减小树的深度。

4)节点分裂的最小样本数,太高的值会导致欠拟合,因此需要使用CV(交叉验证)进行调参。

5) 叶节点中的最小样本数 .

6)叶节点的最大数目。

7)考虑分裂的最大特征个数。

树模型比线性模型更好么?决策树的优缺点?

不一定,线性回归可以解决回归问题,逻辑回归可以解决分类问题,为什么还要使用树模型呢:

1、如果因变量和自变量的关系能用线性模型很好地近似表达,线性回归会优于树模型。

2、如果因变量和自变量的关系是高度非线性和非常复杂关系,树模型会优于经典回归方法。

3、如果你需要构建一个易于解释的模型,决策树模型总会比线性模型更好。决策树模型甚至比线性回归模型更容易解释。

优点

1、易于理解:决策树的输出是非常容易理解的,即使是对于没有数据分析背景的人。它不需要任何统计知识去阅读和解释。它的图形标识非常直观,用户可以很容易地和他们的假设联系在一起。

2、在数据探索中非常有用:决策树是发现最相关的两个或多个变量关系的最快速的方式之一。在决策树的帮助下,我们可以创建新的具有更强预测能力的变量/特征,可以参考这篇文章(提升回归模型的技巧)。它还可以用于数据探索阶段。例如,我们正在研究一个具有数百个变量信息的问题,决策树可以帮助我们确定最重要的哪些变量。

3、需要更少的数据清洗:相对于其他建模技术,决策树需要较少的数据清洗。它不会收到离群点和缺失值的特别大的影响。

4、数据类型不受约束:决策树可以处理数值型和离散型数据变量。

5、非参数方法:决策树是一个非参数方法。这意味着它不对数据的空间分布和分类结构做任何假设。

缺点

1、过拟合:过拟合是决策树最难处理的困难之一,这个问题通过设置模型参数和剪枝(下面讨论)来解决。

2、不适合于连续型变量:当处理连续数值型变量时,当决策树把连续变量划分成一系列离散值的时候会导致信息丢失

3.集成学习Bagging之RF介绍。 基于树模型的集成方法有哪些?

集成学习(Ensemble Methods)使用一组预测相同目标的模型通过投票、加权平均、梯度提升等组合方法,多多个弱学习模型进行组合。

偏差和方差的问题?

几乎所有的模型都有偏差和方差问题,偏差表示预测值与目标值之间偏离程度,方差表示是指同一个数据集在模型预测结果的差异程度。(通常是样本目标异常导致的)

通常,当你增加模型复杂度,你会看到由于模型的偏差降低,预测错误率会降低。当你持续提升模型复杂度,会导致模型过拟合,你的模型会产生高偏差。

常用的集成方法

Bagging、Boosting和Stacking

Bagging的工作原理

1)有放回抽样多个数据集建模形成多个分类器。 2)对多个分类器结果进行投票处理。 典型代表RF随机森林。

Boosting的工作原理?

1)初始化每个训练样本相同的权重。

2)每次训练更新一次权重,对分类错误的样本重采样时加大权重。

典型代表:AdaBoost、GBDT。

stacking的工作原理?

对多个学习器的预测结果作为新模型的输入重新训练。

Random Forest RF的工作原理?

1)随机放回抽样训练样本。(列采样,行采样) 2)随机选择特征。 3)构建决策树。 4)分类:投票。回归:平方误差最小化。

RF有两个随机采样过程

有放回的随机采样-bootstrap采样: 行采样:采用有放回的方式,也就是在采样得到的样本集合中,可能有重复的样本 列采样: 从M个feature中,选择m个(m



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3