数据挖掘

您所在的位置:网站首页 决策树c45 数据挖掘

数据挖掘

2023-08-12 23:27| 来源: 网络整理| 查看: 265

C4.5算法与ID3算法的不同点: (1)分支指标采用增益比例 (2)数值属性的处理 (3)处理缺少属性值的训练样本 (4)使用K次迭代交叉验证,评估模型的优劣程度; (5)根据生成的决策树,可以产生一个if-then规则的集合。

计算的步骤: 1.对数据源进行预处理 2.计算每个属性的信息增益和信息增益率 3.根节点属性每一个可能的取值对应一个子集,对样本子集递归地执行以上Step2过 程,直到划分的每个子集中的观测数据在分类属性上取值都相同,生成决策树 4.根据构造的决策树提取分类规则,对新的数据集进行分类。

C4.5算法例题: 在这里插入图片描述 分割线--------------------------------------------------------------------------------- 在这里插入图片描述 在这里插入图片描述 分割线--------------------------------------------------------------------------------- 第一种因素:(性别) 在这里插入图片描述 下面的三个式子为熵: 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 下面1个式子为信息增益: 在这里插入图片描述 下面1个式子为分裂信息: 在这里插入图片描述 下面1个式子为信息增益率: 在这里插入图片描述

分割线--------------------------------------------------------------------------------- 第二种因素:(学生干部) 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

分割线--------------------------------------------------------------------------------- 第三种因素:(综合成绩) 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

分割线--------------------------------------------------------------------------------- 第四种因素:(毕业论文) 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

分割线---------------------------------------------------------------------------------

对比四种因素的信息增益率,选择最大的作为根节点,这里最大的是(学生干部),之后就是递归解决接下来的节点。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3