决策树与R语言(RPART)

您所在的位置：网站首页 › r语言type=class › 决策树与R语言(RPART)

决策树与R语言(RPART)

2023-08-25 20:26| 来源: 网络整理| 查看: 265

关于决策树理论方面的介绍，李航的《统计机器学习》第五章有很好的讲解。

传统的ID3和C4.5一般用于分类问题，其中ID3使用信息增益进行特征选择，即递归的选择分类能力最强的特征对数据进行分割，C4.5唯一不同的是使用信息增益比进行特征选择。

特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)

特征A对训练数据D的信息增益比r(D, A) = g(D, A) / H(D)

而CART（分类与回归）模型既可以用于分类、也可以用于回归，对于回归树（最小二乘回归树生成算法），需要寻找最优切分变量和最优切分点，对于分类树（CART生成算法），使用基尼指数选择最优特征。

参考自博客，一个使用rpart完成决策树分类的例子如下：

[plain] view plain copy

library(rpart); ## rpart.control对树进行一些设置 ## xval是10折交叉验证 ## minsplit是最小分支节点数，这里指大于等于20，那么该节点会继续分划下去，否则停止 ## minbucket：叶子节点最小样本数 ## maxdepth：树的深度 ## cp全称为complexity parameter，指某个点的复杂度，对每一步拆分,模型的拟合优度必须提高的程度 ct

【本文地址】

决策树与R语言(RPART)

决策树与R语言(RPART)

今日新闻

推荐新闻