决策树与R语言(RPART) |
您所在的位置:网站首页 › r语言type=class › 决策树与R语言(RPART) |
关于决策树理论方面的介绍,李航的《统计机器学习》第五章有很好的讲解。 传统的ID3和C4.5一般用于分类问题,其中ID3使用信息增益进行特征选择,即递归的选择分类能力最强的特征对数据进行分割,C4.5唯一不同的是使用信息增益比进行特征选择。 特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A) 特征A对训练数据D的信息增益比r(D, A) = g(D, A) / H(D) 而CART(分类与回归)模型既可以用于分类、也可以用于回归,对于回归树(最小二乘回归树生成算法),需要寻找最优切分变量和最优切分点,对于分类树(CART生成算法),使用基尼指数选择最优特征。
参考自博客,一个使用rpart完成决策树分类的例子如下: [plain] view plain copy![]() |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |