Random Forest 解释模型
1. 介绍2. 理解随机森林运行机理2.1导入需要的包2.2 构建随机森林模型2.3 RF特征重要性:2.4 特征对预测结果的影响2.5 交互作用2.6 替代模型(Decision tree surrogate model)2.7 LocalModel方法
1. 介绍
机器学习模型通常可以很好地进行预测,但无法解释。 iml包提供了用于分析任何黑匣子机器学习模型的工具:The iml package provides tools to analyze machine learning models and predictions.
机器学习步骤: 我们主要是想通过iml包理解机器学习的黑盒子的运行过程和原理。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/e7f0f319569b42c8b43fbf1e635abf11.png#pic_center)
2. 理解随机森林运行机理
2.1导入需要的包
library("iml")
library(randomForest)
library(partykit)
library(glmnet)
data("Boston", package = "MASS")
head(Boston)
2.2 构建随机森林模型
set.seed(123)
rf = randomForest(crim ~ ., data = Boston, ntree = 500,importance = T)
2.3 RF特征重要性:
特征重要性度量是通过改变每个特征并测量性能下降多少来起作用,而并非代表重要程度。回归分析中一般使用MAE(平均绝对误差),分类中一般使用MSE(均方误差)。
# 数据划分为自变量X和因变量y
X = Boston[which(names(Boston) != "crim")]
#X |