sklearn 随机森林(分类器、回归器)的重要参数、属性、方法理解 |
您所在的位置:网站首页 › c4581参数 › sklearn 随机森林(分类器、回归器)的重要参数、属性、方法理解 |
文章目录
随机森林分类器引入重要参数1,n_estimators2,criterion3,max_depth4,min_samples_leaf5,min_samples_split7,max_features8,class_weight9,max_leaf_nodes10,oob_score11,verbose
重要属性重要方法
随机森林回归器
随机森林分类器
引入
from sklearn.ensemble import RandomForestClassifier
# 全部参数
RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
criterion='gini', max_depth=None, max_features='auto',
max_leaf_nodes=None, max_samples=None,
min_impurity_decrease=0.0, min_impurity_split=None,
min_samples_leaf=1, min_samples_split=2,
min_weight_fraction_leaf=0.0, n_estimators=100,
n_jobs=None, oob_score=False, random_state=None,
verbose=0, warm_start=False)
重要参数
1,n_estimators
数值型参数,默认值为100,此参数指定了弱分类器的个数。设置的值越大,精确度越好,但是当 n_estimators 大于特定值之后,带来的提升效果非常有限。 推荐的参数值为:[120, 300, 500, 800, 1200] 2,criterion字符串类型,默认值为 ‘gini’。这个参数指定划分子树的评估标准: ‘entropy’,使用基于信息熵的方法,即计算信息增益‘gini’,使用基尼系数(Gini Impurity)**推荐设置为 ‘gini’,**因为(1)基尼系数的计算过程相对简单,而计算信息增益需要进行对数运算。(2)使用信息增益作为划分标准时,在使用高纬度数据或者噪声很多的数据时容易过拟合。 3,max_depth数值型,默认值None。这是与剪枝相关的参数,设置为None时,树的节点会一直分裂,直到:(1)每个叶子都是“纯”的;(2)或者叶子中包含⼩于min_sanples_split个样本。 推荐从 max_depth = 3 尝试增加,观察是否应该继续加大深度。 合适的取值可以是 [3, 5, 8, 15, 25, 30, None] 如果max_leaf_nodes参数非None,则忽略此项 4,min_samples_leaf数值型,默认值1,指定每个叶子结点包含的最少的样本数。参数的取值除了整数之外,还可以是浮点数,此时(min_samples_leaf * n_samples)向下取整后的整数是每个节点的最小样本数。 此参数设置的过小会导致过拟合,反之就会欠拟合。调整过程: 从min_samples_leaf=5开始上下调整。对于类别不多的分类问题,设置为1通常是合理的选择。当叶节点包含样本数量差异很大时,建议设置为浮点数。推荐的取值可以是:[1, 2, 5, 10] 5,min_samples_split数值型,默认值2,指定每个内部节点(非叶子节点)包含的最少的样本数。与min_samples_leaf这个参数类似,可以是整数也可以是浮点数。 推荐的取值是:[1, 2, 5, 10, 15, 100] 7,max_features可以为整数、浮点、字符或者None,默认值为None。此参数用于限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃。 如果是整数,则每次切分只考虑max_features个特征。如果是浮点数,每次切分只考虑max_features*n_features个特征(max_features指定百分⽐)。如果是字符串‘auto’,则max_features等于n_features。如果是字符串‘sqrt’,则max_features等于sqrt(n_features)。如果是字符串‘log2’,则max_features等于log2(n_features)。如果是字符串None,则max_features等于n_features。推荐的取值为:[‘log2’, ‘sqrt’, None] 8,class_weight可以是列表、字典、或者字符串’balanced’,还可以是默认值None。这个参数主要是用于样本不平衡数据集,当设置为None时,所有类别样本权重都为1。也可以利用列表或者字典手动设置各个类别样本的权重,将样本较少的类别赋予更大的权重。当设置为’balanced’时,会自动根据样本出现的频率计算权重,即 n_samples / (n_classes * np.bincount(y)) 推荐的设置为:[None, ‘balanced’] 9,max_leaf_nodes数值型参数,默认值为None,即不限制最大叶子节点数。这个参数通过限制树的最大叶子数量来防止过拟合,如果设置了一个正整数,则会在建立的最大叶节点内的树中选择最优的决策树。如果特征不多,可以设置为None,否则可以设置为小于 2 m a x _ d e p t h 2^{max\_depth } 2max_depth 的数值。 10,oob_scorebool类型参数,默认值为False,即是否采用袋外样本来评估模型的好坏。个人推荐设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。 11,verbose数值类型,默认值为0,表示不输出日志。如果为1,则每次迭代输出一次日志。如果大于1,则每间隔 verbose 此迭代输出一次日志。 重要属性1,feature_importances_ ,给出了各个特征对模型的重要性。 2,oob_score_,训练数据使用的包外数据的得分。 重要方法1,fit(X,y) : 训练模型。 2,predict(X) : 用模型预测,返回预测值。 3,predict_proba(X) : 返回一个数组,数组元素依次为各个样本属于各个类别的概率值。 4,score(X, y) : 返回在(X, y)上预测的准确率(accuracy)。 随机森林回归器引入方式如下: from sklearn.ensemble import RandomForestRegressor # 所有参数 RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse', max_depth=None, max_features='auto', max_leaf_nodes=None, max_samples=None, min_impurity_decrease=0.0, min_impurity_split=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=100, n_jobs=None, oob_score=False, random_state=None, verbose=0, warm_start=False)其中,参数criterion 是字符串类型,默认值为 ‘mse’,是衡量回归效果的指标。可选的还有‘mae’ 。 除了criterion这个参数之外,其他参数、属性、方法的含义与用法与上文提到的随机森林分类器的参数基本一致。 参考文章: sklearn.ensemble.RandomForestClassifier sklearn.ensemble.RandomForestRegressor SKlearn中分类决策树的重要参数详解 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |