3. 机器学习之特征选择

您所在的位置:网站首页 自变量的概念和特征 3. 机器学习之特征选择

3. 机器学习之特征选择

2024-05-27 01:26| 来源: 网络整理| 查看: 265

sklearn 有封装好的方差法— 移除低方差的特征 (Removing features with low variance)。方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。 往往方差是不小于0的数值,建模的过程中,更偏向于方差大的变量,对于接近0的变量,往往会剔除。极限的思想,当方差为0的时候,说明该字段的所有数据都一样,对于建模根本毫无意义。换个角度,在不考虑异常点的前提下,方差的大小也间接反映了信息量的多少,也就是信息熵。

VarianceThreshold 是特征选择的一个简单基本方法,它会移除所有那些方差不满足一些阈值的特征。默认情况下,它将会移除所有的零方差特征,即那些在所有的样本上的取值均不变的特征。

有理论知,随机变量(也就是自变量,特征。概率论上喜欢叫它随机变量)的方差,分为连续型随机变量和离散型随机变量。不同类型的随机变量求其方差公式不一样。查看源码知,sklearn直接简单粗暴的把变量当成离散型随机变量处理。可是我们的特征有离散的也有连续的变量?此处提供两种思路,思路一:当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用;思路二:无论是离散型变量还是连续性变量,全部当成离散型变量处理。这是因为把连续型变量细分,可以分成一个个的离散变量(极限的思想),将积分换算为数项级数。

方差的优缺点:

我们知道,方差越小,对平均值的偏离就越小,其变量越稳定。假设某特征的特征值只有0和1,并且在所有输入样本中,95%的样本的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。而且实际当中,先去掉那些取值变化小的特征,然后再使用其他特征选择方法中选择合适的进行进一步的特征选择。 优点:计算速度快(相对于嵌入式方法)。此特性可以用在几千上万维的特征中,我们可以使用方差法,过滤掉大量的方差较小的特征; 缺点:简单,可能忽视了重要特征(重要特征不一定方差很大)。


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3