3. 机器学习之特征选择

2024-05-27 01:26| 来源: 网络整理| 查看: 265

sklearn 有封装好的方差法— 移除低方差的特征 (Removing features with low variance)。方差用来计算每一个变量（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。

当数据分布比较分散（即数据在平均数附近波动较大）时，各个数据与平均数的差的平方和较大，方差就较大；当数据分布比较集中时，各个数据与平均数的差的平方和较小。因此方差越大，数据的波动越大；方差越小，数据的波动就越小。往往方差是不小于0的数值，建模的过程中，更偏向于方差大的变量，对于接近0的变量，往往会剔除。极限的思想，当方差为0的时候，说明该字段的所有数据都一样，对于建模根本毫无意义。换个角度，在不考虑异常点的前提下，方差的大小也间接反映了信息量的多少，也就是信息熵。

VarianceThreshold 是特征选择的一个简单基本方法，它会移除所有那些方差不满足一些阈值的特征。默认情况下，它将会移除所有的零方差特征，即那些在所有的样本上的取值均不变的特征。

有理论知，随机变量(也就是自变量,特征。概率论上喜欢叫它随机变量)的方差，分为连续型随机变量和离散型随机变量。不同类型的随机变量求其方差公式不一样。查看源码知，sklearn直接简单粗暴的把变量当成离散型随机变量处理。可是我们的特征有离散的也有连续的变量？此处提供两种思路，思路一：当特征值都是离散型变量的时候这种方法才能用，如果是连续型变量，就需要将连续变量离散化之后才能用；思路二：无论是离散型变量还是连续性变量，全部当成离散型变量处理。这是因为把连续型变量细分，可以分成一个个的离散变量(极限的思想），将积分换算为数项级数。

方差的优缺点：

我们知道，方差越小，对平均值的偏离就越小，其变量越稳定。假设某特征的特征值只有0和1，并且在所有输入样本中，95%的样本的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了。而且实际当中，先去掉那些取值变化小的特征，然后再使用其他特征选择方法中选择合适的进行进一步的特征选择。优点：计算速度快(相对于嵌入式方法)。此特性可以用在几千上万维的特征中，我们可以使用方差法，过滤掉大量的方差较小的特征；缺点：简单，可能忽视了重要特征(重要特征不一定方差很大)。

【本文地址】

3. 机器学习之特征选择

3. 机器学习之特征选择

今日新闻

推荐新闻