机器学习

您所在的位置:网站首页 无量纲化处理为什么是数据预处理中非常重要的一步 机器学习

机器学习

2023-06-11 22:04| 来源: 网络整理| 查看: 265

本系列为1~5分钟快速了解机器学习系列文章,方便大家快速了解机器学习知识小点。

1、什么是特征归一化

为了消除数据特征之间的量纲的影响,我们需要对输入数据进行预处理,其中就有一步是特征归一化,使得不同的指标之间具有可比性。例如数据集包含了两个特征,年龄(x1)和体重(x2)。

年龄范围为0100岁之间,体重范围为0200kg及以上。因此体重和年龄具有不同的范围,当对该数据构建多元线性回归模型时,体重对结果影响远远大于年龄的值,但是这和实际情况是不相符的,因为忽视了年龄对结果的影响。

2、特征归一化方法 (1)线性函数归一化

对原始数据进行线性变换,使得结果映射到[0,1]的区间内,实现等比缩放。公式:

(2)零均值归一化

将原始数据映射到均值为0,标准差为1的分布上,假设原始的均值为u,标准差为r,那么归一化公式定义为:

3、为什么需要归一化

归一化的目的是为了解决梯度下降收敛速度的问题。假设有两种数值特征x1,其取值范围[0, 10],数值特征x2,取值范围[0, 3],其目标函数的等值图如下:

在相同的学习率的情况下,x1的更新速度会大于x2,需要较多的迭代才能找到最优解;

归一化后有两种数值特征x1,其取值范围[0, 1],数值特征x2,取值范围[0, 1],其目标函数的等值图如下:

x1的更新速度等于x2,这样比未做归一化处理的更快的找到最优解。

4、总结

在实际应用过程中,梯度下降法的求解模型通常需要归一化处理,包括线性回归,逻辑回归,支持向量机,神经网络等。

但是概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率,比如决策树(概率模型)、随机森林、朴素贝叶斯(概率模型)等。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3