机器学习 |
您所在的位置:网站首页 › 无量纲化处理为什么是数据预处理中非常重要的一步 › 机器学习 |
本系列为1~5分钟快速了解机器学习系列文章,方便大家快速了解机器学习知识小点。 1、什么是特征归一化为了消除数据特征之间的量纲的影响,我们需要对输入数据进行预处理,其中就有一步是特征归一化,使得不同的指标之间具有可比性。例如数据集包含了两个特征,年龄(x1)和体重(x2)。 年龄范围为0100岁之间,体重范围为0200kg及以上。因此体重和年龄具有不同的范围,当对该数据构建多元线性回归模型时,体重对结果影响远远大于年龄的值,但是这和实际情况是不相符的,因为忽视了年龄对结果的影响。 2、特征归一化方法 (1)线性函数归一化对原始数据进行线性变换,使得结果映射到[0,1]的区间内,实现等比缩放。公式: 将原始数据映射到均值为0,标准差为1的分布上,假设原始的均值为u,标准差为r,那么归一化公式定义为: 归一化的目的是为了解决梯度下降收敛速度的问题。假设有两种数值特征x1,其取值范围[0, 10],数值特征x2,取值范围[0, 3],其目标函数的等值图如下: 在相同的学习率的情况下,x1的更新速度会大于x2,需要较多的迭代才能找到最优解; 归一化后有两种数值特征x1,其取值范围[0, 1],数值特征x2,取值范围[0, 1],其目标函数的等值图如下: x1的更新速度等于x2,这样比未做归一化处理的更快的找到最优解。 4、总结在实际应用过程中,梯度下降法的求解模型通常需要归一化处理,包括线性回归,逻辑回归,支持向量机,神经网络等。 但是概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率,比如决策树(概率模型)、随机森林、朴素贝叶斯(概率模型)等。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |