损失函数(Loss Function)、代价函数(Cost Function)和目标函数(Object Function) |
您所在的位置:网站首页 › 损失函数与代价函数 › 损失函数(Loss Function)、代价函数(Cost Function)和目标函数(Object Function) |
最近学习遇到了代价函数,在网上搜索整理了几个容易混淆的概念: 一、定义 损失函数定义在单个样本上,算的是一个样本的误差。 代价函数定义在整个训练集上,是所有样本误差的平均,也就是损失函数的平均。 目标函数定义为最终需要优化的函数,等于经验风险 + 结构风险(也就是Cost Function + 正则化项)。 损失函数和代价函数是同一个东西,目标函数是一个与他们相关但更广的概念,对于目标函数来说在有约束条件下的最小化就是损失函数。 上面三个图的函数依次为f1(x),f2(x),f3(x)。我们想用这三个函数分别来拟合Price,Price的真实值记为Y。我们给定x,这三个函数都会输出一个f(x),这个输出的f(x)与真实值Y可能相同,也可能不同。为了表示我们拟合的好坏,我们就用一个函数来度量拟合的程度,比如L(Y,f(x))=(Y-f(x))2,这个函数就称为损失函数(loss function),或者叫代价函数(cost function)。损失函数越小,就代表模型拟合的越好。 那是不是我们的目标就只是让loss function越小越好呢? 还不是。这个时候还有一个概念叫风险函数(risk function)。风险函数是损失函数的期望,这是由于我们输入输出的(X,Y)遵循一个联合分布,但是这个联合分布是未知的,所以无法计算。但是我们是有历史数据的,就是我们的训练集f(X),关于训练集的平均损失称作经验风险(empirical risk),即 到这里完了吗?还没有。 如果到这一步就完了的话,那我们看上面的图,那肯定是最右面的f3(x)的经验风险函数最小了,因为它对历史的数据拟合的最好嘛。但是我们从图上来看f3(x)肯定不是最好的,因为它过度学习历史数据,导致它在真正预测时效果会很不好,这种情况称为过拟合(over-fitting)。 为什么会造成这种结果? 大白话说就是它的函数太复杂了,都有四次方了,这就引出了下面的概念,我们不仅要让经验风险最小化,还要让结构风险最小化。这个时候就定义了一个函数J(f),这个函数专门用来度量模型的复杂度,在机器学习中也叫正则化(regularization)。常用的有L1,L2范数。到这一步我们就可以说我们最终的优化函数是 结合上面的例子来分析:最左面的f1(x)结构风险最小(模型结构最简单),但是经验风险最大(对历史数据拟合的最差);最右面的f3(x)经验风险最小(对历史数据拟合的最好),但是结构风险最大(模型结构最复杂);而f2(x)达到了二者的良好平衡,最适合用来预测未知数据集。 这就不难理解,目标跟踪中基于岭回归的目标优化问题:
二、什么是代价函数 假设有训练样本(x, y),模型为h,参数为θ。h(θ) = θTx(θT表示θ的转置)。 (1)概况来讲,任何能够衡量模型预测出来的值h(θ)与真实值y之间的差异的函数都可以叫做代价函数C(θ),如果有多个样本,则可以将所有代价函数的取值求均值,记做J(θ)。因此很容易就可以得出以下关于代价函数的性质: 对于每种算法来说,代价函数不是唯一的; 代价函数是参数θ的函数; 总的代价函数J(θ)可以用来评价模型的好坏,代价函数越小说明模型和参数越符合训练样本(x, y); J(θ)是一个标量;(2)当我们确定了模型h,后面做的所有事情就是训练模型的参数θ。那么什么时候模型的训练才能结束呢?这时候也涉及到代价函数,由于代价函数是用来衡量模型好坏的,我们的目标当然是得到最好的模型(也就是最符合训练样本(x, y)的模型)。因此训练参数的过程就是不断改变θ,从而得到更小的J(θ)的过程。理想情况下,当我们取到代价函数J的最小值时,就得到了最优的参数θ,记为:
(3)在优化参数θ的过程中,最常用的方法是梯度下降(gradient descent algorithm),这里的梯度就是代价函数J(θ)对θ1, θ2, ..., θn的偏导数。由于需要求偏导,我们可以得到另一个关于代价函数的性质: 选择代价函数时,最好挑选对参数θ可微的函数(全微分存在,偏导数一定存在)三、代价函数的常见形式 一个好的代价函数需要满足两个最基本的要求:能够评价模型的准确性,对参数θ可微。 3.1 均方误差 在线性回归中,最常用的是均方误差(Mean squared error),具体形式为:
m:训练样本的个数;
hθ(x):用参数θ和x预测出来的y值;
y:原训练样本中的y值,也就是标准答案
上角标(i):第i个样本
对于有两个参数的模型,运用梯度下降算法,更新参数的过程:
线性回归模型的代价函数对参数的偏导数:
在逻辑回归中,最常用的代价函数是交叉熵(Cross Entropy),交叉熵是一个常见的代价函数,在神经网络中也会用到。 下面是《神经网络与深度学习》一书对交叉熵的解释: 交叉熵是对「出乎意料」(译者注:原文使用suprise)的度量。神经元的目标是去计算函数y, 且y=y(x)。但是我们让它取而代之计算函数a, 且a=a(x)。假设我们把a当作y等于1的概率,1−a是y等于0的概率。那么,交叉熵衡量的是我们在知道y的真实值时的平均「出乎意料」程度。当输出是我们期望的值,我们的「出乎意料」程度比较低;当输出不是我们期望的,我们的「出乎意料」程度就比较高。 线性回归模型中,训练集和代价函数如下图
这里我们先对线性回归模型中的代价函数J(θ)进行简单的改写,将Cost(h(x), y) = 1/2(h(x) - y)^2 替换为:
为了统一表示,可以把Cost(h(x), y)表达成统一的式子,根据前面J(θ)的定义,J(θ)等于
特别说明: 当y=1的时候,第二项(1-y)log(1-h(x))等于0 当y=0的时候,ylog(h(x))等于0根据逻辑回归模型的代价函数以及sigmoid函数
3.3 神经网络中的代价函数 学习过神经网络后,发现逻辑回归其实是神经网络的一种特例(没有隐藏层的神经网络)。因此神经网络中的代价函数与逻辑回归中的代价函数非常相似: 这里之所以多了一层求和项,是因为神经网络的输出一般都不是单一的值,K表示在多分类中的类型数。 例如在数字识别中,K=10,表示分了10类。此时对于某一个样本来说,假设输出的结果如下:1.1266e-004 1.7413e-003 2.5270e-003 1.8403e-005 9.3626e-003 3.9927e-003 5.5152e-003 4.0147e-004 6.4807e-003 9.9573e-001 一个10维的列向量,预测的结果表示输入的数字是0~9中的某一个的概率,概率最大的就被当做是预测结果。例如上面的预测结果是9。理想情况下的预测结果应该如下(9的概率是1,其他都是0):0 0 0 0 0 0 0 0 0 1 比较预测结果和理想情况下的结果,可以看到这两个向量的对应元素之间都存在差异,共有10组,这里的10就表示代价函数里的K,相当于把每一种类型的差异都累加起来了。 神经网络中的代价函数对参数的偏导数,待学习补充。 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |