机器学习基础(二十一) |
您所在的位置:网站首页 › 生成模型和判别模型 › 机器学习基础(二十一) |
无论是生成模型还是判别模型,都可作为一种分类器(classification)来使用;
1. 分类与回归
(1)分类的目标变量是标称型数据(categorical data),0/1,yes/no(2)回归:连续型(numeric data),鲍鱼的年龄,玩具的售价
对于分类问题,监督学习从数据中学习一个分类模型或分类决策函数,称为分类器(classifier)。分类器对新的输入进行输出的预测(predication),称为分类(classification),可能的输出称为类 class。 评价分类器性能的指标一般是分类精确率(accuracy),其定义是:对于给定测试数据集,分类器正确分类的样本数和总样本数之比。也就是损失函数是 0-1 损失时测试数据集上的准确率。 L=1N∑n=1N1yn≠g(xn)回归(Regression)是监督学习的另一个重要问题,回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数,回归问题的学习等价于函数拟合。 回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。 2. 生成模型与判别模型 生成模型根据联合概率 P(X,Y) ,然后求条件概率 P(Y|X) ,其提供了一种生成关系,故可还原联合概率分布 P(X,Y) ;判别模型直接学习条件概率 P(Y|X) 或决策函数 f(X) ;监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这个模型的一般形式分为两类: (1)决策函数: Y=f(X)(2)条件概率分布 P(Y|X)监督学习方法又可分为生成方法(generative approach)和判别方法(discriminative approach),所学到的模型分别为生成模型(generative model)和判别模型(discriminative model)。 生成方法由数据学习联合概率分布 P(X,Y) ,然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型: P(Y|X)=P(X,Y)P(X)这样的方法之所以称为生成方法,是因为模型表示了给定输入 X 产生输出 Y 的生成关系。典型的生成模型主要有: 朴素贝叶斯法( P(ci|w)=P(ci)P(w|ci)P(w) ) 因为贝叶斯分类器,其实说明了如何通过类条件概率(class-conditional probability)( p(w|ci) )以及类先验(prior, p(ci) )来生成数据的过程和方法。 隐马尔科夫模型(存在隐变量) 判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(X,Y) 作为预测的模型,即判别模型。判别方法关心的是,对给定的输入 X ,应该预测什么样的输出 Y。 生成方法的特点: (1)生成方法可以还原出联合概率分布 P(X,Y) ,而判别方法则不能;(2)生成方法的学习收敛速度更快,即当样本容量增加时,学到的模型可以更快地收敛到真实模型;(3)当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用判别方法的特点: (1)判别方法直接学习的是条件概率 P(Y|X) 或决策函数 f(X) ,直接面对预测,往往学习的准确率更高(2)由于直接学习 P(Y|X) 或 f(X) ,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |