机器学习基础（二十一）

2023-12-27 05:43| 来源: 网络整理| 查看: 265

无论是生成模型还是判别模型，都可作为一种分类器（classification）来使用； 1. 分类与回归（1）分类的目标变量是标称型数据（categorical data），0/1，yes/no（2）回归：连续型（numeric data），鲍鱼的年龄，玩具的售价

对于分类问题，监督学习从数据中学习一个分类模型或分类决策函数，称为分类器（classifier）。分类器对新的输入进行输出的预测（predication），称为分类（classification），可能的输出称为类 class。

评价分类器性能的指标一般是分类精确率（accuracy），其定义是：对于给定测试数据集，分类器正确分类的样本数和总样本数之比。也就是损失函数是 0-1 损失时测试数据集上的准确率。

L=1N∑n=1N1yn≠g(xn)

回归（Regression）是监督学习的另一个重要问题，回归用于预测输入变量（自变量）和输出变量（因变量）之间的关系，特别是当输入变量的值发生变化时，输出变量的值也随之发生变化。回归模型正是表示从输入变量到输出变量之间映射的函数，回归问题的学习等价于函数拟合。

回归学习最常用的损失函数是平方损失函数，在此情况下，回归问题可以由著名的最小二乘法（least squares）求解。

2. 生成模型与判别模型生成模型根据联合概率 P(X,Y) ，然后求条件概率 P(Y|X) ，其提供了一种生成关系，故可还原联合概率分布 P(X,Y) ；判别模型直接学习条件概率 P(Y|X) 或决策函数 f(X) ；

监督学习的任务就是学习一个模型，应用这一模型，对给定的输入预测相应的输出。这个模型的一般形式分为两类：

（1）决策函数：

Y=f(X)

（2）条件概率分布

P(Y|X)

监督学习方法又可分为生成方法（generative approach）和判别方法（discriminative approach），所学到的模型分别为生成模型（generative model）和判别模型（discriminative model）。

生成方法由数据学习联合概率分布 P(X,Y) ，然后求出条件概率分布 P(Y|X) 作为预测的模型，即生成模型：

P(Y|X)=P(X,Y)P(X)

这样的方法之所以称为生成方法，是因为模型表示了给定输入 X 产生输出 Y 的生成关系。典型的生成模型主要有：

朴素贝叶斯法（ P(ci|w)=P(ci)P(w|ci)P(w) ）

因为贝叶斯分类器，其实说明了如何通过类条件概率（class-conditional probability）（ p(w|ci) ）以及类先验（prior， p(ci) ）来生成数据的过程和方法。

隐马尔科夫模型（存在隐变量）

判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(X,Y) 作为预测的模型，即判别模型。判别方法关心的是，对给定的输入 X ，应该预测什么样的输出 Y。

生成方法的特点：

（1）生成方法可以还原出联合概率分布 P(X,Y) ，而判别方法则不能；（2）生成方法的学习收敛速度更快，即当样本容量增加时，学到的模型可以更快地收敛到真实模型；（3）当存在隐变量时，仍可以用生成方法学习，此时判别方法就不能用

判别方法的特点：

（1）判别方法直接学习的是条件概率 P(Y|X) 或决策函数 f(X) ，直接面对预测，往往学习的准确率更高（2）由于直接学习 P(Y|X) 或 f(X) ，可以对数据进行各种程度上的抽象、定义特征并使用特征，因此可以简化学习问题。

【本文地址】

今日新闻