算法导论(第四版)第三十三章:机器学习算法 前言

您所在的位置:网站首页 算法自学书籍 算法导论(第四版)第三十三章:机器学习算法 前言

算法导论(第四版)第三十三章:机器学习算法 前言

2023-03-24 11:34| 来源: 网络整理| 查看: 265

33 机器学习算法(Machine-Learning Algorithms)

机器学习(machine learning)可以被视为人工智能的一个子领域。广义地说,人工智能旨在使计算机能够以类似人类的性能执行复杂的感知和信息处理任务。人工智能领域非常广阔,使用了许多不同的算法方法。

机器学习丰富而迷人,与统计(statistics)和优化(optimization)有着密切的联系。今天的技术产生了大量数据,为机器学习算法提供了无数机会来制定和测试数据中的模式假设。然后,这些假设可用于预测新数据中的特征或分类。由于机器学习特别适用于具有不确定性的挑战性任务,这些任务中观察到的数据遵循未知规则,因此机器学习显著改变了医学、广告和语音识别等领域。

本章介绍了三种重要的机器学习算法: k 均值聚类( k-means clustering)、乘法权重(multiplicative weights)和梯度下降(gradient descent)。你可以将这些任务中的每一项视为一个学习问题,算法使用迄今为止收集的数据来产生一个假设,该假设描述了学习到的规律并/或对新数据进行预测。机器学习的边界是不精确的且不断演变的,有些人可能会说, k 均值聚类算法应该被称为“数据科学”而不是“机器学习”,而梯度下降法虽然是机器学习中的一个非常重要的算法,但也有机器学习之外的大量应用(最常见的是用于优化问题)。

机器学习通常从训练阶段(training phase)开始,然后是预测阶段(prediction phase),在预测阶段中对新数据进行预测。对于在线学习(online learning),训练和预测阶段是混合的。训练阶段采用输入训练数据(training data),其中每个输入数据点具有相关的输出或标签(label);标签可能是类别名称或某个实值属性。然后,它产生一个或多个关于标签如何依赖于输入数据点的属性的假设(hypothesis)作为输出。假设可以采取多种形式,通常是某种类型的公式或算法。所使用的学习算法通常是梯度下降的形式。然后,预测阶段使用关于新数据的假设,以便对新数据点的标签进行预测(prediction)。

刚刚描述的学习类型被称为监督学习(supervised learning),因为它从一组输入开始,每个输入都被标记。例如,考虑一种机器学习算法来识别垃圾邮件。训练数据包括一组电子邮件,每个电子邮件都被标记为“垃圾邮件”或“非垃圾邮件”。机器学习算法构建了一个假设,可能是一种形式的规则:“如果电子邮件包含一组单词中的一个,那么它很可能是垃圾邮件”。或者,它可以学习规则,为每个单词分配一个垃圾邮件分数,然后通过其组成单词的垃圾邮件分数的总和来评估文件,从而将总分高于某个阈值的文件分类为垃圾邮件。然后,机器学习算法可以预测新邮件是否为垃圾邮件。

机器学习的第二种形式是无监督学习(unsupervised learning),其中训练数据未标记,如 33.1 节的聚类问题。这里,机器学习算法产生关于输入数据点组的中心的假设。

机器学习的第三种形式(此处未进一步讨论)是强化学习(reinforcement learning),其中机器学习算法在一个环境中采取行动,从该环境中接收这些行动的反馈,然后基于反馈更新该环境模型。学习者处于一个具有某种状态的环境中,学习者的行为会对这种状态产生影响。强化学习是游戏或驾驶自动驾驶汽车等情况下的自然的选择。

有时,受监督的机器学习应用程序的目标不是对新示例的标签进行准确预测,而是进行因果推断(causal inference):找到一个描述输入数据点的各种特征影响其相关标签的解释模型。找到一个非常适合给定训练数据集的模型可能很棘手,它可能涉及复杂的优化方法,需要在产生一个很适合数据的假设和产生一个简单的假设之间取得平衡。

本章重点关注三个问题领域:找到对输入数据点进行良好分组的假设(使用聚类算法),学习在线学习问题中进行预测所依赖的预测方法(使用乘法权重算法),以及将模型拟合到数据(使用梯度下降法)。

33.1 节研究了聚类问题:如何将给定的一组 n 个训练数据点划分为给定数量的 k 个组或“簇(cluster)”,这是基于对点之间的相似程度(或更准确地说,不同程度)的度量。该方法是迭代的,从任意初始聚类开始,并结合连续的改进,直到无法进行进一步的改进。当处理机器学习问题以发现数据中存在什么结构时,聚类通常被用作初始步骤。

33.2 节说明了当你有一组预测方法(通常称为“专家”)可以依靠时,如何非常准确地进行在线预测,其中许多预测方法可能是较差的预测方法,但其中也有一些是很好的预测方法具。起初,你不知道哪些预测方法差,哪些预测方法好。我们的目标是对新的例子进行预测,这些预测几乎与最佳预测方法的预测一样好。我们研究了一种有效的乘法权重预测方法,该方法将正的实值权重与每个预测方法相关联,并在一个预测方法预测不佳时乘性地减少与该预测方法相关的权重。本节中的模型是在线的(详见第 27 章):在每一步中,我们对未来的示例一无所知。此外,即使在对抗专家在场的情况下,我们也能够做出预测,这些专家作为对手正在与我们进行模拟,这种情况实际上发生在游戏环境中。

33.3 节介绍了梯度下降法,这是一种用于在机器学习模型中查找参数设置的强大优化技术。梯度下降法在机器学习之外也有许多应用。直观地说,梯度下降法通过“走下坡路”找到产生函数局部最小值的值。在学习应用程序中,“下坡步骤”是调整假设参数的步骤,以便假设在给定的一组标记示例上表现得更好。

本章广泛使用向量。与本书其余部分不同,本章中的向量名称以粗体显示,例如 \boldsymbol{x} ,以清楚描述哪些量是向量。向量的分量不会以粗体显示,若向量 \boldsymbol{x} 有 d 个维度,则记作 \boldsymbol{x} = (x_1,x_2,...,x_d) 。当然手写向量需要加箭头,向量 \boldsymbol{x} 记作 \vec{x} 。

评:本书中向量的表示有问题,应该用 \boldsymbol{x} 表示粗体为 \boldsymbol{x} ,而不应该用 \textbf{x} 表示粗体为 \textbf{x} ,这样修改后与《机器学习》中表示一致,本章内容可以作为《机器学习》的导读进行学习。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3