11. 优化算法

2023-03-17 01:38| 来源: 网络整理| 查看: 265

11. 优化算法¶

截止到目前，本书已经使用了许多优化算法来训练深度学习模型。优化算法使我们能够继续更新模型参数，并使损失函数的值最小化。这就像在训练集上评估一样。事实上，任何满足于将优化视为黑盒装置，以在简单的设置中最小化目标函数的人，都可能会知道存在着一系列此类“咒语”（名称如“SGD”和“Adam”）。

但是，为了做得更好，还需要更深入的知识。优化算法对于深度学习非常重要。一方面，训练复杂的深度学习模型可能需要数小时、几天甚至数周。优化算法的性能直接影响模型的训练效率。另一方面，了解不同优化算法的原则及其超参数的作用将使我们能够以有针对性的方式调整超参数，以提高深度学习模型的性能。

在本章中，我们深入探讨常见的深度学习优化算法。深度学习中出现的几乎所有优化问题都是非凸的。尽管如此，在凸问题背景下设计和分析算法是非常有启发性的。正是出于这个原因，本章包括了凸优化的入门，以及凸目标函数上非常简单的随机梯度下降算法的证明。

11.1. 优化和深度学习 11.1.1. 优化的目标 11.1.2. 深度学习中的优化挑战 11.1.3. 小结 11.1.4. 练习 11.2. 凸性 11.2.1. 定义 11.2.2. 性质 11.2.3. 约束 11.2.4. 小结 11.2.5. 练习 11.3. 梯度下降 11.3.1. 一维梯度下降 11.3.2. 多元梯度下降 11.3.3. 自适应方法 11.3.4. 小结 11.3.5. 练习 11.4. 随机梯度下降 11.4.1. 随机梯度更新 11.4.2. 动态学习率 11.4.3. 凸目标的收敛性分析 11.4.4. 随机梯度和有限样本 11.4.5. 小结 11.4.6. 练习 11.5. 小批量随机梯度下降 11.5.1. 向量化和缓存 11.5.2. 小批量 11.5.3. 读取数据集 11.5.4. 从零开始实现 11.5.5. 简洁实现 11.5.6. 小结 11.5.7. 练习 11.6. 动量法 11.6.1. 基础 11.6.2. 实际实验 11.6.3. 理论分析 11.6.4. 小结 11.6.5. 练习 11.7. AdaGrad算法 11.7.1. 稀疏特征和学习率 11.7.2. 预处理 11.7.3. 算法 11.7.4. 从零开始实现 11.7.5. 简洁实现 11.7.6. 小结 11.7.7. 练习 11.8. RMSProp算法 11.8.1. 算法 11.8.2. 从零开始实现 11.8.3. 简洁实现 11.8.4. 小结 11.8.5. 练习 11.9. Adadelta 11.9.1. Adadelta算法 11.9.2. 代码实现 11.9.3. 小结 11.9.4. 练习 11.10. Adam算法 11.10.1. 算法 11.10.2. 实现 11.10.3. Yogi 11.10.4. 小结 11.10.5. 练习 11.11. 学习率调度器 11.11.1. 一个简单的问题 11.11.2. 学习率调度器 11.11.3. 策略 11.11.4. 小结 11.11.5. 练习

【本文地址】

11. 优化算法

11. 优化算法

今日新闻

推荐新闻