为什么传统的非线性优化需要一个很好的初值才能work，而神经网络却不需要呢？

您所在的位置：网站首页 › 1-cos2x等价于什么 › 为什么传统的非线性优化需要一个很好的初值才能work，而神经网络却不需要呢？

为什么传统的非线性优化需要一个很好的初值才能work，而神经网络却不需要呢？

2023-04-15 02:09| 来源: 网络整理| 查看: 265

作者： @Zhifeng （已授权转载）链接：https://www.zhihu.com/question/585900971/answer/2912817930

点击关注@LiteAI，跟进最新Efficient AI & 边缘AI & 模型轻量化技术，跟进最新DL & CV技术。

在DL/ML理论研究中，这确实是一个令人十分费解的问题。我最近刷到了一篇挺好的文章，从 loss landscape 的角度解释这个问题。文章叫作 Git Re-Basin: Merging Models modulo Permutation Symmetries, 是发表在 ICLR 2023 上的高分文章。这篇文章考虑的问题稍微更加细化一些

为什么SGD 在优化其它任务的时候往往会失败，但是优化神经网络总能work?既然SGD会收敛到局部最小值，那么这些局部最小值都在哪里?为什么使用不同的初值、随机种子、batch 次序得到的loss曲线看起来都是差不多的?

我们都知道，神经网络的 loss landscape 是高度非凸的。当人们说起非凸函数，往往想到的是如下这张图。因此，人们往往会认为，不同的初值会使得网络被优化到不同的最小值点，有的 work 有的不 work.

但是，这并不能解释SGD在神经网络中的效果。因此，文章认为，神经网络的 loss landscape 并不是上图中毫无规律的，而是如下图 在 permutation symmetry 的意义下只有一个 basin (向下凸的盆地)! 也就是说，用两个不同初值训练得到的模型： \Theta_A,\Theta_B 是在两个不同的 basin 里面，但是我们可以计算出 \Theta_B 的等价模型 \pi(\Theta_B) , 它与 \Theta_A 则处于同一个 basin 里面。

我们知道，将同一层的神经元调换一下顺序并不会改变模型的输出，模型还是一样的，只是参数看起来不太一样了。那么，我们简称变换前后的模型在 permutation symmetry 的意义下是等价的。通过简单的排列组合，我们可以计算出神经网络有大量的等价模型。比方说，ResNet 就有 10^{55109} 个等价模型。现在，假设我们将所有的等价模型标出来(蓝色点)，文章提出的猜想是，有这么一个通过permutation得到的等价模型 \pi(\Theta_B) (红色点), 它与\Theta_A 处于同一个basin中。而验证的方法则是在两个模型中做线性插值，然后观察loss的变化。如右上所示，直接对\Theta_A,\Theta_B做插值会产生很高的壁垒，这说明它们不在同一个basin里面，但是如右下所示，对 \Theta_A,\pi(\Theta_B) 做插值会产生很低的壁垒，我们称之为线性模式通过性 (linear mode connectivity)，这就说明这两个模型处于同一个basin下。

文章也提出了三个不同的算法来近似求解这些permutation matrices, 细节的话可以参考原文 https://openreview.net/pdf?id=CQsmMYmlP5T, 我在这简单概括一下思想

Activation Matching: 等价的模型应该对所有数据都产生相似的激活模式。这样可以逐层计算置换矩阵。该问题可以转化为 linear assignment problem 从而用匈牙利算法解决。Weight Matching: 等价的模型中每一个神经元的输入和输出权重是类似的。直接优化这个问题比较困难，但是可以划分为若干子问题再用 linear assignment problem 的方法解决。Straight-through Estimation: 直接优化一个松弛的等价模型参数，然后通过 Weight Matching 不断寻找其最接近的严格等价模型，往复优化直到收敛。

接下来，文章通过实验传递了若干有价值的发现。1，在找到合适的等价模型后，线性模式通过性是广泛存在的。灰色线表示直接对两个原始模型插值，其产生很高的壁垒，但是通过上述算法找到了合适的等价模型后，壁垒大幅度下降了。这说明 loss landscape 本质上只有一个或少量的basin.

2，线性模式通过性是SGD训练后才出现的现象。在训练初期，模型参数都十分随机，不太可能换换神经元就等价了。

3，更宽的模型线性模式通过性更加明显，壁垒更低，甚至可以降到0。这可能是因为更宽的模型有更多的排列组合的可能，从而更容易找到等价模型。

4，即使是在不同数据集上训练的模型，我们也能观测到线性模式通过性。这对 federated learning / local DP / Ensembling method 等研究都提供了十分有价值的方向，因为文章提出的算法很容易就被推广到合并多个模型。

参考资料：

【本文地址】

为什么传统的非线性优化需要一个很好的初值才能work，而神经网络却不需要呢？

为什么传统的非线性优化需要一个很好的初值才能work，而神经网络却不需要呢？

今日新闻

推荐新闻