为什么传统的非线性优化需要一个很好的初值才能work,而神经网络却不需要呢?

您所在的位置:网站首页 1-cos2x等价于什么 为什么传统的非线性优化需要一个很好的初值才能work,而神经网络却不需要呢?

为什么传统的非线性优化需要一个很好的初值才能work,而神经网络却不需要呢?

2023-04-15 02:09| 来源: 网络整理| 查看: 265

作者: @Zhifeng (已授权转载)链接:https://www.zhihu.com/question/585900971/answer/2912817930

点击关注@LiteAI,跟进最新Efficient AI & 边缘AI & 模型轻量化技术,跟进最新DL & CV技术。

在DL/ML理论研究中,这确实是一个令人十分费解的问题。我最近刷到了一篇挺好的文章,从 loss landscape 的角度解释这个问题。文章叫作 Git Re-Basin: Merging Models modulo Permutation Symmetries, 是发表在 ICLR 2023 上的高分文章。这篇文章考虑的问题稍微更加细化一些

为什么SGD 在优化其它任务的时候往往会失败,但是优化神经网络总能work?既然SGD会收敛到局部最小值,那么这些局部最小值都在哪里?为什么使用不同的初值、随机种子、batch 次序得到的loss曲线看起来都是差不多的?

我们都知道,神经网络的 loss landscape 是高度非凸的。当人们说起非凸函数,往往想到的是如下这张图。因此,人们往往会认为,不同的初值会使得网络被优化到不同的最小值点,有的 work 有的不 work.

但是,这并不能解释SGD在神经网络中的效果。因此,文章认为,神经网络的 loss landscape 并不是上图中毫无规律的,而是如下图 在 permutation symmetry 的意义下只有一个 basin (向下凸的盆地)! 也就是说,用两个不同初值训练得到的模型: \Theta_A,\Theta_B 是在两个不同的 basin 里面,但是我们可以计算出 \Theta_B 的等价模型 \pi(\Theta_B) , 它与 \Theta_A 则处于同一个 basin 里面。

我们知道,将同一层的神经元调换一下顺序并不会改变模型的输出,模型还是一样的,只是参数看起来不太一样了。那么,我们简称变换前后的模型在 permutation symmetry 的意义下是等价的。通过简单的排列组合,我们可以计算出神经网络有大量的等价模型。比方说,ResNet 就有 10^{55109} 个等价模型。现在,假设我们将所有的等价模型标出来(蓝色点),文章提出的猜想是,有这么一个通过permutation得到的等价模型 \pi(\Theta_B) (红色点), 它与\Theta_A 处于同一个basin中。而验证的方法则是在两个模型中做线性插值,然后观察loss的变化。如右上所示,直接对\Theta_A,\Theta_B做插值会产生很高的壁垒,这说明它们不在同一个basin里面,但是如右下所示,对 \Theta_A,\pi(\Theta_B) 做插值会产生很低的壁垒,我们称之为线性模式通过性 (linear mode connectivity),这就说明这两个模型处于同一个basin下。

文章也提出了三个不同的算法来近似求解这些permutation matrices, 细节的话可以参考原文 https://openreview.net/pdf?id=CQsmMYmlP5T, 我在这简单概括一下思想

Activation Matching: 等价的模型应该对所有数据都产生相似的激活模式。这样可以逐层计算置换矩阵。该问题可以转化为 linear assignment problem 从而用匈牙利算法解决。Weight Matching: 等价的模型中每一个神经元的输入和输出权重是类似的。直接优化这个问题比较困难,但是可以划分为若干子问题再用 linear assignment problem 的方法解决。Straight-through Estimation: 直接优化一个松弛的等价模型参数,然后通过 Weight Matching 不断寻找其最接近的严格等价模型,往复优化直到收敛。

接下来,文章通过实验传递了若干有价值的发现。1,在找到合适的等价模型后,线性模式通过性是广泛存在的。灰色线表示直接对两个原始模型插值,其产生很高的壁垒,但是通过上述算法找到了合适的等价模型后,壁垒大幅度下降了。这说明 loss landscape 本质上只有一个或少量的basin.

2,线性模式通过性是SGD训练后才出现的现象。在训练初期,模型参数都十分随机,不太可能换换神经元就等价了。

3,更宽的模型线性模式通过性更加明显,壁垒更低,甚至可以降到0。这可能是因为更宽的模型有更多的排列组合的可能,从而更容易找到等价模型。

4,即使是在不同数据集上训练的模型,我们也能观测到线性模式通过性。这对 federated learning / local DP / Ensembling method 等研究都提供了十分有价值的方向,因为文章提出的算法很容易就被推广到合并多个模型。

参考资料:



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3