越大的数据集训练,网络泛化能力越强

您所在的位置:网站首页 数据集越大效果越差 越大的数据集训练,网络泛化能力越强

越大的数据集训练,网络泛化能力越强

2023-07-07 11:09| 来源: 网络整理| 查看: 265

虽然这个直观很好理解,但我想找这个论点的论文支持,如果再能找张图就好了,下面是过程

首先是On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima这篇经典文章,里面的这张flat minima和sharp minima的图画得很漂亮,然而这篇文章跟batch size有关,跟数据集大小无关,是讲大batch size训练使得目标函数倾向于收敛到sharp minima,sharp minima导致了网络的泛化性能下降。而小的batchsize则倾向于收敛到一个flat minima,这个现象支持了大家普遍认为的一个观点:小的batchsize存在固有噪声,这些噪声影响了梯度的变化。

行吧,但我要找的不是这个,我是多么想用这张图啊

 然后又找到了一篇

high-frequency component helps explain the generalization of convolutional neural networks

数据比模型更复杂

大意就是,在一个有限的数据集中,除了数据本身的内容和 label 的关联之外,还有一些数据内容和其中的高频噪音的关联。当训练一个模型的时候,如果我们没有指明模型应该学习数据想表达的内容还是这些高频信号,模型可能会无差别地学习数据本身的信号或者这些高频信号,而这将使得对模型泛化能力的评估出现各种难以解释的现象。而当我们理解了这种数据特征之后,诸如对抗攻击、Batch Normalization 的功效等泛化的多种神奇现象将迎刃而解。

模型并没有任何理由忽略高频信息,从而导致模型学到了高频和语义的混合信息。

一方面,这个特点有机会让我们创造出能够超越人类视觉系统的模型,在同分布的数据集上甚至可以达到比人类水平更高的准确率。另一方面,这样的模型,尽管在同分布数据集上效果很好,但在其他不同分布的相似数据集上效果可能参差不齐(高频信息很可能在每个分布上是不一致的)

就还是没找到,但是找到了模型泛化能力评估难以解释的一种解释

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3