人工智能（AI）领域论文快讯

#人工智能（AI）领域论文快讯 | 来源: 网络整理| 查看: 265

现有的预训练模型一般都是针对某一类问题的。到目前为止，对于什么是正确的架构和预训练设置，似乎还没有达成共识。本文提出了一个统一的预训练模型框架，该框架在不同的数据集和设置中都是有效的。我们首先将架构原型与预训练目标分开，这两个概念通常被混为一谈。接下来，我们为NLP中的自我监督提出了一个普遍而统一的观点，并展示了不同的预训练目标是如何相互投射的，以及不同目标之间的插值是如何有效的。然后，我们提出了Mixture-of-Denoisers（MoD），一个将不同的预训练范式结合起来的预训练目标。我们进一步介绍了模式切换的概念，其中下游的微调与特定的预训练方案相关。我们进行了广泛的消融实验来比较多种预训练目标，并发现我们的方法在多种不同的设置中超越了T5和/或GPT-like模型，从而推动了Pareto-frontier的发展。最后，通过将我们的模型扩展到20B的参数，我们在50个公认的有监督的NLP任务上取得了SOTA的表现，这些任务包括语言生成（有自动和人工评估）、语言理解、文本分类、问题回答、常识推理、长文本推理、结构化知识基础和信息检索。我们的模型在语境学习方面也取得了很好的效果，在零次的SuperGLUE上超过了175B GPT-3，在一次的总结上是T5-XXL性能的三倍。他们发布了开源了20B模型。

【本文地址】

人工智能（AI）领域论文快讯

人工智能（AI）领域论文快讯

今日新闻

推荐新闻