预训练语言模型整理（ELMo/GPT/BERT...）

您所在的位置：网站首页 › yolov3官方预训练模型测试太卡 › 预训练语言模型整理（ELMo/GPT/BERT...）

预训练语言模型整理（ELMo/GPT/BERT...）

2023-04-07 23:28| 来源: 网络整理| 查看: 265

目录简介预训练任务简介自回归语言模型自编码语言模型预训练模型的简介与对比ELMo细节ELMo的下游使用GPT/GPT2GPT细节微调GPT2优缺点BERTBERT的预训练Task 1: MLMTask 2: NSP输入表征Fine-tunninng缺点ELMo/GPT/BERT对比，其优缺点BERT-wwmRoBERTaERNIE(艾尼) 1.0ERNIE 2.0XLNet提出背景排列语言模型(Permutation Language Model，PLM)Two-Stream Self-AttentionTransformer-XLALBERT对Embedding因式分解(Factorized embedding parameterization)跨层参数共享(Cross-layer parameter sharing)句间连贯性损失(Inter-sentence coherence loss)ELECTRA

简介

2018年ELMo/GPT/BERT的相继提出，不断刷新了各大NLP任务排行榜，自此，NLP终于找到了一种方法，可以像计算机视觉那样进行迁移学习，被誉为NLP新时代的开端。与计算机视觉领域预训练模型不同的是，其通过采用自监督学习的方法，将大量的无监督文本送入到模型中进行学习，即可得到通用的预训练模型，而NLP领域中无监督文本数据要多少有多少，2019年发布的后续研究工作（GPT2、Roberta、T5等）表明，采用更大的数据、更强大的炼丹炉可以不断提高模型性能表现，至少目前看来还没有达到上限。同时，如何缩减模型参数也成为了另一个研究热点，并有相应的论文在今年发表（ALBERT、ELECTRA）。这一类工作为NLP研发者趟通并指明了一条光明大道：就是通过自监督学习，把大量非监督的文本充分利用起来，并将其中的语言知识编码，对各种下游NLP任务产生巨大的积极作用。为何预训练语言模型能够达到如此好的效果？主要有如下几点：

word2vec等词向量模型训练出来的都是静态的词向量，即同一个词，在任何的上下文当中，其向量表征是相同的，显然，这样的一种词向量是无法体现一个词在不同语境中的不同含义的。我们采用预训练模型来代替词向量的关键在于，其能够更具上下文的不同，对上下文中的词提取符合其语境的词表征，该词表征向量为一个动态向量，即不同上下文输入预训练模型后，同一个词的词表征向量在两个上下文中的词表征是不同的。本文将对一下几个模型进行简单的总结，主要关注点在于各大模型的主要结构，预训练任务，以及创新点： ELMo GPT BERT BERT-wwm ERNIE_1.0 XLNET ERNIE_2.0 RoBERTa ALBERT ELECTRA 预训练任务简介

总的来说，预训练模型包括两大类：自回归语言模型与自编码语言模型

自回归语言模型

通过给定文本的上文，对当前字进行预测，训练过程要求对数似然函数最大化，即：

\[max_{\theta} \ logp_{\theta}(x) = \sum_{t=1}^{T}log \ p_{\theta}(x_t|x_{ O(V \times E + E \times H)\)，且论文也用实验证明，Embedding的参数缩减对整个模型的性能并没有太大的影响

跨层参数共享(Cross-layer parameter sharing)

ALBERT借鉴了Universal Transformer中的参数共享机制来提高参数利用率，即多层使用同一个模块，从而可以使得参数量得到有效的减少。参数共享的对象为Transformer中的 feed-forward layer 参数和 self-attention 参数，默认方式是两者均共享。

由实验结果中可知，参数共享的操作可以大幅减少参数量，且模型性能的下降仍然是在可接受的范围。

句间连贯性损失(Inter-sentence coherence loss)

之前的XLNet以及RoBERTa模型已经表明，NSP任务对模型的预训练并没有太大的帮助，主要原因是在于该任务的负例是从不想关的平行语料中提取的，这仅仅需要判断两个句子是否具有相同的主题就行了，并不是一个难度适当的任务。

ALBERT提出了一种新的预训练任务，即句间连贯性判断。正例样本是正常顺序的两段文本，而负例样本是将两段文本的顺序进行颠倒。这样的预训练任务就逼迫模型去学习这两个句子的语义，从而去进行相关的推断。相比于NSP任务更加巧妙。

ELECTRA

未完待续...

参考链接 https://zhuanlan.zhihu.com/p/76912493 https://zhuanlan.zhihu.com/p/89894807 https://zhuanlan.zhihu.com/p/37684922 https://zhuanlan.zhihu.com/p/56865533 https://zhpmatrix.github.io/2019/02/16/transformer-multi-task/ https://zhuanlan.zhihu.com/p/57251615 https://zhuanlan.zhihu.com/p/68295881 https://www.zhihu.com/question/316140575

【本文地址】

预训练语言模型整理（ELMo/GPT/BERT...）

预训练语言模型整理（ELMo/GPT/BERT...）

今日新闻

推荐新闻