bert下游

2024-07-12 22:08| 来源: 网络整理| 查看: 265

最近面试，被问到一些模型的相关细节，所以又重新读了一些论文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址：Bert论文 细节一：Bert的双向体现在什么地方？

Bert可以看作Transformer的encoder部分。Bert模型舍弃了GPT的attention mask。双向主要体现在Bert的预训练任务一：遮蔽语言模型（MLM）。如：

小明喜欢 [MASK] 度学习。

这句话输入到模型中，[MASK]通过attention均结合了左右上下文的信息，这体现了双向。

attention是双向的，但GPT通过attention mask达到单向，即：让[MASK]看不到度学习这三个字，只看到上文小明喜欢。

细节二：Bert的是怎样预训练的？

预训练任务一：遮蔽语言模型（MLM）

将一句被mask的句子输入Bert模型，对模型输出的矩阵中mask对应位置的向量做分类，标签就是被mask的字在字典中对应的下标。这么讲有点抽象，如图：

【本文地址】

今日新闻