bert下游

您所在的位置:网站首页 bert的双向体现在什么地方 bert下游

bert下游

2024-07-12 22:08| 来源: 网络整理| 查看: 265

最近面试,被问到一些模型的相关细节,所以又重新读了一些论文

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文地址:Bert论文 细节一:Bert的双向体现在什么地方?

Bert可以看作Transformer的encoder部分。Bert模型舍弃了GPT的attention mask。双向主要体现在Bert的预训练任务一:遮蔽语言模型(MLM)。如:

小 明 喜 欢 [MASK] 度 学 习 。

这句话输入到模型中,[MASK]通过attention均结合了左右上下文的信息,这体现了双向

attention是双向的,但GPT通过attention mask达到单向,即:让[MASK]看不到 度 学 习这三个字,只看到上文 小 明 喜 欢 。

细节二:Bert的是怎样预训练的?

预训练任务一:遮蔽语言模型(MLM)

将一句被mask的句子输入Bert模型,对模型输出的矩阵中mask对应位置的向量做分类,标签就是被mask的字在字典中对应的下标。这么讲有点抽象,如图:



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3