bert下游 |
您所在的位置:网站首页 › bert的双向体现在什么地方 › bert下游 |
最近面试,被问到一些模型的相关细节,所以又重新读了一些论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文地址:Bert论文 细节一:Bert的双向体现在什么地方?Bert可以看作Transformer的encoder部分。Bert模型舍弃了GPT的attention mask。双向主要体现在Bert的预训练任务一:遮蔽语言模型(MLM)。如: 小 明 喜 欢 [MASK] 度 学 习 。 这句话输入到模型中,[MASK]通过attention均结合了左右上下文的信息,这体现了双向。 attention是双向的,但GPT通过attention mask达到单向,即:让[MASK]看不到 度 学 习这三个字,只看到上文 小 明 喜 欢 。 细节二:Bert的是怎样预训练的?预训练任务一:遮蔽语言模型(MLM) 将一句被mask的句子输入Bert模型,对模型输出的矩阵中mask对应位置的向量做分类,标签就是被mask的字在字典中对应的下标。这么讲有点抽象,如图: |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |