自然语言处理Transformer模型最详细讲解(图解版) |
您所在的位置:网站首页 › 自然语言处理常用方法有哪些呢 › 自然语言处理Transformer模型最详细讲解(图解版) |
🌠 『精品学习专栏导航帖』
🐧【Matplotlib绘制图像目录】Python数据可视化之美🐧 🐯[Python实现经典机器学习算法(附代码+原理介绍)🐯 🎠【Pandas数据处理100例目录】Python数据分析玩转Excel表格数据🎠 🐳最适合入门的100个深度学习实战项目🐳 🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码🐙 🐶【机器学习入门项目10例目录】项目详解 + 数据集 + 完整源码🐶 🦜【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码🦜 🐌Java经典编程100例🐌 🦋Python经典编程100例🦋 🦄蓝桥杯历届真题题目+解析+代码+答案🦄 🐯【2023王道数据结构目录】课后算法设计题C、C++代码实现完整版大全🐯 文章目录 🌠 『精品学习专栏导航帖』前言1、Transformer整体架构2、Transformer的输入、输出2.1 Transformer的输入2.1.1 Word Embedding(词嵌入)2.1.2 Positional Encoding(位置编码)2.2 Transformer的输出 3、Self-Attention(自注意力机制)3.1 Self-Attention整体架构3.2 Q、K、V的计算3.3 Self-Attention的计算过程3.4 Multi-Head Attention(多头注意力机制) 4、Encoder结构4.1 Multi-Head Attention(多头注意力机制)4.1 Add & Norm4.2 Feed Forward4.3 最后层的输出 5、Decoder结构5.1 Masked Multi-Head Attention(带掩码的多头注意力机制)5.2 Multi-Head Attention(多头注意力机制)5.3 Decoder的输入5.4 Decoder的输出 6、Transformer训练和推理过程 前言近几年NLP较为流行的两大模型分别为Transformer和Bert,其中Transformer由论文《Attention is All You Need》提出。该模型由谷歌团队开发,Transformer是不同与传统RNN和CNN两大主流结构,它的内部是采用自注意力机制模块。 该模型在WMT 2014英语到法语的翻译任务中达到了28.4BLEU,Transformer具有良好的并行性,能够很多地推广到其它任务中。 在本篇文章中,我们将对Transformer模型进行讲解,并逐一介绍内部的各个组件,希望能够让刚学习Transformer的同学可以轻易理解它的运行机理。 原论文地址: Attention is All You Need:https://arxiv.org/abs/1706.03762 1、Transformer整体架构下图为从原论文中截取中的Transformer架构图,可以看出主要分别为两个部分,分别是Encoder和Decoder: 那么Transformer是怎样运作的呢?它的输入和输出是什么呢? 下面以机器翻译(由中文我爱你翻译为英文I love you)为例来讲解Transformer的运作机理 2.1 Transformer的输入对于上图整个模型的输入是中文我爱你,我们的目标是将其翻译成英文的I love you,但是对于中文我爱你模型是无法训练的,我们需要将其数值化再送入模型当中。 对于将中文转成数值一般是有两种方法: One Hot编码:形成高维向量,向量的维度为词袋大小,如果是中文,向量的维度就是所有汉字的数量,然后是哪个字就将对应位置变为1,其它位置为0Embedding词嵌入:通过网络进行训练或者通过一些训练好的模型将其转化成连续性的向量一般来说第二种方法使用较多,因为第一种有几个缺点,第一个就是每个字都是相互独立的,缺少语义联系信息,第二就是汉字数量太多,会导致生成的维度过大,占用系统内存。 2.1.1 Word Embedding(词嵌入)对于Embedding有很多方式可以获得,可以使用一些预训练好的模型得到,比如word2vec,另外也可以自己训练得到。 通过图来说明,到底是如何转换的:
嵌入后输入的向量维度为【序列长度,嵌入维度】,【3,5】 2.1.2 Positional Encoding(位置编码)由于Transformer中使用的是自注意力机制来提取信息,虽然处理每个字的时候能够考虑到所有字对其的影响,但是并没有考虑到各个字相互之间的位置信息,也就是上下文,例如如果输入序列变为爱我你,如果仅使用自注意力机制那么输出应该是一样的,所以需要添加整个序列的位置信息。 在Transformer中使用的是位置编码来表示单词的顺序信息,位置信息也是通过Embedding进行表示,对于位置编码来说有两种方式可以得到: 通过Embedding进行训练通过公式计算Transformer中使用的是后者:
对于Transformer的输出就是我们翻译出的I love you,由于我们需要预测出每个字需要翻译为哪个词,所以这显然是个多分类问题(Softmax),相当于做词个数个多分类问题,每个位置对应的输出的维度应为所有单词的个数,每个维度对应预测为该词的概率,概率最大位置对应的词就是该位置预测出翻译的词。
Transformer中最重要的模块就是自注意力机制,所以这里重点讲解一下Self-Attention,自注意力机制有三个输入,分别是Q(查询)、K(键)、V(值)。 3.1 Self-Attention整体架构下图是注意力机制的图解: 经过注意力机制后我们就会得到词个数个新的编码向量,新的编码向量由于采用了注意力机制就会考虑到其它词对其的影响,影响程度就由注意力分数所影响。 3.2 Q、K、V的计算为了得到Q、K、V,我们需要使用三个不同的权重矩阵,然后与输入矩阵相乘,然后将输入矩阵X映射到一个新的维度空间,然后就可以利用得到的Q、K、V计算相应的注意力分数和加权向量。 得到的Q、K、V行代表的是每个词,就是每个词对应的q向量 由上面可知Q、K、V矩阵,然后我们利用Q和K相乘得到不同词之间的注意力分数 为了提高并行度,我们利用矩阵进行运算,将Q和K的转置相乘,这样就会得到一个方型矩阵,矩阵的每个元素代表每个词对其它词的注意力分数。
但是Transformer中采用的是Multi-Head Attention(多头注意力机制),它可以类比CNN中的多个kernel,CNN中每个kernel可以理解为提取不同模式的特征图,所以这里也引入了这个机制,不同的头可以提取出不同的语义信息。 多头注意力机制就是采用了多个的Self-Attention,这样每一次就会得到多组的Z,比如这里我们设置头的个数为8,那么我们就会得到8个Z矩阵。
得到了8个输出矩阵Z1,Z2…Z8之后,然后把这个8个矩阵拼接起来,然后利用全连接网络将其映射成一个与输入向量X形状一致的矩阵。
在上面注意力机制中我们已经讲解了多头注意力机制的原理,以及其对应的输入和输出
最终的Z矩阵每一行就是经过多头注意力机制提取后每个词对应的编码向量。 注意:第一个Encoder块的输入是第一个Encoder块的输入是中文我爱你的嵌入向量,而之后的Encoder块的输入是每个块的输出,因为维度是一致的,都为【词个数,词嵌入维度】。 4.1 Add & NormAdd & Norm是分成两个部分,一个是残差结构,一个是LayerNorm,其计算公式如下:
采用残差结构主要是为了解决网络难以训练的问题,有了残差结构我们就可以把网络做的更深,现很多深层的神经网络都使用了残差结构。 LayerNorm是指Layer Normalization,他与Batch Normalization是不同的,对于Batch Normalization我们会对同一批次的所有样本的同一特征计算均值和方差,但是对于文本问题,一般来将我们的序列长度是不一致的,所以无法对于同一特征进行计算,所以这里采用了Layer Normalization,它的意思就是对于同一样本的所有特征计算均值和方差。
Transformer中的Feed Forward就是普通的全连接网络,激活函数使用的是ReLU 但注意一点,由于我们输入数据是我爱你,那么经过多头注意力机制及残差网络后得到的输出向量为Z,维度为【词个数,嵌入维度】,这个全连接网络会对每个词输出的Z向量进行转换,并不是有3个全连接网络,而是和RNN差不多,是使用了一个全连接网络参数共享。 处理每个字的全连接网络是一个,这是参数共享的,并不是说为每个字都分配一个网络。 4.3 最后层的输出经过6个Encoder个层堆叠后,最后一层的输出就是整个Encoder的输出,输出的维度为【词个数,嵌入向量维度】,也就是和Z一样的形状。 这个Z需要传入到Decoder中计算相应的K和V,下面会进行讲解。 5、Decoder结构上图为Transformer中的Decoder结构,和Encoder是差不多的 每个Decoder Block有两个Multi-Head Attention层第一个Multi-Head Attention层采用了Masked操作第二个Multi-Head Attention层的K、V矩阵输入源来自Encoder的输出编码矩阵,而Q矩阵是由经过Add & Norm层之后的输出计算来的 5.1 Masked Multi-Head Attention(带掩码的多头注意力机制)Decoder中的第一个Multi-Head Attention是采用了Masked的操作,他和普通的多头注意力机制计算上来将是一致的,只是多了个掩码矩阵,用于遮盖当前输入后面的数据,不让当前时间模型知道后面的答案是什么。 Transformer的训练方式和其它模型不太一样,他在训练过程是采用了Teacher Forcing的训练模型,就是会将原始输入和正确答案都会喂给模型,然后模型进行训练,而在推理过程中,是不会给正确答案的,至于训练和推理有什么具体区别下面会讲,这里先了解Transformer在训练时会把原始输入为给Encoder形成编码向量,然后将正确答案喂给Decoder的第一层。 比如对于我们的例子我爱你来说,首先会把我爱你的Embedding嵌入送入Encoder中,然后把 I love you的编码向量送入Decoder中,这个是个标志表示开始翻译,它也是个向量表示。 对于翻译我爱你来说,它是要按照顺序翻译的,就是首先把我翻译成I,然后是翻译love,最后是you,但是我们在训练会把正确答案喂给模型,如果这样注意力机制就会看到所有的信息,所以要采用掩码机制来遮盖当前词后面的信息,防止模型知道之后单词的信息。 首先会根据开始标志预测出第一个单词翻译 “I”,然后根据输入 “ 我” 去预测下一个单词 “love” ,最后会根据所有输入 " 我 爱 你"去预测结束标志。 这里要着重说明一下,防止同学们混淆,这个掩码只是在第一个注意力机制使用,第二个是没有用的,因为第一个注意力机制接收的输入为正确答案,在预测当前单词的翻译是我们是不能够让他知道正确答案的,只能根据前面已经翻译出来的内容进行推理,有同学会问,翻译一句话不是应该要看一整句话嘛,就是要结合上下文信息,没错是这样的,但是你看的整句话语义信息是原始输入的,也就是我爱你中文信息,这也就是Encoder的输出结果,这也就是为什么第二个注意力机制需要Encoder的输出结果。 那么掩码矩阵是如何发挥作用的呢? 第一步: 构造掩码矩阵Mask,目的就是为了遮盖当前位置之后的信息,由于我们的输入词个数为3,所以我们会形成一个 3* 3 的掩码矩阵,矩阵绿色代表当前位置是否可利用,第一个单词只可利用自身,第二个单词则可利用自身和前一个单词,而最后一个则可利用所有信息。 第二步: 接下来和普通注意力机制是一样的,通过输入矩阵,计算出Q、K、V矩阵 第三步: 然后利用Q和K矩阵计算出对应的注意力分数 第四步: 将上一步得到的注意力分数进行归一化操作,使每一行的概率和为1
第六步: 使用Mask矩阵与V矩阵相乘得到输出矩阵Z,这样每个词的输出向量就只包含它之前单词的信息。 第七步: 和多头注意力机制一样,将每个头的输出矩阵Z进行拼接,然后使用全连接网络将其映射成和输入矩阵X维度一样。 Decoder中的第二个Multi-Head Attention其实和Encoder中的是一样的,只不过输入的Q、K、V数据来源不一样,K、V矩阵是由Encoder最后一层输出计算得来的,而Q矩阵是由经过第一个掩码注意力机制后的矩阵计算得来的。 这里是不需要Mask的,因为在翻译过程需要看所有单词的信息,就是我爱你所有上下文信息都要看到,这也是为什么要从Encoder的输出矩阵计算K和V,Encoder的最终输出可以理解为整句话的最终编码信息,包含了所有的语义信息。 具体的计算过程这里就不图解了,和之前是一样的,只需记住Q、K、V的来源不同就可以了。 5.3 Decoder的输入对于Decoder的输入分为第一个Decoder Block和之后的Block,第一个Block输入的是Ground Truth,也就是我们的真实答案的嵌入向量,而之后block的输入为前一个块的输出。 5.4 Decoder的输出对于我们的翻译任务来说,需要预测每个字的概率,那么我们就需要使用Softmax来预测所有可能词的概率,比如我们的词库有I、love、you、today、me这五个单词,那么对于我们的一个词 “I” 的输出就为 【0.5,0.1,0.1,0.2,0.1】,由于对应 “I” 位置的概率最大,所以第一个单词预测为 “I”。
训练过程: 对于训练过程,我们是将原始输入和正确答案一同输入的,训练过程采用Teacher Forcing,而对于正确答案输入是采用了Mask操作,就是为了不让模型看到当前词之后的信息,这是可以并行进行的。 推理过程: 但是对于推理过程,是不会输入正确答案的,而且和RNN运行差不多是一个一个的,首先会给Decoder输入开始标志,然后经过Decoder会预测出 “I” 单词,然后拿着这个 “I” 单词继续喂入Decoder去预测 “love”,但后拿着 “love” 去预测 “you” ,最后拿着 “you” 去预测结束标志。 对于翻译任务来说,这是序列到序列的问题,显然每次的输出序列的长度是不一致的,所以需要一个结束标志来表明这句话已经翻译完成,所以需要按顺序一个一个翻译,不断拿着已经翻译出的词送入模型,知道预测出结束标志为止。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |