关于Sequence2Sequence模型/RNN/LSTM/attention机制 |
您所在的位置:网站首页 › sequence2sequence原理 › 关于Sequence2Sequence模型/RNN/LSTM/attention机制 |
Sequence2Sequence:
看一下RNN的构造: 因此,这种对序列的记忆方式,就可以拿来用于作为encoder或者decoder. 但是还有问题,就是RNN的特点决定了一旦序列比较长,序列前边的信息容易被序列后面的信息覆盖。(更倾向于记得刚给它的那部分了,前面的忘记了),怎么办? 用LSTM ——LSTM对比看下rnn到lstm的结构变化: 好的,现在我们知道了,sequence2sequence 是怎么回事,然后为啥他的encoder-decoder要经历了一个从RNN到LSTM的过程了。 现在还有一点小问题,就是吧,输出序列是很依赖encoder最后输出的隐藏状态决定的context vector的(HS3),但是如果要输出的是个长序列,随着decoder的time step,走到后面这个context vector已经丢失了初始的那个context vector的信息了(从HS3到HS5)。这肯定不太行。
但是,问题又来了, 1.这个新的context vector怎么用?(怎么协调使用new context vector和timestep t下的vector) 2.加权系数怎算? 第一个问题,用concate解决 生成的新向量,我们叫做attention hidden vector,这个vector代替了隐藏状态。(AHS1其实就是 attention hidden state) |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |