关于self

您所在的位置:网站首页 德累斯顿介绍 关于self

关于self

2023-03-12 18:26| 来源: 网络整理| 查看: 265

自用,笔记整理。

self-attention模型输入的xi先做embedding得到ai每个xi都分别乘上三个不同的w得到q、k、v。

 

其中:

 

拿每个qi去对每个ki做点积得到a1,i,其中d是q和k的维度。

 

 

再把a1,i经过一个Soft-max之后得到

 

 

接下来把得出第一个输出b1同理可得到所有bi 

 

 

那么self attention是这么做平行化的呢?

将a穿起来合并成矩阵I与wq相乘,得到q们,组成矩阵Q,同理得到K,V

 

对于a1,1只要将矩阵和矩阵相乘就行。然后对每一列做一个soft-max得到带帽的a矩阵

 

最后将带帽a与所有v构成的矩阵V相乘即可输出。

 

总结:

 

self-attention的变形——Multi-head Self-attention

Multi-head Self-attention跟self-attention一样都会生成q、k、v,但是Multi-head Self-attention会再将q、k、v分裂出多个q1,2(这里举例分裂成两个),然后它也将q跟k去进行相乘计算,但是只跟其对应的k、v进行计算,比如q1,1只会与k1,1 、k2,1进行运算,然后一样的乘以对应的v得到输出b1,1。

 

 

 



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3