【深度学习实验】注意力机制(一):注意力权重矩阵可视化(矩阵热图heatmap)

您所在的位置:网站首页 分布分数图像怎么看 【深度学习实验】注意力机制(一):注意力权重矩阵可视化(矩阵热图heatmap)

【深度学习实验】注意力机制(一):注意力权重矩阵可视化(矩阵热图heatmap)

2024-07-14 10:07| 来源: 网络整理| 查看: 265

加性模型: s ( x , q ) = v T tanh ⁡ ( W x + U q ) \mathbf{s}(\mathbf{x}, \mathbf{q}) = \mathbf{v}^T \tanh(\mathbf{W}\mathbf{x} + \mathbf{U}\mathbf{q}) s(x,q)=vTtanh(Wx+Uq)

点积模型: s ( x , q ) = x T q \mathbf{s}(\mathbf{x}, \mathbf{q}) = \mathbf{x}^T \mathbf{q} s(x,q)=xTq

缩放点积模型: s ( x , q ) = x T q D \mathbf{s}(\mathbf{x}, \mathbf{q}) = \frac{\mathbf{x}^T \mathbf{q}}{\sqrt{D}} s(x,q)=D ​xTq​ (缩小方差,增大softmax梯度)

双线性模型: s ( x , q ) = x T W q \mathbf{s}(\mathbf{x}, \mathbf{q}) = \mathbf{x}^T \mathbf{W} \mathbf{q} s(x,q)=xTWq (非对称性)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3