论文笔记:Gate

您所在的位置:网站首页 gsm论文 论文笔记:Gate

论文笔记:Gate

2023-09-05 02:34| 来源: 网络整理| 查看: 265

论文笔记:Gate-Shift Networks for Video Action Recognition(GSM)

代码链接:

https://github.com/swathikirans/GSM

文章链接:

https://arxiv.org/pdf/1912.00381.pdf

文章提出动机:当前视频行为识别各式各样,但没有达到像图像识别,ALexnet那样的效果。3D卷积参数多,计算量大,在数据集不多的情况下效果不尽如人意。因此借鉴TSM的时间移位思想(shift_forward,shift_backward),和GST的分组卷积思想。提出GSM(Gate-Shift Module)

文章思想:将输入的特征,划分为两个部分,分别进行2D卷积(空间建模)和3D卷积(时序建模)。本文提出了一种自适应划分的方法,自适应的判断对输入的特征哪一部分进行空间建模,哪一部分进行时序建模。

方法:

将输入的特征 X 沿着channel维度等划分为2部分 X1,X2,代码里为均分,前32channel为一部分,后32channel为一部分。分别对 X1,X2,进行三维卷积然后乘tanH,得到门控 feature: g1,g2将特征分为两个部分:y1 = g1*X1; R1 = (1-g1)*X1 ; 对  y1进行temporal shift操作,进行时序建模,然后再与只含有空间信息的 残差 R1整合。最后作为GSM模块的输出

问题及看法:

1.为什么划分为两个特征?

参考GST分组卷积的思路 ,在保证效果的同时,减少参数计算

2.为什么进行前向shift和反向shift,有什么依据吗?

参考TSM模块,在2D卷积的基础上,进行时间移位,融合时序信息,进行时序建模。

疑惑:

1.为什么说,文章可以自适应的判断对输入的特征哪一部分进行空间建模,哪一部分进行时序建模。这里的“哪一部份”是指时序上的不同部分,还是指channel上的不同部分?

2.文章中说,门控可以根据训练数据的不同自适应的改变模型,是什么意思?可否举例说明?



【本文地址】


今日新闻


推荐新闻


    CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3