华为最新提出的时序预测Mixers,取代Transformer实现效果速度双提升

您所在的位置:网站首页 时间序列时序图 华为最新提出的时序预测Mixers,取代Transformer实现效果速度双提升

华为最新提出的时序预测Mixers,取代Transformer实现效果速度双提升

2023-03-03 19:33| 来源: 网络整理| 查看: 265

华为最近发布了一篇最新的多元时间序列预测文章,借鉴了NLP中前一阵比较热的Mixer模型,取代了attention结构,不仅实现了效果上的提升,也大大简化了模型结构。

1

Transformer的探讨

Transformer在时间序列预测中的作用最近得到比较多的探讨。在Are transformers effective for time series forecasting?(2022)这篇文章中,就利用简单的模型对Transformer提出了挑战。下图为一个典型的Transformer时间序列预测模型图。

b117d0ca236a7ce3633925d60a95c6c6.png

Transformer做时间序列预测有以下几个问题。首先,temporal dependency的提取是时序预测的关键,而attention机制如何实现这种信息提取还没有被合理得到解释。其次,Transformer对时间特征、position embedding有很强的依赖性,这些信息会和序列一起进入attention模块,影响了temporal dependency的学习。最后,Transformer模型本身的计算量很大,虽然一些工作提出了attention的高效计算方法,但是除了attention外,模型中还有很多其他组件计算量也很大。

文中对比了Transformer模型和其他结构的效果差异。如果将attention换成更简单的傅里叶变换,效果是提升的。而去掉encoder和decoder之间的attention,效果反而提升非常大。这不禁让人们怀疑attention机制在多大程度上帮助了时间序列预测任务。

fba1d74e2a36478c1c3e46fe5d274d88.png

2

多元时间序列的冗余性

多元时间序列无论是在temporal维度还是channel维度,都存在比较强的冗余性。如下图,在时间维度上,对一个序列进行下采样,生成的新序列和原始序列保持着相似的趋势性、季节性。

669db33450335505b5391888baf88b6e.png

而在channel维度上,多元序列中不同的子序列也展示出相似的pattern。这些冗余性都表明,大多数多元时间序列都存在低秩性,即只用一小部分数据就可以表示出近似完整的原始矩阵。利用这个性质,可以简化多多元时间序列的建模。

f724b1ab3bebeaf49c8d04f37dd966e8.png

3

MTS-Mixer模型

MTS-Mixer的模型结构如下,第二列是一个抽象结构,后面3列是具体的实现方法。

0fecd42aaece7acba0dc0764b108c820.png

这三种实现方式的整体计算逻辑可以表示为如下形式,时间维度信息提取+空间维度信息提取+信息融合和输出映射。

6a53a2c80b6ce23ee23fe686b7d8a646.png

第一种结构方法是基于self-attention,这个版本基本类似Transformer,区别在于将Transformer的decoder部分去掉了,直接改成全连接的映射。因为从之前的实验能够看到,去掉encoder和decoder之间的attention效果反而是提升的。

435ad27da1ea95995bfdfe900f13f3ca.png

第二种结构使用的是随机初始化的矩阵。其计算公式如下,主要是将时间维度、channel维度使用两个矩阵进行mixup,再加上一个输出映射矩阵。这三个矩阵都是随机初始化的。

f9dae4e62bb343c53ffb8f1020ad88c9.png

第三种结构采用了因子分解的思路。由于上面分析的多元时间序列矩阵存在低秩性,因此文中设计了一种基于因子分解的时间维度和channel维度的mixup。对于时间维度的冗余性,将源时间序列拆分成多个子序列,每段子序列分别进行temporal信息的学习,然后再按原来的顺序拼接傲一起。对于channel维度的冗余性,使用SVD分解。整个计算逻辑如下,主要就是利用全连接做时间维度和channel维度的mixup:

d00b7922b5852f13ad40053cd5442886.png

30cc34c956bf09d0c81e2bfb41430f9b.png

4

实验结果

文中在多个数据集上对比了MTS-Mixer和众多Transformer模型的效果,发现即使不加attention结构,采用文中提出的简单架构,就能取得超过Transformer的效果。

b0af7ed3cb379e104d812558899cc9d2.png

推荐阅读: 我的2022届互联网校招分享 我的2021总结 浅谈算法岗和开发岗的区别 互联网校招研发薪资汇总 2022届互联网求职现状,金9银10快变成铜9铁10!! 公众号:AI蜗牛车 保持谦逊、保持自律、保持进步 发送【蜗牛】获取一份《手把手AI项目》(AI蜗牛车著) 发送【1222】获取一份不错的leetcode刷题笔记 发送【AI四大名著】获取四本经典AI电子书


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3