文献阅读(301)稀疏矩阵乘 |
您所在的位置:网站首页 › 稀疏矩阵表示 › 文献阅读(301)稀疏矩阵乘 |
文章目录
VectorSparse 方法Outer Product方法row-wise product方法
题目:Sparse Tensor Core: Algorithm and Hardware Co-Design for Vector-wise Sparse Neural Networks on Modern GPUs时间:2019会议:MICRO研究机构:阿里巴巴/UCSB
VectorSparse 方法
在神经网络中,稀疏剪枝很常见,但是GPU的Tensor Core主要是面向密集矩阵乘优化的,对于稀疏矩阵的优化还不够 本篇论文的主要贡献: 证明GPU在运行稀疏神经网络时的低效率在神经网络训练中,利用向量解析进行稀疏化训练,提高神经网络的稀疏性与算法优化相对应,扩展了Volta GPU的指令集,微架构设计优化以提升稀疏矩阵性能为什么稀疏矩阵在GPU上性能不足够好呢 负载不均匀非零元素的数量未知,难以选择最佳的切片方案高度稀疏矩阵的计算量不足以隐藏长的存储器访问延迟如何解决负载不均匀的问题呢? 将权重矩阵拆分成不同的向量,并在剪枝的时候强行要求每个向量的稀疏度相同 传统的矩阵乘都是乘累加,本质上是输出不变,输出复用度较高;这里换一种方式,先计算得到多个部分和矩阵,再将部分和矩阵对应相乘即可,这样做的好处是输入矩阵A的复用度较高 本篇论文的主要贡献: 系统的分析了稀疏矩阵乘的各种数据流,提出了row-wise product方法提出了C2SR的数据存储格式基于上述的数据流与数据存储格式,设计了稀疏卷积加速单元,相比于OuterSPACE提升明显所有的稀疏矩阵乘可以分成四种不同的数据流: 内积:一行乘以一列乘累加,输出不变外积:一列乘以一行,得到多个部分和矩阵row-wise product:一行乘以一行,类似VectorSparse,累加后可以得到一行的计算结果column-wise product:一列乘以一列,累加后可以得到一列的计算结果 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |