【论文精读11】MVSNet系列（2018

您所在的位置：网站首页 › 图像像素深度决定了像素最大数目对吗 › 【论文精读11】MVSNet系列（2018

【论文精读11】MVSNet系列（2018

2023-03-01 02:30| 来源: 网络整理| 查看: 265

MVSNet系列总结 1.MVSNet ECCV20182.RMVSNet CVPR20193.P-MVSNet ICCV20194.MVSCRF ICCV20195.PointMVSNet ICCV20192019年的这四篇文章各有特点，其中RMVSNet、PointMVSNet更是打开了可以继续沿着往下做的思路： 6.cascade MVSNet CVPR20207.UCSNet CVPR20208.CVP-MVSNet CVPR20209.Fast-MVSNet CVPR202010.CIDER AAAI202011.PVA-MVSNet ECCV202012.D2HC-RMVSNet ECCV2020 Spotlight2020年涌现了很多优化的方法，整体来看有几篇文章的共同点有几个： 13.Epp-mvsnet CVPR202114.AA-RMVSNet ICCV202115.Patchmatchnet CVPR202117.RC-MVSNet ECCV202218.Transmvsnet CVPR202219.CDFSNet CVPR202220.NP-CVP-MVSNet CVPR202221.Vis-MVSNet IJCV2022

论文特点DTU(acc/com/overall)越低越好Tanks’mean(inter/advanced)越高越好MVSNet（2018）开山之作0.396/0.527/0.46243.48RMVSNet（2019）引入RNN，主打减少内存消耗（但时间增加）0.383/0.452/0.41748.40/24.91PointMVSNet（2019）直接操作点云，同样减少内存消耗，时间增加不明显0.361/0.421/0.39148.27P-MVSNet（2019）对卷积核做文章，使用特殊卷积核更好地在2D像素点周围、3D深度方向聚合信息0.406/0.434/0.42055.62MVSCRF（2019）引入条件随机场来对深度图做平滑优化0.371/0.426/0.39845.73cascade MVSNet（2020）使用2D UNet的多尺度图像特征，迭代更新深度推断的精度和尺寸0.325/0.385/0.35556.42/31.12UCSNet （2020）使用2D UNet的多尺度图像特征，迭代更新深度推断的精度和尺寸（与UCSNet区别在使用不确定性图来决定下一次深度取值范围）0.338/0.349/0.34454.83CVP-MVSNet（2020）使用图像金字塔，构建局部代价体，用类似PointMVSNet推断深度的残差累加到上一次迭代推断出的深度图上0.296/0.406/0.35154.03Fast-MVSNet （2020）利用数学高斯牛顿迭代法来优化（待补充）0.336/0.403/0.37047.39CIDER （2020）不用方差构建代价体，而是引入特征图分组、内积计算相似度方法减小计算量和内存消耗0.417/0.437/0.42749.60/23.12PVA-MVSNet（2020）使用2D UNet的多尺度图像特征，在方差法构建代价体时引入自适应视角聚合模块来考虑部分视图下对应特征被遮挡的情况（降低该特征图下该特征的权重）0.379/.0336/0.35754.46D2HC-RMVSNet（2020）（待补充）0.395/0.378/0.38659.20AA-RMVSNet（2021）使用可变形卷积核，同时也用PVA的策略考虑遮挡权重问题0.376/0.339/0.35761.51PatchmatchNet（2021）多尺度由粗到细优化、组关联度、考虑视图间遮挡因素、可变卷积等，并且引入传播的概念来让各点试探周围同物体表面的深度值0.427/0.227/0.35253.15/32.31RC-MVSNet （2022）（待补充）0.369/0.295/0.34555.04Transmvsnet（2022）（待补充）0.321/0.289/0.30563.52CDFSNet（2022）（待补充）0.352/0.280/0.31661.58NP-CVP-MVSNet （2022）（待补充）0.356/0.275/0.31559.64Vis-MVSNet（2022）（待补充）0.369/0.361/0.36560.03 1.MVSNet ECCV2018

在这里插入图片描述作者Yao Yao，MVSNet系列的开山之作.

构建了使用多张图像推断深度的MVSNet Pipeline：特征提取 - 单应变换 - 特征体 - 代价体 - 正则化 - 深度推断 - 后处理与传统方法相比：精度不如，但完整度更高（截止2022年基于学习方法的精度还都比不上传统方法，但完整度上普遍较高） 2.RMVSNet CVPR2019

在这里插入图片描述

Yao Yao续作，将RNN引入MVSNet系列，开启用时间换空间的优化方向。

在Pipline的正则化、深度推断、后处理三个部分做了优化： 1.正则化：引入循环神经网络GRU模块在深度方向上逐步正则化（相当于时间方向） 2.深度推断：看作多分类任务而非深度回归任务来处理 3.细分优化深度图：解决多分类导致的阶梯现象（sub-pixel accuracy）相比MVSNet提高精度和完整度同时减少了内存消耗，相应的训练时长剧增。 3.P-MVSNet ICCV2019

在这里插入图片描述在正则化部分做优化，主要特点在使用“向异性”的卷积核在空间上下文、深度方向上聚合信息，而不是单纯使用UNet来做。

在Pipline的正则化部分做了优化：分别以patch和pixel为单位，引入各向异性的卷积核（即mxn型卷积核，如7x1，各向同性的为nxn型，如3x3），分别在空间上下文（2D周围方向,如用3x3x1卷积核）、深度（3D深度方向，如用1x1x7卷积核）聚合信息，优化原始的代价体以推断更准确的深度图相比MVSNet完整度损失降低，但精度损失略高，overall（精度、完整度损失之和的均值）更低 4.MVSCRF ICCV2019

在这里插入图片描述

（待补充）

5.PointMVSNet ICCV2019

在这里插入图片描述为了避免在构建代价体部分所付出的巨大内存代价，选择直接在点云上进行操作；引入迭代多轮次优化深度推断的思想，使用“深度残差”思路，寻找各点预测深度与真实深度之间的差值并不断优化深度图。

使用Pipline的基础上做了较大改动，引入了迭代优化的思想，并在点云上进行处理 1.一个简单的MVSNet Pipline 2.基于粗略推断的深度图构建出原始点云，并基于原始点云构建增强点云（以原始点云中各3D点为中心，沿深度方向前后各取一些假设点，即真实点可能在的位置），随后找到增强点云上3D点对应图片位置上的2D特征，构建各点的2D-3D混合特征； 3.将2D-3D特征输入PointFlow模块，根据点云的局部结构特征对点云进行操作，最终输出的是深度残差图，即各点相对于原始推断深度的差值 4.原始深度图+残差深度图获取新深度图，随后迭代2.3步骤相比MVSNet完整度、精度损失都有降低，且在内存消耗上减少，时间上略有增加 2019年的这四篇文章各有特点，其中RMVSNet、PointMVSNet更是打开了可以继续沿着往下做的思路：论文特点DTU(acc/com/overall)越低越好Tanks(mean)越高越好MVSNet开山之作0.396/0.527/0.46243.48RMVSNet引入RNN，主打减少内存消耗（但时间增加）0.383/0.452/0.41748.40PointMVSNet直接操作点云，同样减少内存消耗，时间增加不明显0.361/0.421/0.39148.27P-MVSNet对卷积核做文章，使用特殊卷积核更好地在2D像素点周围、3D深度方向聚合信息0.406/0.434/0.42055.62MVSCRF引入条件随机场来对深度图做平滑优化0.371/0.426/0.39845.73 6.cascade MVSNet CVPR2020

在这里插入图片描述

在Pipline的特征提取、单应变换部分做了优化，并使用迭代优化思想： 1.特征提取：使用2D Unet来提取不同尺度的特征供不同迭代轮次使用 2.单应变换：在不同的迭代轮次，分别使用上一轮的深度推断图，基于各点的上一轮预测深度来更新本轮的深度采样区间，继续按pipline的方法构建代价体、推断深度图，从而使各点深度推断越来越精确相比MVSNet完整度、精度损失都有降低，且在内存消耗上减少，时间上略有增加 7.UCSNet CVPR2020

在这里插入图片描述

在Pipline的特征提取、单应变换部分做了优化，并使用迭代优化思想： 1.特征提取：使用2D Unet来提取不同尺度的特征供不同迭代轮次使用 2.单应变换：在不同的迭代轮次，分别使用上一轮的深度推断图，基于各点的上一轮预测深度来更新本轮的深度采样区间（具体区间大小选择基于“不确定性估计”，即在上一轮次概率体推断深度图过程中，对每个像素点沿深度方向求方差，方差越小则确定性越高，下一轮次的深度区间选择可以越小），随后继续按pipline的方法构建代价体、推断深度图，从而使各点深度推断越来越精确 ps: 与同年的cascade MVSNet非常相似，对比来看cascade MVSNet在DTU上精度高，但完整度和overall低；cascade MVSNet在Tanks上mean更高，都没有完全超越对方所以都发表了。 8.CVP-MVSNet CVPR2020

在这里插入图片描述

在Pipline的特征提取、代价体构建部分做了优化，并使用迭代优化思想： 1.特征提取：使用特征金字塔来提取不同尺度的特征供不同迭代轮次使用 2.代价体构建：在不同的迭代轮次，基于各点的上一轮预测深度获取对应初始3D点位置，并以该位置为中心，沿深度方向前后选取一些假设3D点（像素对应的真实3D点可能是初始的、也可能是我们选的这些存在Δd的假设点）；将这些点深度值作为深度采样值，选取这些深度下的对应2D图像特征计算方差以构建局部代价体，随后通过正则化来得到各点的深度残差值（与上一轮深度图上各点深度的Δd）ps: 与PointMVSNet的思想类似，都是推断残差深度；与cascade MVSNet类似之处在于都在不同迭代轮次使用不同的深度采样值，不同处在于cascade MVSNet每一轮使用pipline（在深度区间上直接均匀采样假设深度值）来推断完整深度图，而CVP-MVSNet是构建局部代价体（使用初始推断3D点深度方向附近的假设点来选取深度假设）进行推断残差深度图相比19年几篇在完整度、精度损失都有降低，输出深度图尺寸最大且时间消耗是最低，内存消耗相对也较少 9.Fast-MVSNet CVPR2020

在这里插入图片描述

10.CIDER AAAI2020

在这里插入图片描述

在Pipline的代价体构建、正则化部分做了优化： 1.代价体构建：单应变换之后不使用方差法，而是将特征图按通道分组，与参考视图对应通道做内积来计算相似度图构建代价体，减小了计算量和内存消耗 2.在正则化部分使用ResNet模块、两个3D Unet来进行正则化（论文指出该分组方法内存消耗小所以可以使用两个Unet，而之前的模型则不行）

在DTU数据集上表现一般（相比同2020年的几篇CVPR），但在Tanks上均值高且内存和时间消耗相对少

11.PVA-MVSNet ECCV2020

在这里插入图片描述

在Pipline的特征提取、代价体构建部分做了优化： 1.特征提取：使用2D Unet来提取特征 2.代价体构建：使用了一个叫做自适应视角聚合（self-adaptive view aggregation）的模块来构建代价体：即在不同视图的特征体聚合为代价体时不是直接取平均值，而是根据各视图下各像素点特征与参考视图对应点特征相似程度来赋予权重（相似度高说明该像素点在两视图下均可见，因此该点的代价匹配权重应该高一些）

完整度损失明显下降，在tanks上表现也不错

12.D2HC-RMVSNet ECCV2020 Spotlight

在这里插入图片描述

2020年涌现了很多优化的方法，整体来看有几篇文章的共同点有几个：使用迭代优化思想，逐步提高推断深度图的尺寸和精度，以减少内存和时间消耗使用图像金字塔来提取并利用不同层次的深度图像特征、或是用可变形卷积核获取更有代表性的特征构建代价体时不是单纯的使用平均方差，而考虑用组内积衡量相似度、或是考虑遮挡情况下有些特征在某视角下不可见的情况（赋予不同权重） 13.Epp-mvsnet CVPR2021 14.AA-RMVSNet ICCV2021

在这里插入图片描述

在Pipline的特征提取、代价体构建、正则化部分做了优化： 1.特征提取：使用inter-view adaptive aggregation模块，使用可变形卷积核 2.代价体构建：类似PVA-MVSNet的思想，使用intro-view adaptive aggregation 3.正则化部分使用3D Unet与LSTM的混合正则化网络

完整度相比20年的文章又有提升，overall略不如；在tanks上提高较大

15.Patchmatchnet CVPR2021

在这里插入图片描述

PatchmatchNet使用了之前MVSNet中多种优化的技巧（多尺度由粗到细优化、组关联度、考虑视图间遮挡因素、可变卷积等），并且引入传播的概念来让各点试探周围同物体表面的深度值，详细见连接

精度不高，但完整度一下子提升很多；在tanks的高级数据集上也能进行并确定好结果。

待更新…

17.RC-MVSNet ECCV2022 18.Transmvsnet CVPR2022 19.CDFSNet CVPR2022 20.NP-CVP-MVSNet CVPR2022 21.Vis-MVSNet IJCV2022

在这里插入图片描述

【本文地址】

【论文精读11】MVSNet系列（2018

【论文精读11】MVSNet系列（2018

今日新闻

推荐新闻