谈谈全景视频投影方式

#谈谈全景视频投影方式| 来源: 网络整理| 查看: 265

本文将分为五部分对全景视频投影进行介绍。第一部分首简要介绍投影问题提出的原因和要解决的问题；第二部分介绍了几种目前主流的球面投影方法；在第三部分介绍几种提出新型投影思路的全景视频投影处理方式；在第四部分进一步给出了几种最新的/投影效果最好的方案；在最后一部分对目前的投影方案研究情况进行了总结。

背景介绍

目前全景视频球面投影问题的提出是源于球面全景视频与传统编解码方式的不兼容。投影的复杂度、投影后的图像失真程度等问题就是投影问题需要解决的。目前主流的投影方式有圆柱型投影（ERP）、立方体投影（CMP）和条带投影（SSP）等。全景视频在于传统食品具有同等清晰度的情况下，其像素总量往往是普通视频的3-4倍，因此对传输的带宽消耗巨大。因此如何减轻传输带宽压力也是全景视频研究中不得不面对的难点之一。

全景视频不同于传统的视频，所以评估全景视频需要一个全新的平台。360Lib是JVET小组设计并面向使用者公开的一个用于进行360全景视频研究的平台，关注于投影方案的评价。它能够实现各种格式的全景视频之间的互相转化，同时给出不同投影方案的量化评价，包括码率、耗时和PSNR等信息，是一个非常全面的面向研究者的全景视频评估平台。推荐一个入门向的球面投影介绍视频：

目前球面投影方面研究的思路有三种：1.使用更接近球的立体模型。例如用正八面体或正二十面体代替立方体作为投影中间模型（OHP和ISP）。这种方法能够直接提升每个面内的放射投影后像素分布的均匀性，随之而来的是呈指数增加的计算复杂度。2.使用异型投影模型。这种方式的目的更多的是减轻带宽压力，在带宽受限的情况下往往表现良好，例如使用棱台模型的TSP和将球面分割成条带的SSP等。3.使用球面重分布策略调整像素坐标。这种方法被证明十分有效，在引入极小计算开销的情况下明显提升了投影后图像质量，这方面的代表有Unicube，Scube和EAC等。

2. 目前几种主流的球面投影方案

2.1 圆柱体投影

圆柱体投影不借助中间的投影几何体而直接将球面投影在平面上[1]。现在应用得最广泛的是等距圆柱体投影（Equirectangular Projection，ERP）。它的实现过程如下：首先在平面宽长比为1:2的矩形区域内按照目标分辨率进行均匀的像素格划分，得到长为w等分宽为h等分的分割，然后按照矩形的长和宽在球面上进行均匀的经线和纬线采样，将经线w等分，纬线h等分，获得球面网格。

图1. ERP格式投影示意图

等距圆柱体投影最大的优势就是其直观的投影方式，完全线性的变换公式使得其易于操作。但是极低的投影复杂度带来的是投影均匀性的降低，两极处的像素采样密度大于赤道。

2.2 立方体投影

立方体投影格式是通过将球面内容投影在立方体模型上后将各个面展开，然后拼接为矩形的一种投影方式[2],[3]，操作方式如图所示。立方体投影通过透视的形式实现从球面到立方体面的映射，具体的操作其实就是简单的坐标比例缩放。由于立方体模型具有极好的对称性，所以在与球面进行相互投影的过程中可以大大降低计算复杂度，并且面与面之间的投影关系是一致的。具体的坐标变换计算规则可以参考给出的论文。

图2. 立方体投影示意图

因为CMP直观和简洁的变换关系，CMP受到了很多使用者的青睐，但是直接透视投影带来的问题就是均匀性仍然较差，由于透视投影过程不改变立体角的大小，这表现在对应于球面上等立体角的两点，投影到立方体上后会出现中心区域密度高而边缘区域密度低的现象。

2.3 正八面体投影

正八面体投影（Octahedron projection format，OHP）[4] 是以每个面都是正三角形的八面体为投影模型的投影方式。由于比立方体投影具有更多的面数，所以投影的均匀性得到了提高。类似的投影方式还有正二十面体投影（ISP）。该投影方式的优点和缺点都很明显，优点是投影均匀性高，缺点是计算复杂。

图3. 正八面体投影示意图

图4. 正八面体投影展开方式

3. 几种提供不同思路的新型投影方式

3.1 球面条带投影（SSP）

球面条带投影（Segmented sphere projection，SSP）的思路是将球面赤道区域的像素按照条带状投影成矩形，而将两级区域的像素投影在圆内，如下图所示的即为两条带+两极区域的分割方式。由于在不同条带内的投影方案可以不同，所以可以根据实际情况进行调整，比如在被观看概率高的靠近赤道区域的像素点，应当采取均匀性更高的投影方案，而两极区域使用均匀性相对较差但是效率高的圆面投影，这样能够在观看质量和复杂度之间寻找一个平衡点。条带的数目可以根据需要灵活划分。

图5. 球面条带投影模型

3.2 Unicube

Unicube是在普通CMP投影的基础上进行改进的一种投影方式，旨在提高均匀性。立方体投影中透视投影造成了等立体角像素在面内不同区域投影密度不同，所以产生了一种新的思路就是进行完透视投影之后，对立方体面内的像素进行一次再分布，将中心区域像素点往边缘处进行一定的推挤来改善CMP的均匀性[8]。

Unicube中用到的球面坐标重分布方法被证明十分有效，启发了之后包括Scube和EAC等投影方式。其主要思路是使映射前后的坐标进行面积比例的修正。

图6. Unicube映射函数确定过程

Unicube继承了CMP投影模型的低复杂度和简易性，并且投影之后的映射函数也是简单的单一变量函数，计算开销增加很小，对CMP投影结果产生的面中心密集边缘稀疏的现象进行了一定程度的消除。但同时也是由于仅仅采用了单变量函数（简单直接地利用了x，y轴的对称性），导致其对投影均匀性的提高相当有限，例如在对角线方向上的均匀性提升不明显。

3.3 金字塔棱台投影（TSP）

金字塔棱台投影（Truncated square pyramid projection format，TSP）[5] 其投影模型为正方形棱台（与传统模型选择中每个面都是相同形状的策略不同），因此其在受到传输带宽限制之时，能够将视场内的图像以高画质传输。

棱台底面（B）为用户的视区（正前方），该区域中的像素以原分辨率进行采样和投影；而棱台侧面为接下来可能被看到的区域（上下左右），降低分辨率进行采样并投影成梯形；顶面（F）为接下来几乎不可能被看到的区域（背面），以最低的分辨率进行投影，在360Lib中采用的是进行1/4的降采样，并单独占用一个大正方形面。采取这样灵活的采样率策略是为了能够在保证用户观看时的视频质量没有大的降低的情况下减轻带宽压力。

图7. 金字塔棱台投影模型

4. 球面投影研究进展

4.1 全景视频投影质量评价平台

MPEG（Moving Picture Experts Group）小组成立于1988年，建立目的是解决多媒体通信问题（比如怎样在传输受到比特率限制的条件下实现更高质量视频的传输等）VCEG（Video Coding Experts Group）是国际电信联盟电信标准化部门ITU-T之下的视频编码专家组，参与了视频编码标准H.265/HEVC的制定，这种视频编码标准就是当下已经被普及的视频传输方案。

JVET(Joint Video Exploring Team)是由MPEG和VCEG组织成员成立的，旨在研究新的编码技术的小组。360Lib是JVET小组设计并面向使用者公开的一个进行360全景视频研究的平台，主要的关注方向是投影方案和评价标准。360Lib单独使用时，能够实现的功能有限，仅仅是完成对输入视频序列的投影格式转换；而当它嵌入到HM或是JEM中后就能够结合平台已有的编码功能完成投影的PSNR标准评估，功能更完备。

图8. 360Lib平台给出的投影效果图。从上至下分别为ERP、CMP和OHP

在最新的JVET会议中，小组经过研究探讨之后，确定将几种新型的PSNR评价标准加入到360Lib平台中用于对投影模型转换后的视频质量进行评估，引入了WS-PSNR、S-PSNR和CPP-PSNR等评价标准。

WS-PSNR的计算思路是对多面投影模型面上的像素引入权重后再计算PSNR（例如ERP格式中赤道区域的像素在参与计算时的权重远大于两极区域）。

S-PSNR的计算思路是引入一组预先指定的均匀分布于球面上点作为计算样例（在360Lib中使用了655362个采样点），在计算PSNR时只利用这些点进行计算。

CPP-PSNR的计算过程首先将参考图像和输出图像都转化为CPP投影格式；接着对有效区域进行标注——因为CPP投影后的图像并没有能够完全填充矩形区域，存在没有有效含义的像素；然后对变换后的两幅图像的有效区域进行通常的PSNR计算，得到的值即作为CPP-PSNR输出。

图9. 360Lib中引入的新型投影质量评价标准

4.2 等面积Scube投影

经过前面的分析，我们知道普通的立方体投影具有投影方式简单直观的特征，但是简便性带来的是较差的均匀性，这是难以两全的。Unicube方法通过投影后的像素再分布稍微改善了一些均匀性，但是由于其采用的是简单的单变量函数，虽然复杂度低但是改善效果也不是很明显。一种新的想法是将CMP与施耐德投影[6]，做到兼顾投影速度和均匀性。

施耐德投影是一种被普遍应用于地图学中的投影方式。施耐德投影常与各种高度对称的模型结合使用，例如正十二面体和截角二十面体等。一般来说具有越多面的模型（越接近球面），投影后像素均匀性越高。但是后续的展开步也应该骤纳入考虑，模型中的多边形面便于拼接成矩形而使编码顺利进行。考虑到这点，正十二面体和截角二十面体就不是合理的选项，五边形的存在不利于编码的进行。而正方形和正三角形面有着天然优势。

图10. 面数与耗时的关系

在CMP的基础上，Scube投影进一步引入了块（Slice）的概念，将每个立方体面划分成了八个块——在立方体面上按照正方形对角线和边中线分割成八个等腰直角三角形；在球面上将每个曲面四边形也按照对角线（经过顶点的大圆）和边中线（经过相对两条边的中点的大圆）分割成八个曲面三角形。

图11. 立方体面上块的划分

图12. 球面上块的划分

平面上的点用笛卡尔坐标（\theta,\rho）表示，球面上的点用极坐标（\alpha,t）表示。两者之间的转换关系依据的公式在参考论文中给出，主要思路为确保投影前后的三角形和曲面三角形的面积保持一致，在此不作赘述。从实验结果可以很直观地看出，Scube确实有效提升了像素的分布均匀性。

图13. 三种投影方式的球面像素分布情况。从左至右分别为CMP、Unicube和Scube

4.3 等角立方体投影EAC

等角立方体投影是对传统的立方体投影方式的一种优化。在球面映射到几何体表面的方法中，传统的放射型投影由于模型每个面的中心位置到球心的距离不同，越靠近边角的地方离球体越远，所以投影的不均匀性无法避免。

图14. 放射型投影过程中不可避免的纹理形变

在下图的立方体投影方式及其横截面示意图中可以看出，经过圆心和圆周上每一点的射线是以同样的角度向外发射的，但是在投影到正方形的边上时，越靠近中点对应的线段长度越短，越远离中点则对应线段越长，即圆上相同长度的弧映射到正方形上之后长度是不等的。因而球面上相同数量的像素点，投影到立方体边缘区域所分配到的采样像素数量会多于投影到中心区域时所分配的采样像素数量（即边缘区域稀疏，中心区域稠密）。

图15. 立方体投影方式及其横截面示意图

针对这种情况，谷歌提出了一种对立方体投影的改进方法，即等角立方体投影（EAC）[7]，通过调整球面像素点对应的立方体上采样像素点的位置来改善这种不均匀的分布。原文链接如下：

EAC投影的实现过程简单来说，就是参考Unicube的重分布思路将像素分布时的角度均匀性纳入考虑。在二维平面内某一点到三维空间点的转换过程中，对于平面正方形上一点 (u,v)，立方体投影直接对照CMP的投影规则即可得到对应的三维坐标 (x,y,z) ; 而在等角立方体投影中，首先要对点 (u,v) 进行调整得到坐标 (u',v') ，然后再对照CMP的投影规则得到对应的三维坐标 (x,y,z) 。

平面坐标上一点 (u,v) 与相应的进行调整后的坐标 (u',v') 之间的转换关系如下：

相应的反变换公式为：

该调整过程可以直观地反应在图上：

图16. EAC采取的像素分布调整策略

5. 总结

投影质量（均匀性）、投影效率（复杂度）和带宽一直是投影问题寻求解决的问题。结合360Lib这个工具我们能够对各种投影方式的表现有一个客观的评判。一个最直观的数据就是投影后像素的分布均匀性。下图所示三种投影方式可以明显看出采取了像素重分布策略的EAC在均匀性方面有着不小的进步。

图17. 像素分布密度。从左至右分别为ERP、CMP和EAC

均匀性的提高能够直接提升观看质量。在360Lib的试验测试中Unicube和EAC的表现优异；模型复杂的OHP却囿于其巨大的计算开销和与之不相衬的均匀性提高而不适合实际使用；TSP大大削减了带宽压力，但是代价是图像质量与其他几种方式拉开了一个量级。

图18. 不同投影方式的观看质量比较

图19. 投影方式实验结果汇总

至此目前主流的球面投影模型已经介绍完毕，作为总结，目前球面投影方面研究的思路可以分为三种：

1.使用更接近球的立体模型。例如用正八面体或正二十面体代替立方体作为投影中间模型（OHP和ISP）。这种方法能够直接提升每个面内的放射投影后像素分布的均匀性，随之而来的是呈指数增加的计算复杂度。

2.使用异型投影模型。这种方式的目的更多的是减轻带宽压力，在带宽受限的情况下往往表现良好，例如使用棱台模型的TSP和将球面分割成条带的SSP等。

3.使用球面重分布策略调整像素坐标。这种方法被证明十分有效，在引入极小计算开销的情况下明显提升了投影后图像质量，这方面的代表有Unicube，Scube和EAC等。

这三种方式之间也可以进行结合得到更均衡和完善的投影方式。关于球面投影评价标准有机会的话也值得探讨一下，因为目前的平面图像评价标准同样不怎么适用于球面视频（和投影方案遇到的问题十分相似）。

参考文献

[1] Cylindrical projection [Online].

[2] King-To Ng, Shing-Chow Chan, Heung-Yeung Shum and Sing-Bing Kong, "On the data compression and transmission aspects of panoramic video," Proceedings 2001 International Conference on Image Processing (Cat. No.01CH37205), Thessaloniki, 2001, pp. 105-108 vol.2.

[3] King-To Ng, Shing-Chow Chan and Heung-Yeung Shum, "Data compression and transmission aspects of panoramic videos," in IEEE Transactions on Circuits and Systems for Video Technology vol. 15, no. 1, pp. 82-95, Jan. 2005.

[4] Octahedron,

[5] G. Van der Auwera, M. Coban, H. Fnu, M. Karczewicz, “AHG8: Truncated Square Pyramid Projection (TSP) for 360 Video Content,” Joint Video Exploration Team of ITU-T SG16 WP3 and ISO/IEC JTC1/SC29/WG11, JVET-D0071, Oct. 2016.

[6] J.P. Snyder, "Flattening the Earth: Two Thousand Years of Map Projections," University of Chicago Press, 1993.

[7] Chip Brown, staff software engineer, Daydream, “Bringing pixels front and center in VR video”, published Mar 14, 2017.

【本文地址】

谈谈全景视频投影方式

谈谈全景视频投影方式

今日新闻

推荐新闻