视频体验评估标准(uVES1.0)模型及算法解读

2024-02-21 01:42| 来源: 网络整理| 查看: 265

引言：

视频业务快速发展，已经从强调用户规模走向注重提升服务品质的阶段。消费者对观看体验的要求不断提高，提升视频用户体验质量已经成为视频服务的主要竞争因素。

用户体验质量QoE

ITU-T P.10/G.100 (Amd5)[1] 标准将用户体验质量（Quality of Experience, QoE）定义为“用户对某项应用或者服务的满意程度，该满意程度来自于用户对于此项应用或服务功能或质量的期望的实现程度，与该用户的个人喜好和感受相关”。简单来说就是终端用户对应用或者服务整体的主观可接受程度，其影响因素主要可以分为三个层面[2]：服务层面、环境层面及用户层面，如图1所示。服务层面的影响因素又包括应用层、传输层和服务层的参数。环境层面的影响因素包括自然环境（如光照条件、噪声条件、环境的固定和移动），社会与人文环境（如社会观念、文化规范）以及服务运行环境（包括软硬件环境等）。用户层面的因素包括用户的期望、体验经历、身心状态和自身背景（如年龄、性别、受教育程度等）。

图1 QoE的影响因素

QoE概念是在用户服务质量（Quality of Service，QoS）的基础上发展起来的。ITU-T Rec E.800[3]标准将QoS定义为"某项服务满足使用该服务的用户的明示或暗示需求的综合能力”，指一个网络能够利用各种基础技术，为指定网络通信提供更好的服务能力。从定义上来看，QoE和QoS的概念较为抽象，具体到网络服务质量层面来说，QoS可以狭义地理解为基于底层分组数据传输的关键性能指标（Key Performance Indicators, KPI），而QoE是建立在由KPI生成的关键质量指标KQI（Key quality indicator）之上的，并且引入了与用户行为相关的数据。具体的QoE与QoS体系关系可以通过图2阐释。

图2 QoE体系关系图

视频服务用户体验评估标准(uVES)

2017年9月29日，由中国信息通信研究院、国家新闻出版广电总局广播电视规划院、中国电信、中国移动、中国联通、华为、爱奇艺、阿里巴巴、腾讯、网宿科技、上海交通大学、博汇科技等单位共同发起成立视频体验联盟。联盟标准工作组在联盟成立的筹备期，于2016年9月发布了国内首个《视频服务用户体验评估标准1.0》简称为uVES1.0。其后不断对该标准进行了发展和完善，形成了uVES1.1，并于 2018 年 5 月 28 日通过了中国通信标准化协会的评审。uVES1.0在2016年和2017年度的中国视频服务体验白皮书中得以应用。本文对uVES1.0的主体结构和评价算法进行系统的解读。

图3 uVES目前状况

2.1 视频服务用户体验评估标准

由于QoE的影响因素（图1）中，用户层面因素和环境层面因素变化多样，具有很强的主观性和不确定性，难以量化计算，因此，uVES标准中对某一视频业务整体的用户体验评估主要针对服务层面进行评估。服务层面影响因素可分为应用层、传输层和服务层。视频体验的应用层面主要为视频源的质量，包括音视频的信源质量和编码质量等，传输层反映视频的网络传输状况，包括丢包、抖动和延时等。服务层主要为用户使用过程中业务操作的便捷性和效率，如初始加载、快进快退等。由图2可知，QoE是建立在关键质量指标KQI（Key quality indicator）之上的，因此uVES体系的搭建首先要确定KQI。

确定影响用户体验的KQI

为了确立影响视频服务用户体验的关键影响因素，反应用户的真实感受，在KQI确定的过程中主要采用了大范围线上问卷调查和焦点小组访谈相结合的方法，共获得3000份调研样本。其中线上问卷调研对象为全国各地IPTV/OTT机顶盒以及手机视频用户，问卷使用1-7分进行评价，其中7分表示“非常重要”，1分表示“完全不重要”。

问卷可信度通过克朗巴哈系数（Cronbach's alpha或Cronbach's α）进行衡量。Cronbach's α是目前最常用的一种信度测量方法，其计算如下：

其中K为问卷题项数，

为问卷中所有题目总样本的方差，

为目前某一题样本的方差。Cronbach's α系数的值在0和1之间且取值越大，置信度越高。通常系数值超过0.7，说明问卷具有相当的信度。

本次问卷的Cronbach's α系数为0.963，可见问卷的置信度非常高，问卷结果有效，可以用于确立影响用户体验的KQI。本次问卷调查结果如下图，图中根据重要性依次给出各个影响视频用户体验指标分布。

图4 影响视频用户体验指标分布情况

从图中可以看出，播放质量、操作反映时长、内容质量和内容加载时长是影响权重最大的四个指标，其权重值大于8%，高于其他指标。通过进一步的分析可以发现：

播放质量本质对应视频的观看体验质量指标，即在播放过程中的节目信号质量，包括是否有出现视频图像不连续，图像出现花屏、马赛克、卡顿等质量劣化的情况；操作反映时长、内容加载时长分别对应点播交互和直播加载时长，因此可以归为视频的交互体验质量，即指用户在视频业务使用过程中系统对用户交互操作的响应情况，包括直播、点播等业务操作的成功率以及交互时长等指标。内容质量对应为视频源的质量，包括视频的信源质量和编码质量等。

根据以上分析，可以确定uVES标准中影响用户体验的三大关键质量指标：视频源质量、交互体验质量、观看体验质量。因此，视频用户体验标准uVES体系可以定义为图5所示，将视频终端用户对视频业务的总体主观体验分数定义为:

图5 视频用户体验标准uVES体系

即用户体验综合评分uVES为视频体验质量（Qs），交互体验质量（Qi），观看体验质量（Qv）的函数关系。标准区分了不同的应用场景，1.0版本主要包括点播、直播等。

用户体验得分计算

用户体验质量uVES体系中包含视频源质量、交互体验质量、观看体验质量三大质量指标。其中，视频源质量为无其他质量损伤情况下用户的最佳体验得分，即若无交互体验和观看体验损伤影响，

反之：

参考ITU.T P.NAMS 系列标准，视频服务用户体验最终得分uVES范围为 [1，5],在视频源质量的基础上，交互体验和观看体验造成的影响因子SI定义为：

其中MAXscore为uVES最大得分值5，Qi为交互体验质量，Qv为观看体验质量，α，β分别是交互体验和观看体验的动态加权系数，初始权重系数值由对大数据调研的结果经过归一化等方法处理得到。

最终得分定义为：

其中Qs为视频源质量，MINscore为uVES最小得分值1, 公式中的引入该值是进行取值空间转换,以保证uVES得分范围。

因此，我们可以总结用户体验得分计算公式为：

在具体的应用过程中，根据具体视频服务的特点，应用场景可分为直播模式和点播模式，IPTV直播多采用RTSP/RTP传输协议，IPTV、OTT等点播多采用HLS（HTTP Live Streaming）传输协议。此外，播放终端有的支持丢包掩盖机制，有的则无。

视频源质量Qs

视频源质量主要取决于视频源的清晰度、流畅度、保真度（色调、对比度）等因素，涵盖了视频源的分辨率、帧率、码率、内容、编码和终端六个维度的指标，可以从编码参数、分辨率、帧率、码率、信号层质量等客观指标度量。

视频源质量评价标准按照其处理层级分为 Mode0, Mode1, Mode2 三层模型，三层模型所需的输入信息按获取难度递增，且评价精细化程度递增。采用分层形式有利于根据实际应用条件灵活选择或组合应用，不具备提取码流参数的能力可采用Mode0、不具备完全解码能力时可采用Mode1、具备完全解码能力的终端可以进一步使用Mode2。

Mode0：基于码流层的轻量级模型

Mode0为轻量级的码流评价模型，主要用于业务规划和粗粒度的评价，同时综合了显示终端的影响，可以衡量给定分辨率视频在不同尺寸显示终端的源质量。Mode0得分范围为 1到5分。

随着终端播放设备的多样化，用户对视频服务的感知质量受终端显示设备的影响。屏幕尺寸的多样是各种终端设备之间的主要不同点，也是用户感知视频质量直接相关的因素[4][5]。下图给出了不同分辨率的视频在各个屏幕尺寸上的感知得分情况。

图6 各分辨率视频在不同屏幕尺寸上最高感知得分

可以看出，对于某一特定的分辨率和屏幕尺寸，用户所获得的视频显示体验质量都存在极限值，如4.5英寸屏幕上，360p视频最高分约为3.5分。随着屏幕尺寸的增大，所有分辨率的视频都出现了分数的下降，这种下降对于低分辨率的视频更为明显，如当屏幕尺寸从4.5英寸增大为100英寸，4k视频分数下降0.5左右，1080p下降了0.8左右，而360p视频下降了1.7左右。根据2018年6月发布的《中国视频消费用户体验白皮书》，目前国内视频服务提供的视频分辨率集中在高清及以下，由此可见，终端播放尺寸的大小对于用户感知视频质量产生了不可忽视的影响，加入这个因素能够更合理准确评价用户的感知质量。Mode0的模型形式如下：

由之前分析可知，显示质量主要由视频分辨率，显示器尺寸决定。模型对于视频码流的评价主要参考了目前广泛采用的码率参数（BitRate）。视频码率就是数据传输过程中单位时间传送的数据量，在视频压缩编码的过程中，视频的码率越大，视频失真越小，编码后的文件就越接近原始文件，因此码率评价视频码流质量最有效的参数之一。在此轻量级模型中，仅采用码率作为衡量视频压缩质量的指标。

根据图6不同分辨率的视频在各个屏幕尺寸上的感知得分情况，对数据处理和曲线拟合，其中为了进一步刻画视频分辨率与显示器尺寸的关系，采用了有效显示PPI, 有效显示PPI由原视频的分辨率以及屏幕尺寸计算得到：

视频的显示质量Qd为：

由于公式中没有引入其他编码参数，即不考虑其他因素导致的视频质量损伤。因此，Qd 表示某一分辨率和屏幕尺寸条件下（如720P视频在42’电视播放）能够取得的最高显示质量得分，Qd范围为 1到5分。

Mode0最终得分Qs在最高显示质量得分Qd的基础上，进一步减去由于视频压缩编码产生的损伤DC：

因此 Qs的得分范围为1到Qd。DC主要通过视频码流的码率（BitRate）来衡量（参考ITU-T P.1201.1[6]）：

其中，MOS_MAX为最高得分，为显示质量Qs’， MOS_MIN为最低得分，取值为1。

整合上述公式，得到Mode0最终得分为：

上述公式中，c1~c6表示模型的系数，通过大样本训练数据拟合获得。需要说明的是：系数 c5和c6 与不同的编码规范(H.264、H.265、AVS等编码标准以及CBR、VBR/ABR等码控方式)相匹配；即不同编码对应不同系数组。以IPTV为例，默认情况下，直播采用CBR，点播采用VBR。

Mode1：基于码流层的增强模型

Mode1是综合考虑显示质量和视频源压缩码流分析的增强模型。Mode1在Mode0的基础上，对视频码流的编码质量进行更加全面的评价。Mode1 需要从一段观看时间(比如10分钟)内的视频数据分组，通过对比特流中的帧级关键信息的提取，衡量视频压缩对于视频源质量的损伤情况。主要衡量的指标包含帧类型及帧大小、编码量化参数、运动矢量信息以及帧内编码单元跳过比例。因此，Mode1 的计算复杂度相对变大，模型准确度更高, 适合计算精度要求较高的场景。Mode1得分范围同样为 1到5分，其模型形式为：

其中，Mode1对于视频终端播放质量的衡量与Mode0一致，通过原视频的分辨率以及屏幕尺寸获得视频播放质量Qd。

Mode1对于码流压缩质量的评价主要参照ITU-T P.1202国际标准[7]，根据参数采集的难度及对性能的综合影响做了修改，视频估计质量综合衡量了编码过程中量化-帧率因子、编码复杂度因子、关键帧率因子和运动信息因子：

1. 量化-帧率因子：qp_fr

量化就是把信号的连续取值映射成多个离散的幅值的过程，在视频压缩编码的过程中，量化是造成失真的根本原因。编码器通过量化过程减少需要编码的数据量, 达到压缩数据的目的,但也损失了数据精度。量化后的视频图像不能进行无损恢复,因此导致源图像与重建图像之间的失真，即视频质量会出现一定程度的下降。因此，量化是一种有损压缩技术。量化参数（QP）反映了空间细节压缩情况，QP小，大部分细节会被保留；QP增大，一些细节丢失，码率降低，但图像失真加强和质量下降更明显。

量化因子主要衡量视频量化过程中造成的质量损伤，其计算过程为：

上式中采用了帧级QP的均值、最大值、最小值，其中FrameRate为视频帧率，IntraFlicker为布尔变量，表示当前视频码流中是否发生QP值的突变，当前I帧的平均QP值与前后I帧的平均QP值的差大于5时，IntraFlicker为1，否则为0。

2. 编码复杂度因子：cpx

在视频编码中，一个编码图像（一帧视频）通常划分成若干个小块（如图7），每一个小块可以称为一个编码单元，通过编码单元的划分从而不同位置实行不同的压缩策略。在目前主流的编码器H.264或HEVC中，编码单元的大小、划分方式和编码模式的选择灵活多样，从而导致了不同的视频编码复杂度，而不同的编码模式对视频质量会造成不同的影响。

图7 视频帧分块示意图

在原始P.1202.1[8]标准中，编码复杂度衡量的方法强依赖于H.264标准下的宏块帧内预测的划分模式，对其他编码标准不具备通用性，而且原始算法需要统计每个宏块的信息，导致数据采集和计算过程十分复杂。为了解决这个问题，参考P.1201.2[9]，采用统计量——当前帧采用skip帧间预测模式下块的跳过比例SkipRatio，这样既能降低计算复杂度，又能保证计算过程可以同时应用于H.264和H.265编码标准。

上式中，FrameRate为视频帧率，AvgByteI是I帧的平均大小(字节为单位)。

3. 关键帧率因子：kfr

在编码中，视频帧分为关键帧（I帧），向前预测编码帧（P帧），双向预测编码帧（B帧）。I帧是帧间压缩编码里的重要帧，I帧的间隔会影响到GOP长度，进而影响到读取GOP的速度。如果I帧间隔设置过大，会显著降低码率，但是也可能是人为地将原本需要用的I帧用B/P帧来代替，造成质量降低。此外，当I帧损坏，整个GOP结构中的所有视频帧将无法正确重建，也会影响编码结果的稳定性。

据此，关键帧率因子通过I帧之间平均距离D，和视频帧率FrameRate来衡量：

4. 运动信息因子：MV

在视频编码中，由于活动图像邻近帧中的场景存在着一定的相关性。因此，通过搜索出每个块在邻近帧图像中的位置，并得出两者之间的空间位置的相对偏移量，就是通常所指的运动矢量（MV）。运动矢量可以表征视频画面的运动偏移量或抖动情况，在视频画面运动偏移量大或者视频抖动情况出现时，会出现画面模糊等视频降质情况；而运动复杂的视频通常编码较高。运动信息因子就是对衡量视频运动矢量对视频质量的影响：

上式采用了当前P/B帧内所有分块（H.264的宏块，H.265的PU）水平方向和垂直方向MV的均值得到帧级平均avgMV。此外，式中MaxFrameRate表示最高帧率，1.0中默认值为30。

视频编码质量Qcod通过指数函数合并编码过程中量化-帧率因子qp_fr，编码复杂度因子cpx，关键帧率因子kfr和运动信息因子MV得到：

最后，评价体系需要综合视频服务本身因素以及与用户相关因素，因此，需要将视频编码质量和显示质量进行整合。整合方法与Mode0一致，即最终得分Qs在最高显示质量得分Qd的基础上，进一步减去由于视频压缩编码产生的损伤，同时通过取值空间转换,以保证Qs得分范围为1到5分。

上述公式中，n1~c11表示模型的系数，通过大样本训练数据拟合获得。

模型验证

为了检验 Mode1 在不同终端，不同场景下的视频服务的性能，标准组组织联盟成员单位，对代表性的现网视频序列进行主观测试，构建了主观视频数据集[10]。按照ITU-T P.1401的推荐方法进行分析[11]，与其他模型相比，Mode1在相关性 (PCC) 较高、均方根误差（RMSE）和95% 置信区间下背离率（OR）较低，性能与最新国际标准ITU-T P.1203.1[12]相当，输出结果与主观分数的一致性好，准确性高[13]。

图8 H.264/AVC编码模式下模型比较

Mode2：基于图像层的模型

Mode2 通过对视频画面关键质量指标的衡量，刻画视频不同纬度的质量，需要从播放器连续采集视频帧的图像层关键质量信息。国际视频专家组VQEG(Video Quality Expert Group)是学术界和工业界组成的视频质量评价方法专家组，该组织引领推进了MOAVI（Monitoring Of Audiovisual Quality by Key Indicators）指标体系[14]的构建，该体系针对于常规非超高清视频设计；此外，Sony 在2016年的Ultra HD Forum上提出过超高清图像质量“3C”关键质量指标概念，即颜色度、对比度、清晰度（colorfulness, contrast, clarity）[15]。

结合 “3C” KQI概念以及MOAVI指标体系，标准组在1.0中定义了图像的模糊度、块效应、噪点度、对比度等指标评价视频源质量，即：

根据各项指标计算值所处的范围，映射得到对应的MOS值，再对单项MOS得分进行加权平均，获得图像的总体MOS值。需要说明的是，Mode2处于发展和完善阶段，尚未规模化应用于体验评测中。

下边具体介绍性能指标如何影响人眼对于画面的视觉感受，以及如何计算。

模糊度（Blurriness）

模糊度是指对图像模糊程度的衡量。模糊是指基于图像像素灰度的梯度幅度变化,该变化可以表征图像边缘信息和空间细节，当梯度幅度过小时，该条边缘将不够清晰明显，影响视觉效果，降低观赏感受。模糊通常来源于编码过程或者视频录制过程。对于超高清视频来说，模糊度是更加敏感的评价关键指标。

模糊度计算首先计算图像的水平方向和垂直方向的梯度矩阵，并判断像素点是否属于边缘，从而计算边缘宽度edgewidth和边缘数量edgeNo，之后采用下列公式计算：

块效应（Blockiness）

在图像编码中，将图像分块进行编码变换是一种常见手段并已广泛运用在编解码算法中。而若视频的码率降低，则会导致编码值量化变得粗糙，解码后在图像分割块的边缘会就出现像素值不连续的现象，这就是图像的块效应。块效应严重时，视频在将出现明显块状缺陷，影响视觉效果，降低观赏感受。块效应来源于图像压缩中的粗糙量化，从而产生水平和垂直边界。

块效应计算[16]首先计算每一分块内部（倒数两行/列）、外部（最后一行/列与相邻块的第一行/列）的灰度值差值绝对值之和，并将其求和得到globalInnerSum、globalOuterSum，之后采用下列公式计算：

噪点度（Noise）

噪点度定义对像素色度值的浮动的衡量，该种浮动对图片整体质量无正影响且无固定规律，不可控制。在被压缩视频中通常存在多种噪点类型。其中最常见的是量化噪声及蚊式噪声。其中量化噪声主要由于对像素值的量化引入，其分布具有小范围随机特性，且在整体图像上分布不统一。蚊式噪声主要表现为物体边缘的噪声以及运动纹理干扰。噪声度量通过计算图像最平坦区域的局部方差来估计噪声水平，阈值表示高于该值的值表示噪音假象很明显。

噪点度计算[17]首先将一帧图像分为LxL块，计算各块标准差统计直方图，找到出现频次最高、次高、再次高的块，使用三者频次对三个标准差值进行加权平均，并找到满足如下条件的图像块集合：图像块标准差与上述加权平均值接近。之后，采用上述加权标准差构建高斯滤波器，并对选择出来的分块进行滤波，并对滤波前后的分块求差值，整体差值图的标准差即为一帧图像的噪点度指标，即采用如下公式计算：

其中，

G:滤波之后的图像块集合 {W}:标准差接近的图像块集合 mask：与图像块做卷积的滤波器 * ：表示卷积运算 M: 图像块的横向像素个数 N：图像块的纵向像素个数

对比度（Contrast）

对比度（Contrast）定义为图像中明暗区域不同亮度层级的衡量。合理的对比度可以显示生动、丰富的色彩，展现更多的细节、更好的清晰度以及灰度层次。然而对比度过高则视频将产生失真感，对比度过低画面则将表现为灰蒙蒙。不合理的对比度将影响人眼的主观感受。

对比度计算采用下边的公式：

其中，

M: 一帧图像横向像素个数N：一帧图像纵向像素个数

交互体验质量Qi

交互体验，也称为交互体验质量，是指用户在视频业务使用过程中业务操作的便捷性和效率，包括直播、点播等业务操作的成功率以及交互时长等指标。用户的交互体验主要取决于系统对用户交互操作的响应速度，涵盖了平台、网络、终端性能指标。对于不同视频业务，用户关注的交互体验具体指标有所不同。

基于前文uVES 标准KQI确定过程，在大范围用户调研中，操作反映时长（点播）、内容加载时长（直播）在各项因素的影响权重中占比较高，可以确定为现阶段影响交互体验的关键影响因素。交互体验分直播和点播不同的应用场景，其得分区间为1到5分, 模型为：

对于直播业务，交互体验主要受频道切换时长（tzapping）影响，频道切换时长越大，用户交互体验越低。对于点播业务，交互体验主要受点播初始加载时长（tloading）影响，初始加载时长越大，用户交互体验越低。对于不同的终端，用户对初始加载时长的接受能力不同如下表，表中根据业界的实际情况，定义了交互体验用户得分的关键点基准。

在确立点播算法的过程中，首先根据表中关键点基准得分（通过大量实验获得的数据），进行曲线拟合，如图9。

图9 交互体验得分曲线（电视）

通过曲线拟合，选择拟合度最好的曲线，获得点播交互体验质量公式如下：

直播的交互体验公式，采用同样流程处理，得到：

上述公式中，a1~a4,b1~b4表示系数, 通过大样本训练数据拟合获得。

观看体验质量Qv

观看体验，也称为观看体验质量，主要取决于视频在播放过程中的节目信号质量，即是否有出现视频图像不连续，图像出现异常等质量劣化的情况，包括花屏、马赛克、卡顿、声画不同步等。

在HLS等传输协议下，uVES 标准中衡量观看体验质量主要考虑视频卡顿 (Stalling) 现象，在无丢包掩盖机制的RTSP/RTP传输协议下，标准主要考虑视频流中花屏（Blocking）现象，观看体验得分区间为1到5分，参数映射为：

观看体验模型主要参照 ITU-T P.1201.1国际标准模型[6]。其中，卡顿一般体现为视频重新进行缓冲，卡顿时长越大、卡顿次数越多、卡顿间隔越短，用户观看体验越差。

图10 卡顿时长与用户得分情况示意图

基于卡顿的得分公式为：

其中，Duration为所有缓冲事件长度的平均值，即所有的缓冲时长之和除以缓冲次数。Frequency 为频观看过程中发生缓冲的次数。Interval为多次缓冲情况下，缓冲间隔的平均值；（只有多于一个重缓冲事件发生（Frequency>1）时才使用）。在上述公式中，c0~c6为系数，由现网大数据统计获得。

花屏的模型主要包括花屏时间占比和花屏面积占比，花屏时间和面积占比越大，用户观看体验越差。

图11 花屏与用户得分情况示意图

基于花屏的得分公式为：

其中，V_AIRF为视频帧的平均损伤率（面积占比）, V_IR 视频流损伤率（即花屏时长占比），V_ PLEF为花屏次数，V_CCF为视频复杂度，通过对视频流的分析获得；当提取不到内容复杂度时，可用经验值替代。在上述公式中，c0~c6为系数，由现网大数据统计获得。

总结

视频服务用户体验评估算法主要从视频源质量、交互体验质量、观看体验质量三个方面进行衡量视频服务的综合得分。算法的设计借鉴了最新国际标准，并结合中国视频服务的实际部署情况，分析了影响视频服务用户体验质量的关键因素，规定了视频服务业务用户体验质量的评估场景和模型。算法在2016年和2017年中国视频服务体验白皮书中得以应用，对不同视频业务进行大规模测试分析，用以描绘出国内视频体验整体的分布情况。同时针对行业发展的新需求和新挑战，视频服务用户体验评估算法也在不断的完善和拓展中，以期为视频服务行业的发展提供长期有效的支持。

【本文地址】

视频体验评估标准(uVES1.0)模型及算法解读

视频体验评估标准(uVES1.0)模型及算法解读

今日新闻

推荐新闻