【论文解读】Comparing VVC, HEVC and AV1 using Objective and Subjective Assessments

时间：2020
级别：IEEE
机构： IEEE 组织
摘要： 对3种最新的视频编码标准HEVC (High Efficiency video Coding)测试模型HM (High Efficiency video Coding)、amedia video 1 (AV1)和Versatile video Coding测试模型 (VTM)进行了客观和主观质量评价。通过精细化选择9个源序列，使其具有多样性和代表性，并在预定义的目标码率下对3种编解码器进行不同分辨率版本的编码。采用两种常用的客观质量评价指标PSNR和VMAF对3种编解码器的压缩效率进行了评估。通过心理物理实验对重构内容的主观质量进行评估。在动态优化框架(凸包率失真优化)下，使用客观和主观评价，在具有更宽比特率的分辨率下对HEVC和AV1进行了比较。最后比较了3种测试编解码器的计算复杂度。主观评价结果表明，AV1与HM之间无显著性差异，而VTM有显著性增强。所选的源序列、压缩视频内容和相关的主观数据可以在线获取，为压缩性能评价和客观视频质量评价提供了资源。

介绍：视频技术在现代生活中无处不在，有线和无线视频流、地面和卫星电视、蓝光播放器、数字相机、视频会议和监控都以高效的信号表示为基础。据预测，到2022年，每年全球互联网流量的82%(约4.0ZB)将是视频内容。因此，对于压缩，这是一个非常具有挑战性时时刻，必须有效地编码这些增加的视频数量在更高的空间和时间分辨率，动态分辨率和质量。

从第一个国际视频编码标准H.120到广泛采用的MPEG-2/H，和H.264/AVC(高级视频编码)标准，视频压缩技术在过去的三十年中取得了巨大的进步。近年来，ISO/IEC运动图像专家组(MPEG)和ITU-T视频编码专家组(VCEG)相继启动了新的视频编码标准——通用视频编码(VVC)的开发，其目标是比现有的高效视频编码(HEVC)标准降低30% ~ 50%的码率。与此同时，开放媒体联盟(AOMedia)开发了免版税的开源视频编解码器，以与MPEG标准竞争。据报道，最近推出的amedia Video 1 (AV1)编解码器的性能优于其前身VP9。

为了衡量这些编码算法的性能，可以采用客观和主观的评估方法来评估它们的码率质量性能。现有工作报告了对当代编解码器的比较，但由于使用不同的编码配置，结果各不相同，结论令人困惑。
在此背景下，对HEVC, AV1和VVC这三种主流视频编码标准的测试模型进行了比较，利用它们各自对应的通用测试条件来创建一个公平的比较。结果是基于UHD (3840×2160)和HD (1920×1080)分辨率的18个代表性源序列，使用传统(恒定分辨率)和动态优化器DO(仅用于高清分辨率)方法。
对之前的工作进行了全面的扩展，其中基于DO方法只给出了AV1和HEVC的比较结果。与已有的编解码器比较工作相比，本文首次给出了VVC测试模型的客观和主观比较结果，并在自适应流媒体框架下对编解码器进行了比较。

背景

视频编码标准：
视频编码标准通常定义比特流的语法和解码过程，而编码器生成符合标准的比特流，从而决定压缩性能。每一代视频编码标准都有一个参考测试模型，如HEVC测试模型HM (HEVC test model)，可以用来提供一个性能基准。
H.264/MPEG-4-AVC于2004年推出，尽管目前的标准H.265/HEVC在2013年完成，但它仍然是最多产的视频编码标准。自2018年以来，下一代视频编码标准——通用视频编码(VVC)的工作目标是比H.265/HEVC提高30%-50%的编码增益，支持沉浸式格式(360°视频)和更高的空间分辨率，最高可达16K。

其他的视频编码技术：
除了最近的MPEG标准化之外，开源免版税视频编解码器的开发活动也在增加，特别是由视频相关公司组成的联盟——开放媒体联盟(AOMedia)。VP9由谷歌开发，旨在与MPEG竞争，并为2018年发布的AV1 (AOMedia Video 1)提供了基础，AV1有望成为当前MPEG视频编码标准的主要竞争对手，特别是在流媒体应用的背景下。
有关现有视频编码标准和格式的详细信息，读者可参考[17-19]。

编解码比较：
视频编码算法的性能通常通过比较它们在不同测试序列上的率失真(rate-distortion, RD)或率质量(rate-quality, RQ)性能来衡量。测试内容的选择非常重要，应提供多样化且具有代表性的视频参数覆盖空间。通常使用客观质量指标或主观意见测量来评估压缩视频质量，然后可以使用Bjøntegaard测量(用于客观质量指标)或SCENIC(用于主观评估)来计算编解码器之间的总体RD或RQ性能差异。最近，为了比较视频编解码器和优化码率质量性能，Netflix为自适应流媒体应用开发了DO方法，特别是凸包率失真优化方法。该方法构建了不同空间分辨率下的码率质量曲线凸包，为在更宽的码率范围和分辨率下比较不同编解码器提供了一种更公平的方法。

最近的工作主要集中在MPEG编解码器(H.264/AVC和HEVC)和免版税编解码器(VP9和AV1)之间的比较以及它们在自适应流服务中的应用。然而，所提出的结果被认为是高度不一致的，主要是由于采用了不同的配置。此外，据我们所知，在自适应流媒体或包括性能VVC的情况下，还没有主观编解码器比较。

测试内容和编解码器配置

源序列选择：
从Harmonic、BVI-Texture和JVET (Joint Video Exploration Team) CTC (Common Test Conditions)数据集中选取9个源序列。每个序列被渐进扫描，在超高清晰度(UHD, 3840×2160)分辨率下，帧率为每秒60帧(fps)，并且没有场景切换。如图 1。
在这里插入图片描述
图 2确定了视频参数空间的覆盖范围，其中绘制了数据集(SI和TI)的空间和时间信息。

为了研究不同分辨率和自适应流框架下的编码性能，从源序列中产生了三种空间分辨率组:(A)仅UHD (3840×2160)， (B)仅HD (1920×1080)和© HD- dynamic Optimizer (HD- do)。对于C组，首先生成三种不同分辨率(1920×1080、1280×720和960×544)和不同量化参数(QPs)的编码结果。然后将重建视频上采样到高清分辨率(以便与原始高清序列进行比较)。在这里，使用Lanczos-3滤波器实现了空间分辨率重采样。针对每个目标码率和编解码器，在三种测试分辨率中选择码率质量性能最优的码率点(基于VMAF)。在DO方法中，重复这个过程来生成整个凸包。

编码配置：
本研究对HEVC和VVC的参考测试模型以及它们的主要竞争对手AV1进行了评估。每个编解码器使用在其通用测试条件中定义的编码参数进行配置，具有固定的量化参数(禁用速率控制)，相同的结构延迟(例如在HEVC HM软件中定义为GOP大小)为16帧，相同的随机访问间隔(例如在HEVC HM软件中定义为周期内)为64帧。实际的编解码器版本和配置参数见表1。
在这里插入图片描述
对每个测试序列和每个分辨率组(分辨率A、B组4个点，HD-DO组5个点)预先确定不同的目标比特率，其值如表II所示。这些是根据使用AV1对每个分辨率组的测试序列的初步编码结果确定的。之所以做出这个决定，是因为AV1版本在预定义的比特率下限制了比特流的产生，因为只有整数量化参数可以使用。另一方面，对于HM和VTM，通过启用“QPIncrementFrame”参数，这更容易实现。为了获得这些目标码率，迭代调整量化参数值，以确保输出码率足够接近目标码率(在±3%的范围内)。
在这里插入图片描述
总结：
综上所述，总共产生了306个失真序列:分辨率a组(仅UHD)有108个(9个源序列×4个速率点×3个编解码器)，分辨率B组(仅HD)有108个(9×4×3)，分辨率C组(HD- do)2有90个(9×5×2)。

主观实验

环境设置：
所有三个实验都是在昏暗的客厅式环境中进行的。背景亮度设置为显示器峰值亮度(62.5 lux)[27]的15%。所有测试序列都以其原生空间分辨率和帧率在一台消费显示器上显示，一台SONY KD65Z9D液晶电视(测量1429×804mm)，峰值亮度为410 lux。根据ITU-R BT.500和ITU-R P.910的建议，A组(UHD)的观看距离设置为121cm(1.5倍屏幕高度)，B组(HD)和C组(HD- do)的观看距离设置为241cm(3倍屏幕高度)。视频序列的呈现由一台windows电脑控制，该电脑运行一款开源软件BVI-SVQA，该软件是布里斯托尔大学为心理物理实验开发的。

实验过程：
在所有三个实验中，采用双刺激连续质量量表(DSCQS)方法。在每个试验中，参与者被展示两次一对序列，包括原始版本和编码版本。在每次试验中，演示顺序是随机的，每个参与者都不知道。参与者有无限的时间来回答以下问题(在视频监视器上显示):“请对第一秒视频的质量(0-100)进行评分。优秀- 90分，好- 70分，一般- 50分，较差- 30分，差- 10分。然后，参与者使用鼠标滚动垂直刻度，并为这两个视频评分(0-100)。每个实验环节的总时长约为50分钟(A、B组)或60分钟(C组)，每个环节分为两个环节，中间休息10分钟。在正式测试之前，有一个由三个试验组成的培训课程(与正式测试中使用的不同)。

参与者与数据处理：
布里斯托尔大学共有60名受试者(每次测试20名)，平均年龄27岁(年龄范围20-45岁)，他们因参与实验而获得补偿。所有人都接受了视力正常或矫正视力正常的测试。如前所述，受试者的回答首先被记录为质量分数，范围为0-100。然后，通过从相应的参考序列中减去失真序列的质量分数，计算每个试验和每个受试者的差异分数。通过取参与者差异得分的平均值，得到每个试验的差异平均意见得分(DMOS)。

结果和结论

客观数据 VMAF和 PSNR，实验还利用主观数据对6种主流的客观视频质量评价指标进行了评价，包括PSNR、结构相似度(SSIM)、多尺度SSIM (MS-SSIM)、视觉信噪比(VIF)、视觉信噪比(VSNR)和VMAF。按照[46]标准，采用logistic拟合函数对3种不同分辨率组的质量指标和主观DMOS进行加权最小二乘拟合。采用斯皮尔曼等级顺序相关系数(SROCC)、线性相关系数(LCC)、离群率(OR)和均方根误差(RMSE) 4种相关统计量评估这些质量指标的相关性能。这些参数的定义可以在[46,47]中找到。

结果基于客观质量评测：
表 3 是结果对比数据。综上所述，AV1在测试内容上的表现比HM略有提升，AV1和HM的表现都(显著)低于VTM。

图 3 是展示动态优化(DO)下的性能。
在这里插入图片描述
结果基于主观质量评测：
如表 4-6所示。

客观质量度量性能比较：
表7总结了三个分辨率组的六个测试客观质量指标的相关性能(根据SROCC值)。可以看到，VMAF在三个测试数据库上的SROCC和LCC值最高，OR和RMSE值最低，均优于其他5个指标。PSNR(峰值信噪比)导致算法性能下降，特别是对于超高清分辨率组。3组分辨率的SROCC值均在0.9以下，说明预测精度仍需进一步提高。
在这里插入图片描述

计算复杂度分析：
如表 8 所示，总结了超高清和高清内容编码的平均复杂度，其中HM编码器已用于基准测试。平均复杂度是被测编解码器在所有速率点上的执行时间与基准测试时间的平均比率。可以看出，对于经过测试的编解码器版本，AV1比VTM具有更高的复杂度。
在这里插入图片描述
相对复杂度和编码性能之间的关系(根据PSNR和VMAF的平均编码增益)也显示在图4中。