新一代視頻編碼主客觀評價結果一致性探究

2021-07-01 08:53:52孟昭旭朱宏宣

現代電影技術 2021年6期

孟昭旭朱宏宣

（1.北京電影學院中國電影高新技術研究院，北京 100088）（2.北京電影學院影視技術系，北京 100088）

1 引言

近年來，電影、電視、互聯網視頻尤其是用戶生產內容快速增長，視頻技術指標不斷提升，網絡流媒體平臺開始支持4K、8 K、HDR片源，視頻數據量呈指數式上升，而存儲技術的發展和存儲媒介容量的增長卻遠遠滯后，因此，更高的壓縮率成為了存儲海量視頻內容的必然選擇。在這種情況下，新一代視頻編碼VVC、AV1和AVS3應運而生，其壓縮效率相較于目前廣泛使用的視頻編碼AVC和HEVC有較大的提升。

為了量化新一代視頻編碼的壓縮效果，需要對畫面質量進行評價，其方法可以分為主觀評價和客觀指標評價兩種方式。主觀評價是衡量視頻質量最準確的方法，因為人對視頻質量的感知是主觀的。客觀指標評價快速便捷，只要確定了客觀指標的計算公式，即可自動化批量評價視頻，但是客觀指標評價結果與主觀評價結果并不完全相符，存在一定的差異。近年來，出現了一些更符合人類視覺特征的客觀評價指標，例如VMAF，其評價結果更接近主觀結果。

針對主客觀評價結果差異的問題，本文在應用新一代視頻編碼進行壓縮測試的基礎上，對各視頻編碼在不同碼率下的壓縮畫面進行主客觀評價結果的對比實驗，探究客觀指標評價結果的準確性。本次測試共涉及五種視頻編碼:AVC（H.264）、HEVC（H.265）、VVC（H.266）、AV1、AVS3。其中，AVC仍是目前使用最廣泛的視頻編碼，HEVC是當下性能表現優異，已經得到成熟應用的視頻編碼。因此，選取AVC和HEVC作為對照組，新一代視頻編碼VVC、AV1和AVS3作為實驗組。

2 測試使用的五種視頻編碼簡介

2.1 應用最廣泛的視頻編碼系列——H.26x系列

AVC，即Advanced Video Coding，高級視頻編碼，也被稱作ITU－T H.264或MPEG－4 Part 10，由聯合視頻組（JVT）在2003年確立第一版標準。AVC編碼與之前的編碼相比，壓縮率大大提升，同時編解碼復雜度控制得較好，編解碼速度較快，這使得AVC編碼迅速普及。由于其廣泛的平臺支持性，截至2020年，AVC編碼依然是視頻行業中使用率最高的編碼。

HEVC，即High Efficiency Video Coding，高效視頻編碼，也被稱作ITU－T H.265或MPEGH Part 2，由視頻編碼聯合協作組（JCT－VC）于2013年標準化。HEVC在同等視頻質量下的壓縮率比AVC提高25～50%，是當前性能較強的視頻編碼。但是，與AVC相比，HEVC的授權費不僅更貴，而且混亂，與HEVC相關的專利由多個專利池負責收費，這也導致HEVC至今為止都沒能像AVC編碼一樣普及。

VVC，即Versatile Video Codec，多功能視頻編碼，也被稱為ITU－T H.266或MPEG－I Part 3，由聯合視頻專家組（JVET）于2020年7月發布了第一版標準。VVC在相同的視頻感知質量下可以比HEVC提高50%的壓縮率。VVC在制定的過程中充分地考慮了視頻的高技術指標趨勢并進行了針對性的優化，如8 K高分辨率、12bit高位深、PQ和HLG高動態范圍曲線、Rec.2020寬色域、全景視頻、3D視頻等。因此對于高技術指標的視頻，VVC能表現出更優異的壓縮性能。

2.2 開源免費的編碼——AV1

AV1視頻編碼是由開放媒體聯盟（Alliance for Open Media）開發的開源、免費的視頻編碼，于2018年發布了第一版標準。開放媒體聯盟是一個非盈利組織，成員包括谷歌、微軟、蘋果、英偉達等互聯網和芯片企業，旨在開發無版權的音視頻編碼標準，以滿足網絡視頻壓縮和傳輸的開放標準需求。AV1編碼繼承于谷歌的開源免費編碼VP8和VP9，與它們相比，AV1具有更高的壓縮率。由于其開源免費，性能優良，AV1正在取得越來越廣泛的應用。

2.3 我國自主研發的音視頻編碼標準——AVS3

AVS，即Audio Video coding Standard，音視頻編碼標準，由我國的數字音視頻編解碼技術標準工作組負責開發制定。工作組制定的AVS1、AVS2兩代編碼，已分別于2006年和2016年被頒布為國家標準。目前AVS標準廣泛應用于我國的廣播電視領域，正在進軍互聯網視頻領域和監控領域。2019年3月，數字音視頻編解碼技術標準工作組完成了AVS3基準檔草案，性能超過AVS2編碼30%左右。目前，由北京大學深圳研究生院團隊開發的AVS3編解碼器“天樞”u AVS3e和“天璇”u AVS3d已經開源發布。其中，“天樞”編碼速度與AVS3標準參考軟件相比有數十倍的提升。

3 視頻質量評價方法

3.1 主觀評價——MOS

MOS，即Mean Opinion Score，平均意見分，其分數范圍一般是1～5分。由于MOS評判的環境不一，比如顯示器大小、觀看距離、環境亮度等不同，所以每個MOS測量結果都需要標注測試時的具體環境參數，同時不建議直接使用不同測試環境下得到的MOS分進行橫向對比。由于需要人工參與并標準化測試場景，所以進行MOS評價費時費力，不方便大規模部署，應用范圍受限。

3.2 基礎客觀評價指標——PSNR

PSNR，即Peak Signal-to-Noise Ratio，峰值信噪比，指的是信號的最大可能功率與噪聲功率之比。PSNR公式如（1）所示，單位是dB:

式（1）中:MAX＝2－1，n為圖像的位深度。MSE為均方誤差，即原始圖像與壓縮圖像每個像素誤差的平方和的平均值。

PSNR是用來評估有損壓縮質量的最常用的指標之一。一般情況下，PSNR的值越高，壓縮畫面的質量越好。如果對8bit位深的圖像進行壓縮，PSNR的值一般在30dB至50dB之間；如果是無損壓縮，那么MSE為0，PSNR的值為無限大。PSNR的局限性在于只考慮了每個像素之間的絕對差別，但人眼并不是逐個像素去觀看畫面的，因此并不符合人眼的視覺感知特點，這意味著即使是相同PSNR的兩段壓縮視頻，也有可能呈現出不同的主觀質量。

3.3 考慮人類視覺特點的客觀評價指標——SSIM

SSIM，即Structural Similarity Index Measure，結構相似性指數。它由德州奧斯汀大學的Zhou Wang等人于2004年開發。SSIM指標設計的初衷是提升對圖像主觀質量預測的準確度。SSIM主要評價人類可感知到的圖像差別。給定圖像x和圖像y，SSIM的公式如下:

SSIM的值在0和1之間，一般情況下，其值越高，壓縮畫面的質量越好。由于考慮到了畫面中亮度、對比度和結構特征，SSIM在一定程度上更符合人類的主觀感知。

3.4 基于機器學習的客觀評價指標——VMAF

VMAF，即Video Multimethod Assessment Fusion，視頻多方法評估融合，是由Netflix公司開發的一種基于機器學習的視頻客觀評價指標。Netflix為了解決海量流媒體的質量控制問題，開發了VMAF指標，其預測視頻主觀質量的準確度高于PSNR和SSIM等傳統指標。

VMAF的原理是提取視頻的空域和時域特征，特征提取過程中會考慮到人類視覺特點如對比度掩蔽效應和亮度掩蔽效應。然后召集測試者在特定測試環境下對視頻質量進行主觀評價得到MOS分。最后通過支持向量機（SVM）將這些特征值和MOS分數擬合得到VMAF模型。VMAF分值范圍在0到100之間，分值越高，代表壓縮畫面的質量越好，一般來說，75分以上有較好的觀感。

VMAF依然存在局限性。對于不同觀看媒介上的同一段視頻，比如手機和電視，其主觀感受是不同的，所以針對不同的觀看媒介需要訓練不同的VMAF模型，比較繁瑣。另外，VMAF和PSNR、SSIM一樣，是一種完全參考評價指標（Full-reference），VMAF分數是相對于原始參考視頻而言的，不代表絕對質量，即VMAF分數只適用于對比同一視頻源所產生的壓縮視頻的質量，而不適用于橫向對比不同視頻源所產生的壓縮視頻的質量。

4 主客觀評價結果一致性測試實驗

實驗主要分為客觀測試和主觀測試兩部分。5種視頻編碼均參與PSNR、SSIM、VMAF客觀指標測試，但是由于AVC編碼在實驗所要求的低碼率下必然存在明顯瑕疵和畫面崩壞，不具備主觀測試意義，因此AVC編碼不參與主觀測試。

4.1 測試參考序列的準備

表1 五段測試參考序列的信息

圖1 測試序列截圖:依次為風景、特寫、肖像、運動物體、運動人物

測試參考序列來自于各品牌攝影機官網示例素材和網絡無版權素材，均為攝影機RA W格式文件。選取有代表性的片段導入達芬奇軟件中進行剪輯和處理，將內容相似的若干個鏡頭組合為一段測試參考序列，最終組合成5段測試參考序列:風景、特寫、肖像、運動物體、運動人物，以求盡可能模擬視頻中可能出現的各種內容。最終，將這5段參考序列輸出為25幀率、1920×1080分辨率、8bit位深、ST1886 EOTF和Rec.709色域的I420像素格式的無壓縮YUV文件，作為最高質量源參考文件。

4.2 測試參考序列的編解碼

將5段參考序列的YUV源文件分別使用5種編碼壓縮至0.1、0.2、0.5、1、2、5 Mbps 6檔碼率，得到150個壓縮視頻文件。接著用相應的解碼器解碼這些文件，得到150個解碼重建后的YUV文件。

上述過程中使用符合對應編碼標準的開源編解碼器進行編解碼。AVC、HEVC、VVC、AV1、AVS3使用的編解碼器分別為x264、x265、VVen C/VVde C、ao m-av1、u AVS3e/u AVS3d。其中x264、x265編解碼器可直接通過FFmpeg調用，新一代視頻編碼的編解碼器VVen C/VVdeC、ao mav1、u AVS3e/u AVS3d可下載源碼并編譯后使用。

表2 編碼測試片段使用的命令示例

4.3 客觀評價過程

客觀指標的計算是通過逐一對比測試參考序列的源YUV文件和各個碼率解碼重建后的YUV文件完成的。其中，PSNR和SSIM指標的計算可以通過調用FFmpeg中的Co mplex Filter模塊進行，VMAF評價指標已開源，可下載并編譯后使用，本次測試中使用的VMAF模型版本為0.6.1。

圖2 客觀測試數據（局部）

4.4 主觀評價過程

主觀測試使用的顯示設備為OLED電視，電視機對角線約127厘米，分辨率3840×2160，亮度100尼特，EOTF設置為ST1886，色域設置為Rec709。待測試畫面分辨率為1920×1080，恰好能在電視機上以像素點一一對應的方式顯示4組畫面。將AV1、AVS3、VVC、HEVC編碼壓縮重建的視頻隨機分配到畫面左上、右上、左下、右下4個不同位置，對5段測試序列分別使用5種不同的分配順序，并將分配順序記錄下來。

邀請10位測試者，每位測試者單獨進行測試。測試者采用坐姿，距離電視機1.5米，水平視角約47度。每位測試者需觀看風景、特寫、肖像、運動物體、運動人物5段測試序列，每段測試序列有6種碼率，共30段視頻，每段視頻的左上、右上、左下、右下4個位置分別對應某一種編碼。測試者每觀看完某一測試序列的某一碼率后，立刻對4個不同位置的畫面進行主觀質量分（1～5）評價，并將結果記錄在表格中，記錄完成后再觀看下一段視頻，這一過程重復進行直至觀看完30段視頻。測試者在測試時并不清楚不同畫面位置所對應的編碼，因此更能保證測試結果的準確性。

測試結束后收集10張主觀質量評分表。根據事先記錄的畫面分配順序，將表格中左上、右上、左下、右下四個畫面位置還原為對應的視頻編碼，然后計算每種編碼在每段測試序列的每種碼率下的得分，最后將得分歸一化至0～100。

圖3 主觀測試環境和主觀評測表（局部）

4.5 實驗結果和分析

由于篇幅所限，不再單獨展示每段測試序列的結果，而是取5段測試序列結果的平均值作為最終的客觀指標測試結果和主觀質量評價結果。

從圖4可以看出，主觀和客觀評測均顯示在任何壓縮碼率下，新一代視頻編碼的畫面質量都優于HEVC，更明顯優于AVC，而且碼率越低這種優勢越明顯。在小于0.2 Mbps的超低碼率下，AV1、AVS3、VVC編碼的客觀得分雖然稍有差距，但主觀感受上三種編碼畫面均有可分辨的瑕疵，只是瑕疵具有不同的特點；當碼率升至1 Mbps以上時，AV1、AVS3、VVC壓縮編碼之間的差距就變得極小，在主觀上幾乎無法區分，此時只能分辨出HEVC編碼的畫質更差一些；如果畫面中運動內容較少，比如在觀看肖像、風景測試序列時，就更難分出差別。值得一提的是，當畫面中存在劇烈運動且在0.1 Mbps的極低碼率下，HEVC出現了畫面崩壞的現象，AV1、AVS3、VVC雖然也會觀察到明顯的塊狀效應和模糊，但至少保證了畫面質量在“可觀看”的范圍內，這也更加體現了新一代壓縮編碼的優勢，在超低碼率下能保證更好的觀感。

圖4 五段測試序列測試結果平均值

圖5 PSNR、SSIM、VMAF與主觀評價分的關系

對PSNR、SSIM測試結果進行歸一化處理，得到3種客觀指標測試結果與主觀評價結果關系的散點圖。如果客觀指標測試結果與主觀評價結果完全一致，那么所有的點都會落在直線y＝x上。在此規定指標D，其值為散點圖中的每個點到直線y＝x的距離的平方和。D值越小，說明客觀評價與主觀評價的一致性越高。經計算，PSNR、SSIM、VMAF的D值分別為725.8、616.1、195.6。由此得出在本次實驗中VMAF指標的評測結果與主觀評價結果的一致性程度更高，優于PSNR和SSIM，能夠在一定程度上更好地預測視頻的主觀質量。

5 結語

本文應用新一代視頻編碼進行視頻壓縮，并在此基礎上對壓縮畫面進行主客觀評價，探究評價結果的一致性。本次實驗過程中也有可改進之處，例如在主觀實驗中如何布局主觀評分表才能更方便測試者快速進行打分，如何設置測試序列時長和鏡頭切換速度才能使測試者既有時間充分記憶對比畫面內容又能保證其注意力不會下降。在今后的實驗中，將會基于測試者的反饋進行改進。

新一代視頻編碼與現有視頻編碼相比，壓縮效率和質量得到了明顯提升，主觀和客觀評測都印證了這一點。相信在不久的將來，新一代視頻編碼會在電影、電視、互聯網視頻中得到廣泛的應用，屆時我們就能以更小的存儲代價和更窄的帶寬需求觀看到質量更高的畫面內容。另外，隨著VMAF等基于人類視覺特征和機器學習的新型客觀指標的完善和推廣，在批量控制視頻質量、權衡碼率和畫質的關系時，客觀評價指標將成為越來越有力的工具。