劉雨奇
(上海交通大學,上海 200240)
隨著互聯網的普及和數字媒體技術的進步,視頻逐漸成為人們娛樂和獲取信息的重要方式。伴隨各項技術的成熟和普及,人們對于視頻質量有了更高的要求,高動態范圍(High Dynamic Range,HDR)視頻成為視頻領域的熱點方向。相比于標準動態范圍(Standard Dynamic Range,SDR)視頻,HDR視頻具有更接近真實場景的動態范圍、更逼真的色彩、更沉浸的視覺體驗,帶動了各個領域的更新換代。
采集原生HDR視頻的過程比SDR視頻更加復雜,且在傳輸、用戶顯示的過程中也會導致多層次多類型的損傷。HDR視頻質量直接影響用戶的體驗,這對HDR視頻的質量評測提出了更高的要求。按照是否需要觀察者主觀參與評分來劃分,視頻質量評價方法分為主觀評價方法和客觀評價方法兩大類。其中,客觀評價方法具有更高的實用價值,是本文的研究重點。
HDR視頻主觀質量評價方法可以直觀反映觀看者的體驗,即在特定場景下,觀看者觀看以一定順序排列好的測試序列,并根據自身體驗直接給出分數。
國際電信聯盟無線電通信部門(ITU-Radiocommunication Sector,ITU-R)針對不同場景規范化了視頻主觀質量評價的測試方法、環境參數、評價等級、測試數據以及后期數據處理[1]等。常用主觀評價方法如下:
(1)劣化等級評分法(DCR),使觀測者根據之前觀看的無損視頻來評價有損視頻等級;
(2)絕對等級評分法(ACR),觀測者直接觀察有損視頻進行評級;
(3)配對比較法(PC),成對播放測試序列,并根據上一個觀看序列進行評級;
(4)視頻質量主觀評估方法(SAMVIQ),綜合考慮顯性基準和隱形基準,與DCR評測方案類似。
視頻主觀評價方法測試費時費力,無法滿足各類視頻系統的實時化評價需求,但其評價體系反映真實的觀看體驗,可以作為參考數據為客觀質量評價的預測性能提供判斷依據,是客觀質量評價的設計基礎。但由于HDR高質量原生視頻獲取困難,各方資源保密性較強,目前沒有普適的HDR數據庫可以用于訓練和測試。
1.2.1 客觀質量評價方法概述
客觀視頻質量評價方法是通過制定的算法和指標模擬人眼對視頻質量的主觀感受,預測視頻在人眼觀察下的質量評分,按照是否需要原始視頻源的數據參與評價,可分為全參考評價方法(Full-Reference,FR)、半參考評價方法(Reduced-Reference,RR)以及無參考評價方法(No-Reference,NR)三類[2]。FR需要原始視頻的全部信息,方法較多,通常比較準確;RR采用特征提取的方法,只獲取原始視頻的部分信息,然后傳輸到接收方進行質量評估,研究方法相對較少;NR不需要原始視頻信息,可直接進行評估打分,通常準確性較差,但具有靈活性、實時性以及可操作性,適用范圍廣。以下將重點介紹全參考質量評價FR以及無參考質量評價NR。
1.2.2 HDR視頻全參考質量評價現狀
針對傳統低動態范圍(Low Dynamic Range,LDR)視頻的方法如PSNR[3]、SSIM[4]、VIF[5]等假定圖像和人眼感知具有線性關系,這對HDR視頻并不成立。研究指出[6],經過log運算或者PU編碼后,其線性關系又將近似成立,使其具有較好的感知一致性。Hanhart等[7]針對35項視頻評價方法的測試可以說明這點,其中HDR視覺差異預測器(HDRVDP-2)[8]以及HDR-VQM[9]與主觀數據取得了最好的擬合效果,下面簡要介紹這兩種算法。
HDR-VDP-2是一個用于比較參考圖片和測試圖片的視覺度量,并提供可見性和質量兩個方面的預測信息。可見度是參考圖片和測試圖片之間的差異性能夠被普通觀看者看得到的可能性;質量是測試圖像相對于參考圖片的質量退化,以平均意見得分進行表達。其輸入分別是測試圖片和有質量損失的參考圖片(一般是兩個HDR圖像或者兩個LDR圖像),然后經過HDR-VDP-2處理后產生一個檢測概率圖。檢測概率圖告訴人們有多大的可能會感受到兩個圖的差異性,紅色表示可能性較高,綠色表示可能性較低。由于失真是噪聲和模糊共同造成的,因此在平滑區域(噪聲)和高對比度區域有最大的可能性檢測到失真。其算法流程圖如圖1所示。

圖1 HDR-VDP-2算法流程圖
HDR-VQM[9]質量評價方法具有動態范圍獨立的特征,并且考慮到了時域變化通過HVS的時域模型。由于人類視覺系統傾向于在特定時間內關注特定區域,從而可在一個時空界內分析質量變化。其算法流程圖如圖2所示。

圖2 HDR-VQM算法流程圖
1.2.3 無參考HDR視頻質量評價方法現狀
無參考視頻質量評價方法不需要無損原視頻,因此具有更廣的應用場景。根據評測方向,視頻質量評測方法可以分為針對某種特定失真的評測方法和不針對特定失真類型的評測。
由于視頻經歷制作、傳輸及壓縮等傳播流程,在不同階段,可能受到不同類型的損傷,且不同視頻的各類損傷嚴重程度不盡相同,如制作過程中受損、壓縮過程產生的塊效應、傳播過程中產生的噪聲和模糊等,因此很多算法會針對其中一項進行分析,即針對特定失真類型進行評測。該方法復雜度低,很多時候對于特定視頻具有很高的準確性,但可能出現過擬合、魯棒性不強的問題。除了以上針對普通視頻的方法,還有針對色彩、對比度及曝光度等特征的評價算法,更可以體現HDR視頻的失真程度。
不針對特定失真類型的評測即對各項失真類型進行整體評價,具有較高的抗干擾性,算法復雜度往往較高。針對LDR視頻的評測方法BRISQUE[10]、NIQE[11]、VIIDEO[12]及 Video BLIINDS[13]等對 HDR視頻的擬合效果較差。目前針對HDR視頻的此類方法較少,且與主觀視頻質量評價方法擬合效果較差,是未來研究的重點。
1.2.4 客觀視頻質量評價方法比較標準
客觀視頻質量評價方法依靠計算機預測分數,以逼近人眼的主觀感受。不同客觀評價指標與主觀感受的符合程度差距較大,可以基于預測的準確性、一致性、穩定性、單調性來衡量評價指標本身的好壞。準確性是指主觀評價打分和客觀評價指標分數的相似性;一致性是指不應僅對某種類型的視頻/圖像表現良好,而應該對所有類型的視頻/圖像都可以表現良好;穩定性是指對同一視頻/圖像每次評價的結果數值應該相同或誤差在可接受的范圍內;單調性是指評價分數應該隨MOS分的增減而呈現相應的單增或單減。
衡量客觀評價方法的指標是通過客觀評價模型輸出QR與主觀MOS的非線性擬合后變化為MOS_P。
準確性體現在MOS與MOS_P的Pearson線性相關系數PLCC(Pearson Linear Correlation Coefficient)以及均方根誤差(Root Mean Squared Error,RMSE),一致性體現在MOS_P的離群率(Outlier Ratio,OR),穩定性體現在每次相同輸入后輸出非線性擬合得到的MOS_P間誤差,單調性體現在MOS與MOS_P之間的Spearman階相關系數(SRCC)。一個好的算法需要較高的PLCC和SRCC值、較低的RMSE值。
根據上述研究現狀,對于HDR視頻無參考質量評價算法,可以得出以下思路。
(1)HDR視頻主觀評價方法費時費力,更多地作為客觀評價方法的參考,且現階段主觀數據集受限,需要自己制作視頻數據并打分。
(2)HDR客觀評價方法中,全參考評價方法要求較高,現階段有HDR-VDP-2算法取得了最好的主觀一致性,在主觀評價算法受限的時候,可以用HDR-VDP-2算法近似為主觀算法方便后續擬合。
(3)HDR客觀評價方法中,專門針對HDR視頻的無參考視頻評價方法算法比較少,一套普適性算法可以填補研究空白。
下面分3個步驟詳細設計并實現了一套基于多指標融合的無參考HDR視頻評價算法,并與業內傳統算法進行比較,取得了較好的擬合效果。
由于主觀數據庫的缺失,但同時又需要選取準確性較高的主觀數據作為評判依據,因此選擇自建數據集。本文選取了SJTUHDR數據庫,共包含16個無損視頻源文件,大小從幾百到幾千幀不等,包含自然環境、車展及建筑等不同類型的視頻內容。
由于視頻制作過程中的編碼損失是最為重要且常見的損類型失,且損失可控、方便測試,因此用HEVC將原視頻編為不同損失的失真視頻,用Crf來控制損失大小。Crf參考值為0~51,而肉眼無損數值為18,因此等間隔設置為18、23、28、33、38、43、48的失真編碼視頻組。用HDR-VDP-2測試出其近似理論值,得到數據集的近似主觀評分,作為后續客觀評價指標的groundtruth。
基于HDR視頻本身的屬性如較高亮度、豐富色彩、高對比度等,同時在其編碼過程中這些特征也相應受到了不同程度的損傷,這些重要指標的失真程度也可以反映整體HDR視頻的失真程度。因此首先選取一些成熟無參指標,得到失真視頻不同角度下的損失強度。本文選取的特征及其計算算法如下。
(1)亮度及對比度特征。每一幀轉灰度圖,灰度圖均值代表亮度指標,方差代表對比度指標。
(2)色彩豐富度。每一幀轉LAB色域,AB分別代表兩個獨立的顏色色域,在這兩個顏色色域進行方差的計算,代表色彩的兩個豐富度指標。
(3)模糊度特征。每一幀轉灰度圖,再進行拉普拉斯梯度算子的濾波計算出梯度圖,計算梯度圖的方差作為模糊度指標。
(4)噪聲估計。每一幀圖轉灰度,進行高斯濾波與原圖做差,對殘差進行均值估計,表征為高斯噪聲特征;進行中值濾波與原圖作差,對殘差進行均值估計,表征為椒鹽噪聲特征。
(5)塊狀效應估計。將每一幀轉yuv,取出y通道,從水平和豎直兩個方向去計算梯度;將梯度與區域內的閾值進行比較,高于閾值則判為塊狀邊緣并進行高斯模糊去除邊緣。將處理過的圖與原圖作差,估計殘差的均值即為塊狀效應指標。
由于視頻每一幀都會有對應的各種指標,假設視頻一共有M幀,則計算出所有特征在M幀上的均值和方差作為最終的視頻指標。其中,均值表征特征強度,方差表征特征離散程度。
因此,一個失真視頻一共有亮度對比度(2*2)+色彩(2*2)+模糊度(1*2)+噪聲估計(2*2)+塊狀效應(1*2)=16個特征。
由于不同指標對于視頻失真的影響程度并不相同,因此可以利用機器學習算法融合各項指標以增加魯棒性。由于輸入矩陣并不復雜,本文選取支持向量回歸(Support Vector Regression,SVR)進行特征擬合。將16個視頻組劃分13個為訓練集和3個為測試集,窮盡各種選取方式進行測試,取平均值作為最后結果,并與4個前文提過的傳統無參算法進行比較,選取SRCC、PLCC、KRCC及RMSE作為評價標準,結果如表1所示。

表1 算法擬合結果比較
由表1的結果可見,本文提出的方法比傳統無參算法取得了明顯提升的擬合效果,更逼近由HDR-VDP-2計算出來的近似主觀評分。
綜合以上3個步驟得到整體的方案,并取得了較好的擬合效果。在自建數據庫階段將HDRVDP-2評分近似為主觀評分;選取指標特別根據HDR視頻特點選取了亮度、對比度及色彩等指標,同時也考慮視頻壓縮流程選取了噪聲和塊效應等常規指標。整體模型可移植性強,后續針對不同的問題也可以改變失真視頻制作方式,適當增刪指標,選取不同的機器學習模塊等。
本文從HDR視頻研究背景入手,詳細介紹了HDR視頻質量評價方法的分類以及研究現狀,并對當前的研究難點進行了總結分析,最后針對性地設計并實現了一套基于機器學習多指標融合的無參考HDR視頻質量評價算法,并取得了較好的擬合效果。HDR視頻是未來的發展方向,符合人眼主觀感受的HDR視頻評價方法,可以為HDR視頻傳播給出實時反饋,在迭代過程中不斷提升用戶體驗,并為技術的普及奠定重要基礎。