王 淦,宋 利,張文軍
(上海交通大學上海市數字媒體處理與傳輸重點實驗室,上海200240)
近年來,隨著數字視頻技術的發展和成熟,客觀視頻質量評價方法在視頻壓縮、通信、分析、重建等視頻處理應用中扮演著越來越重要的角色。
在設計客觀質量評價方法中,人眼視覺系統(Human Visual System,HVS)的特性是一個重要的考量。HVS在其有限的神經元硬件條件限制下,能夠最優化地利用這些資源傳輸最有內容的圖像信息。在進行更高級的處理之前,HVS表現出這樣一種特性,即它會嘗試提取所能感知的信息中的一個子集來優先傳輸,很明顯,這個信息子集較其他信息更能吸引人眼的注意力[1]。可以認為HVS是一個高效的編碼器或者說是信息提取器,它同一般的通信模型一樣,受制于某些物理限制,這種假設被廣泛應用于視覺計算領域[2]。運動信息是包含于視頻中的一種重要的信息類型,它是使視頻序列區別于若干獨立靜止圖像幀的一個重要特征。
Q.Li在文獻[3]中提出了一種基于運動感知的視頻質量評價方法,應用了一個由Stocker等提出的有關運動速度感知的心理學模型[4],并由此提出揉合了感知不確定性(Perceptual Uncertainty)和信息內容(Information Content)來提取運動信息的視頻質量評價方法。本文根據人眼的視覺特性,在視頻圖像幀的質量評價中加入了顯著性區域信息,形成了一種在注意力模型指導下的視頻質量評價方法。
視頻序列中的運動信息可以用一個三維運動矢量場來表示,即空域表示每幀像素點位置的坐標(x,y),時域表示每幀在視頻序列位置的時間實例t,從而形成一個運動矢量 v(x,y,t)= [vx(x,y,t),vy(x,y,t)]T。若以 va代表絕對運動矢量(Absolute Motion),vg代表全局運動矢量(Global Motion)和vr代表相對運動矢量(Relative Motion),則三者有如下關系

運動感知一方面與運動信息內容有關,還與感知不確定性有關。若用I表示運動信息內容,U表示感知不確定性,可將二者量化為

式中:α,β,γ,δ均為正常數;c為局部對比度,更多內容可以參考文獻[2]。由式(2)和式(3)可以得到運動信息權重

既然認為人眼視覺系統是一個高效的信息提取器,為了達到這種高效,作這樣一種假設是很自然的,即包含更多信息內容的視覺區域會更吸引視覺注意[5-6]。
提取的過程是以視覺范圍中的一塊受限區域,即所謂的“注意力聚焦”(Focus of Attention,FOA)的形式進行的,并以FOA的形式掃描整個視覺范圍,這個過程會同時存在兩種方式,一種是快速的,自下而上的,顯著性驅動的和任務獨立的;另一種則相反,是較慢的,自上而下的,意志力驅動的和任務依賴的。
在文獻[7]中提出了一種基于顯著性區域的視覺注意力模型,輸入圖像被首先分解為不同種類的特征圖集合,所有這些特征圖在經過處理后,以一種完全自下而上的方式形成最后的顯著性區域圖(saliencymap)。

式中:Ν(·)表示一個歸一化算子。
由前面的討論可知,運動信息是視頻質量評價中的重要信息,同時也應考慮HVS的注意力特性對視頻圖像感知的影響,為此,本文提出了一種在注意力模型指導下的視頻質量評價方法,如圖1所示。

圖1 本文提出的質量評價模型框圖
考慮上節中討論的運動信息內容和感知不確定性,式(4)可展開為

式中:wmotion(x,y,t)為位置坐標 (x,y,t)處的運動信息權重。從式(6)可以看出,wmotion(x,y,t)隨運動信息內容I(x,y,t)的增大而增大,隨感知不確定性U(x,y,t)的增大而減少。最后P(x,y,t)= αlnvr(x,y,t)+γlnc(x,y,t)和F(t)=lnvg(t)-β+δ分別為像素級運動信息和幀級運動信息,可知由于全局運動vg帶來的幀級運動信息,增加了HVS的感知不確定性,使得HVS并不能像從靜止圖像一樣從視頻序列中提取出同樣精確的結構信息。
另一方面,考慮到注意力模型對HVS的影響,在視頻序列每幀圖像有限的刺激時間內,較顯著的區域必定更能吸引人眼的注意,因此在此區域的信息權重應高于其他非顯著區域。由上節的討論,設注意力模型最終得到的顯著性區域圖為SM(X,Y,T),其中X,Y,T為視頻序列的空間域和時間域尺寸,可得

式中:wsaliency(x,y,t)為位置坐標 (x,y,t)處的注意力權重。由于SM(X,Y,T)已歸一化,所以wsaliency(x,y,t)為0~1之間的一個數值,數值越大表示顯著性越強。設Q(X,Y,T)為本地圖像幀的質量評價圖,則有

式中:qsaliency(x,y,t)為加權后在位置(x,y,t)處的質量評價分數值。由此便形成了Saliency-Quality map,即在注意力模型指導下的質量評價分數圖。
以SSIM indexmap為例,圖2展示了一視頻幀在注意力模型指導下的結構相似度索引圖變化的例子,可以看出Saliency-SSIM index map不但顯示出了結構相似度情況,而且顯示了清晰的顯著性區域的變化情況。

圖2 加入注意力模型的結構相似度指數圖
最終得到了視頻質量評價分數計算模型

式中:wmotion(x,y,t),wsaliency(x,y,t),qsaliency(x,y,t)分別由式(6)、式(7)和式(8)來計算。
本文實驗流程如圖3所示。其中絕對運動速度場va是通過計算光流運動矢量場得到的,本文選擇了文獻[8]中提出的光流計算模型,而全局運動速度vg則通過統計關于光流運動矢量場的2-D直方圖的峰值來獲得。顯著性區域指數圖用到了文獻[9]提出的算法,該算法對文獻[10]中提出的算法進行了改進,取得了更好的性能。

圖3 實驗流程示意圖
實驗所用到的視頻庫為VQEG Phase1數據集,該數據集為視頻質量專家組(Video Quality Experts Group)在2000年建立的,旨在為客觀視頻質量評價方法的性能評估提供視頻序列的主觀數據。其中包含了20個參考視頻序列,這些參考視頻序列又分為10個60 Hz(幀率30 f/s)序列和10個50 Hz(幀率25 f/s)序列。每個參考視頻序列有16個版本的失真序列,這樣該庫共有320個不同的失真視頻序列。數據集中的主觀質量評價分數DMOS(Difference Mean Opinion Score)是通過雙刺激連續質量尺度(Double Stimulus Continuous Quality Scale,DSCQS)方法得到的。按照文獻[10]中的建議,對視頻庫中的視頻做了切邊處理,即將除去上、下、左、右邊緣各20個像素的圖像幀作為處理對象。
實驗中采用了兩種質量評價圖,分別是均方誤差圖(MSE index map)和結構相似度指數圖(SSIM index map),為分析方便起見,把均方誤差圖轉化為峰值信噪比圖(PSNR index map)。
為了評估視頻質量評價方法的性能,使用了兩種相關性度量,分別是皮爾森線性相關系數(Pearson Linear Correlation Coefficient,PLCC)和斯皮爾曼等級相關系數(Spearman Rank Order Correlation Coefficient,SROCC)。這兩種度量對性能評估的側重點不同,PLCC主要評估了客觀評價分數與主觀評價分數之間數據的線性程度,也可說是準確程度,而SROCC則側重于評估二者之間數據的單調性。
表1為6種不同的視頻質量評價方法在VQEG Phase1數據集上的PLCC和SROCC統計結果。表中PSNR和SSIM是對PSNR indexmap和SSIM indexmap的簡單平均,W-PSNR和W-SSIM為Q.Li提出的方法,而W-SALPSNR和W-SALSSIM為本文提出的客觀視頻質量評價方法,可以看出本文提出的方法是對Q.Li的方法的一種改進,在考慮了人眼視覺系統的注意力特性后,加入了顯著性區域信息,使得對視頻的質量評價更符合人的視覺心理,從表中的數據統計結果可以清楚地看出。圖4展示了主觀質量評價分數(DMOS)與客觀質量評價分數的散點圖。

表1 視頻質量評價方法的PLCC和SROCC統計結果
本文提出的客觀視頻質量評價方法,在運動感知的基礎上,融入了注意力模型,使得其在統計數據上有所改進和提高,探索了一條提高客觀視頻質量評價方法性能的途徑。但是從主客觀分數散點圖上來看,無明顯改觀,說明還需進一步對人類自身視覺與心理學特性進行研究,這方面的研究對推動視頻包括圖像的客觀質量評價方法有著極其重要的意義。
[1] NIEBUR E,KOCH C.Computational architectures for attention[M].Cambridge:MIT Press,1998.
[2] SIMONCELLI E,OLSHAUSEN B.Natural image statistics and neural representation[J].Annual Review of Neuroscience,2001,24(1):1193-1216.
[3] WANG Z,LIQ.Video quality assessmentusing a statisticalmodel of human visual speed perception[J].JOSA A,2007,24(12):61-69.
[4] STOCKER A,SIMONCELLIE.Noise characteristics and prior expectations in human visual speed perception[J].Nature Neuroscience,2006,9(4):578-585.
[5] RA J,GEISLERW,FRAZORR,etal.Contrast statistics for foveated visual systems:fixation selection by minimizing contrast entropy[J].JOSA A,2005,22(10):2039-2049.
[6] NAJEMNIK J,GEISLERW.Optimal eye movement strategies in visual search[EB/OL].[2013-04-15].http://www.utexas.edu/cola/files/1516227.

圖4 主客觀視頻質量評價分數散點圖
[7] LIU C.Beyond pixels:exploring new representations and applications for motion analysis[D].Cambridge,MA:Massachusetts Institute of Technology,2009.
[8] VLACHOS T.Simple method for estimation of globalmotion parameters using sparse translational motion vector fields[J].Electronics Letters,1998,34(1):60-62.
[9] Video Quality Experts Group.FRTV phase 1 subjective test plan[S].2000.
[10] OLGUN R.Evaluation of visual quality metrics[D].Ankara:Middle East Technical University,2011.