許瑩瑩,李朝鋒,2
XU Yingying1,LI Chaofeng1,2
1.江南大學 物聯網工程學院,江蘇 無錫 214122
2.江南大學 輕工過程先進控制教育部重點實驗室,江蘇 無錫 214122
1.School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122 China
2.Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi,Jiangsu 214122,China
視頻技術與人類的生活息息相關,比如人臉識別[1]等。然而,在處理視頻信息的過程中,視頻的壓縮、傳輸、重構等處理會導致視頻信息的丟失,從而導致視頻失真。失真直接影響到了視頻的質量,因此在視頻系統中使用一個準確有效的視頻質量評價方法也越來越受到人們的重視。
根據對原始視頻信息的依賴程度,視頻質量評價方法可以大致分成三類:全參(Full Reference,FR)、半參(Reduced Reference,RR)以及無參(No Reference,NR)視頻質量評價方法。全參視頻質量評價目前已經有了一些很成熟算法,比如Wang等[2]根據人眼對自然場景中結構信息的敏感性原則提出的結構相似度算法(Structural Similarity Index Metric,SSIM)。姚杰等提出一種運動估計的幀加權方法,將4-SSIM算法[3]擴展到視頻質量評價中,也取得了不錯的效果。戴慧慧等提出基于小波域和時域的視頻質量評價算法[4]。半參視頻質量評價通過提取原始視頻與待測視頻的部分特征,來進行對比處理,進而獲得視頻質量。在文獻[5]中,Soundararajan等人利用小波變換提取空域和頻域的熵差(Reduced Reference Entropic Differencing,RRED),進而評估失真視頻的質量。無參視頻質量評價不需要原始視頻信息,因此使用最為靈活,但與此同時挑戰性也是最大的。
目前無參考視頻質量評價的方法相對較少,Saad等人提出了Video Blinds[6]模型。該模型主要運用DCT變換以及運動特征,最后將提取的一系列特征通過訓練測試的方式評估得到視頻質量。然后,又對視覺特征進行分析,提出一種絕對的盲評估視頻質量模型VIIDEO[7]。Xu等[8]通過提取失真特征,提出Video CORNIA算法來評價視頻的質量。Li等[9]通過分析視頻時空域的統計信息,進而估算視頻質量。張航等[10]利用Gabor濾波器來模擬人眼的多通道性,最后加上動態視覺感知權重來獲得失真視頻質量。
當前報道的大部分視頻質量評價方法都僅僅針對單個域內提取特征構建評價模型,沒有考慮結合其他域內與其互補的視頻質量相關特征。本文通過對空域和頻域的聯合分析,提取了一系列的感知特征,包括灰度-梯度共生矩陣、空間熵、譜熵、關系熵和自然指數特征。并且區別于傳統處理特征僅僅用取平均提取整個視頻特征的方法,本文針對頻域特征,通過求方差計算得到整個視頻的特征值。最后將提取的特征用支持向量機采取訓練測試的方法進行視頻質量的評價。實驗結果表明該方法與主觀得分有很好的一致性。
視頻質量下降是視頻系統在處理視頻過程中由于壓縮、量化、噪聲等引起的。壓縮和量化導致視頻邊緣輪廓信息的丟失,表現為圖像邊緣不夠清晰的現象,而噪聲是在視頻傳輸過程中信道誤碼、噪聲、丟包等情況引起的。這些都在不同程度上影響用戶客戶端接收到的視頻質量。
熵可以捕捉圖像的全局信息,體現了紋理輪廓的復雜度,空間熵反映了局部像素值的概率分布,頻譜熵反映了頻域內小波系數值的概率分布。聯合空間熵和頻譜熵可以體現出圖像結構信息的統計特性,有效地減少由于視頻內容帶來的影響。但是空間熵和頻譜熵更多的是捕捉圖像灰度值信息的變化,沒有考慮梯度信息。
梯度構成了圖像的邊緣輪廓,是圖像的基本要素之一。灰度-梯度矩陣模型聯合了捕捉圖像紋理差異的灰度和梯度,因此加入灰度-梯度矩陣特征能更好地補充熵在反映圖像結構信息統計特性的能力。
考慮到視頻失真不僅僅是壓縮造成的紋理失真,還有在傳輸過程中信道噪聲造成的傳輸失真。相關熵作為一個局部相似性測量的工具,可以有效地處理噪聲帶來的傳輸失真。這里在上述特征的基礎上進一步聯合相關熵特征來彌補紋理失真特征帶來的單一性,從而更加全面地評價了不同失真類型的視頻。
在實驗過程中發現,上述四個特征對高頻失真展現出了很好的處理能力,但是在處理平坦區域的低頻失真時,預測失真的性能有所下降。而自然指數特征可以捕捉不同頻率上視頻的降質程度,能夠有效處理低頻失真的問題,因此,本文再次聯合了自然指數特征,充分地解決高頻和低頻失真問題。
實驗表明,通過五種特征的互補,可以有效評價視頻在不同尺度、不同內容、不同類型的失真。更能全面地捕捉失真視頻與原始視頻之間的差異,從而更好地評價視頻的質量。
在上述基礎上,本文提出了空域和頻域聯合特征挖掘的無參視頻質量評價方法,該方法首先提取上述五種特征(空間熵,譜熵,灰度-梯度共生矩陣,關系熵和自然指數特征),然后通過SVR構建提取的特征與視頻質量之間的模型。
該方法的流程圖如圖1所示。

圖1 算法流程圖
區別于圖像失真僅存在于空域中,數字視頻必然存在著時域失真。比如拍攝視頻時人為抖動,鏡頭臟污等都會造成時域失真。為了解決時域失真帶來的問題,本文在提取視頻質量感知特征時,充分考慮相鄰視頻幀之間的運動性強度,采取幀差提取特征的方法。假設一個視頻有M幀,后一幀減去前一幀得到一個幀差圖像,以此類推,一個視頻得到M-1個幀差。大量的研究表明幀差有著統計數據上的規律,而視頻失真會破壞這種規律[5],因此幀差提取的感知特征能夠反映視頻時域失真程度。圖2和圖3分別顯示了LIVE視頻庫中“pa”失真視頻幀和失真視頻幀差圖。

圖2 LIVE視頻庫中“pa”失真視頻第1幀

圖3 LIVE視頻庫中“pa”失真幀差視頻第1幀
2.2.1 空間熵
信息熵表示圖像所包含的信息量,反映了圖像紋理信息的復雜度。信息熵與感知圖像的質量有著密切的關系[11],并且圖像的失真類型以及失真的程度直接影響信息熵的分布。假設沒有失真的圖像的空間熵值分布有一定的統計規律,那么引入失真就會破壞像素之間的這種相關性。
圖4顯示了基于內容不同的10組原始視頻及其相對應的失真視頻的空間熵,從圖中可以看出空間熵可以區分出原始視頻以及四種不同的失真類型,特別是H.264失真,與原始視頻的波動相差很大。這表明空間熵能夠反映視頻的失真情況。因此,選取空間熵作為視頻質量的第一類候選特征,通過熵值的變化來反映視頻質量的改變。

圖4 10組原始視頻及其對應失真視頻的空間熵分布

空間熵的定義如下:其中,x是失真視頻的幀差值。計算出每一個幀差的H值后,取其平均值當作整個視頻的空間熵特征。
2.2.2 頻譜熵
空間熵反映了空間像素值的概率分布,頻譜熵反映了頻域內小波系數值的概率分布。從圖4中可以看出,雖然空間熵可以在一定程度上反映視頻的失真情況,但是空間熵的分布受到視頻內容的影響,比如第2組和第4組視頻的空間熵對于失真視頻的差異就不能很好地衡量。聯合空間熵和頻譜熵可以有效地減少由于視頻內容帶來的影響,更好地捕捉由于失真帶來的邊緣輪廓信息的差異。頻譜熵是在小波域中計算得到的。首先用方向金字塔對失真視頻的幀差進行三尺度六方向的尺度分解來獲取小波系數,然后對所有的子帶進行不重疊的分塊處理,塊大小為3×3。考慮到人眼對小波系數的粗子帶更加敏感[12],這里只對分解后的小波系數的粗子帶進行處理,實驗證明這些子帶確實給予了更好的實驗效果。
在文獻[13]中,Liu等人用高斯尺度混合模型(Gaussian Scale Mixture,GSM)來模擬自然圖像的小波系數。原始圖像的小波系數服從高斯分布,然而失真卻打破了這種分布。模擬小波系數之后,計算得到GSM模型的協方差矩陣Q。小波系數的熵值通過下面的公式給出:

其中,x是小波系數。頻譜熵T是基于GSM模型計算出來的,計算公式如下:

上式中,Q和Q′分別是基于圖像幀和圖像幀差GSM模型的協方差矩陣。E是基于幀差的小波熵。

圖5 10組原始視頻及其相對應的失真視頻的頻譜熵分布
圖5顯示了10組原始視頻以及其相對應的失真視頻的頻譜熵,從圖5中,觀察到除了MPEG-2失真,其他的失真類型都能夠被頻譜熵的變化很好地區分出來。例如IP失真,由于在參考圖像中加入了高頻率信息,故其頻譜熵基本上分布在原始視頻的上面。對于MPEG-2失真,由于減少了圖像高頻信息再加上運動矢量等因素,使得頻譜熵值較小。從上述分析可以看出頻譜熵的變化與人的主觀感知有著密切的關系,因此采用圖像頻譜熵作為視頻質量感知的第二類候選特征特征,通過熵值的變化區分出不同失真類型以及失真程度。
由于一個視頻包含了很多幀,如果只是單純的取平均來求取特征值則會忽略掉很多信息。為了捕捉頻譜熵在時域上的波動性,計算出頻譜熵T后,取方差表示整個視頻的頻譜熵值。通過第3章的實驗分析結果也能看出,選取方差作為特征值確實提高了算法的性能,將結果從0.642大幅度提高到0.782。
2.2.3 灰度梯度共生矩陣
圖像的灰度是構成一幅圖像的基礎,而梯度是構成圖像邊緣輪廓的要素。灰度梯度共生矩陣[14]反映了灰度和梯度的聯合分布,通過灰度-梯度共生矩陣可以很好地體現圖像中各個像素及其相鄰像素的空間關系,更好地增強了熵在反映圖像結構信息統計特性的能力。圖像的紋理信息在一定程度上反映了其周圍像素灰度值的變化,一般來說,平滑區域的像素灰度彼此接近,而粗糙區域則變化較大。紋理特征一直以來是圖像處理中的熱點,很多領域,比如:模式識別、圖像檢索等等方面都熱衷于提取圖像紋理特征。基于上述的理論基礎,考慮提取幀差的灰度梯度共生矩陣來作為一類感知特征來評價視頻的質量。灰度梯度共生矩陣的定義如下:對于一個二維圖像 f(i,j),首先通過Sobel算子計算各像素點的梯度值,得到梯度圖像g(i,j),然后通過下式求得歸一化的梯度圖像:

其中,INT表示取整運算,gmax是圖像中最大的梯度值,Ng表示歸一化的最大梯度值。灰度梯度共生矩陣的元素H(x,y)定義為在歸一化的灰度圖像 f(i,j)及其歸一化的梯度圖像G(i,j)中統計同時具有灰度值x和梯度值y的像點對數,最后對進行歸一化處理,得到:

基于灰度梯度共生矩陣,得到15個圖像紋理參數。
圖6顯示了一組原始視頻(pedestrian area,pa)以及其相對應的4種失真類型的15個紋理參數的值。由于有些參數的值大小分布差異太大,所以對于縱坐標采取了不同的分布范圍。圖6(a)和(b)表示不同的y軸分布范圍。從圖6中可以看出,有些紋理參數特征并不能很好反映視頻失真情況,這里只選取大梯度優勢(第二個特征),灰度和梯度分布不均勻性(第三和第四個特征),灰度均勻(第六個特征),相關(第十個特征)以及慣性(第十四個特征)。基于幀差計算出這六個紋理特征之后,取平均值得到整個視頻的灰度梯度共生矩陣特征,作為視頻質量感知的第三類特征。

圖6 “pa”原始視頻及其失真視頻的15個紋理參數值
2.2.4 相關熵
考慮到視頻失真不僅僅是壓縮失真,還包括傳輸過程中由于噪聲、丟包等造成的傳輸失真。因此結合傳輸失真特征可以有效地避免僅考慮紋理失真帶來的單一性,從而全面的評價不同失真類型的視頻。根據文獻[15]知道,相關熵作為一個局部相似性測量的工具,可以有效地處理高斯噪聲,而高斯噪聲通常是造成圖像失真的主要原因。圖7顯示的是一組原始視頻(pedestrian area,pa)以及其相對應的四種失真類型的視頻的相關熵值的分布。從圖中可以看出相關熵在原始視頻以及不同類型失真視頻中的分布情況不同,例如原始視頻的相關熵分布較為緩和,而其他失真類型,特別是傳輸失真的相關熵波動較大。這表明相關熵可以捕捉原始視頻與失真視頻之間的差異,從而預測失真視頻的質量。
對于兩個局部的隨機變量x和y的相關熵定義為:

其中,xi和yi分別是相鄰幀的9×9的圖像塊。計算出視頻相鄰幀的相關熵值之后,取平均得到整個視頻的相關熵,取其作為視頻質量感知的第四類特征。

圖7 “pa”原始視頻及其失真視頻的相關熵值分布圖
2.2.5 自然圖像質量指數特征
視頻失真不僅僅存在高頻區域,還包括低頻部分。低頻部分代表著視頻幀圖像的平坦區域,由于平坦區域灰度變化緩慢,失真帶來的原始視頻與失真視頻的差異也相對較小。本文通過自然指數特征捕捉不同尺度上視頻的降質程度,有效地解決了熵等上述特征不能很好地描述低頻失真的問題。實現了失真特征從不同尺度、不同內容,不同類型的評價視頻質量。自然指數[16](Natural Index Quality Evaluator,NIQE)是基于自然統計場景提取的圖像特征。首先用自然圖像提取出來的特征通過高斯擬合得到一個多維高斯(Multivariate Guassian,MVG)模型,然后對測試圖片提取出來的特征也用高斯擬合得到一個多維高斯模型,通過計算兩個模型之間的差異來描述圖片的失真程度,提取特征的步驟主要包括自然場景統計模型的建立,圖像塊的選取,圖像塊提取特征以及建立多維高斯模型。首先通過圖像的局部均值移除以及區分歸一化來計算圖像的系數,將圖像分成n×n塊,根據文獻[17],可以得知,原始和失真的視頻的圖像系數都服從高斯分布,只是原始視頻的圖像系數服從比較規律的高斯分布,而失真卻打破了這種規律。可以通過分析相鄰的圖像塊系數在四個方向上(水平、垂直、兩個對角)的分布來捕捉這種差異。通過對四個方向上的估算,得到18個特征,然后對圖像進行低通濾波和下采樣處理,得到36個特征。
自然圖像的多維高斯模型的圖片來源于Berkeley Image Segmentation數據庫,選取了125張圖片,圖片的大小從480×320到1 280×720。對測試圖像提取出來的特征進行高斯擬合之后,得到測試圖像的高斯模型,分別計算高斯模型的均值和協方差 ,并計算最終的圖像質量q。圖像的失真程度是通過衡量兩個多維高斯模型(通過測試圖片提取的特征模擬出來的多維高斯模型以及通過Berkeley Image Segmentation數據庫提取的特征模擬出來的多維高斯模型)的差異。計算的公式如下:

其中,μ1、μ2和σ1、σ2分別是自然圖像的MVG模型和測試失真視頻幀差的MVG模型的平均值和協方差。計算出q之后,與之前的36個特征加到一起,得到最終的37個特征。選取其作為視頻質量感知的第五類特征。
本文中提出的視頻質量評價算法在LIVE數據庫上進行實驗,LIVE視頻數據庫是德克薩斯州奧斯汀分校圖像和視頻工程實驗室于2010年提供的視頻質量評價數據庫。庫中包含了10組內容不同的自然場景原始視頻及其失真視頻。每組視頻包括了1個原始視頻、4個無線傳輸失真視頻、3個IP傳輸失真視頻、4個H.264壓縮失真視頻以及4個MPEG-2壓縮失真視頻。把這10組失真視頻分為兩部分,隨機取8組原始視頻所對應的失真視頻進行訓練,其余2組原始視頻所對應的失真視頻進行測試,即120個視頻訓練,30個視頻測試。這種做法有效地避免了訓練樣本與測試樣本有交集,不管訓練多少次,用于訓練和測試的視頻不會重疊從而保證了實驗結果的有效性和說服性。將之前所提取的特征用支持向量回歸模型(Support Vector Regression,SVR)進行訓練測試,得到最終的失真視頻的質量分數值。為了評估本文中方法的性能,選取現在比較通用的兩種指標:斯皮爾曼等級相關系數(Spearman Rank Order Correlation Coefficient,SROCC)以及皮爾遜線性相關系數(Liner Correlation Coefficient,LCC)。這兩種指標的絕對值越接近于1說明算法的性能越好。迭代訓練測試的次數為1 000次,取其中值為最終的結果。
為了分析每種特征對算法性能的貢獻值,實驗中對每一種特征單獨地進行訓練測試并且計算其SROCC值和LCC值,結果顯示在表1中。從表1中可以看出:空間熵和頻譜熵對算法性能的影響是比較大的,從第2章中特征的分布圖中也可以看出,空間熵和頻譜熵能夠較為明顯地區分出原始視頻和失真視頻之間的差異,并且由于熵值反映了圖像紋理輪廓方面的失真情況,而紋理輪廓是圖像的基本信息,很多壓縮、傳輸過程中的處理都會造成輪廓紋理結構方面的失真。

表1 單種類型特征的SROCC和LCC值
在LIVE視頻質量評價數據庫的實驗結果對比中,本文選擇了比較經典的算法以及近幾年在視頻質量評價方面比較好的算法進行對比,為了進一步測試每一個特征的有效性,實驗中嘗試不同的特征組合并且獲得相應的SROCC和LCC值。表2顯示了所有算法的SROCC和LCC值。從表2中的結果可以看出這些特征結合之后的結果與表1中的結果是相對應的,也就是說空間熵和頻譜熵是有效性特征,加入這兩種特征后將結果從0.532提高到了0.782。但同時其他幾類特征也促進了算法性能的提高,所有的特征都為提高算法做出了貢獻,這說明本文提出的空域和頻域聯合特征挖掘的思想是具有獨特優勢的。同時,在頻域中的特征提取方法里,本文提出方差取特征的概念,打破了傳統方法中用均值取整個視頻特征的思想,表3中的結果證明用方差在頻域中提取特征比用均值提取特征的性能要好得多。

表2 LIVE視頻庫上不同方法的性能比較

表3 LIVE數據庫中頻域內分別用方差與均值提取特征的SROCC和LCC值
為了測試算法對每一類失真類型的預測性能,本文又對每一類失真類型進行分開訓練測試,并將計算得到的SROCC值以及其余算法的SROCC值對比都顯示在表4里。

表4 LIVE數據庫上針對每一種失真類型的算法性能比較
從表2~4可以看出,本文提出的算法在LIVE視頻數據庫整體上的評價結果優于當前文獻報道相關方法,在MPEG-2和H.264單個失真類型上,也體現了優勢,這說明本文提出的失真特征針對視頻壓縮處理造成的失真更為有效,而對網絡傳輸丟包造成的視頻失真稍稍欠缺,IP和Wireless網絡傳輸失真往往還要考慮到由于網絡延時等造成視頻時域上的失真,故而結果有所欠缺。但是本文加強了對空域頻域紋理失真方面的分析和特征提取,考慮了兩個域里面可以互補的感知特征,所以在MPEG-2和H.264單個主要由壓縮造成的失真類型上,體現出優勢。
相對于使用單視頻數據庫進行實驗,用兩個數據庫可以避免方法對于單數據庫的優化而產生偏差,使算法更為可靠,通用性強。因此,為了測試本文算法中的數據庫的通用性,本文又在IVP視頻數據庫上進行實驗。IVP數據庫是由香港中文大學圖像與視頻處理實驗室于2011年提供的主觀視頻質量數據庫,其中9組是自然場景視頻,有一組是通過3D建模制造的動畫。視頻庫包括四種失真類型,有MPEG-2壓縮失真、Dirac小波壓縮失真、H.264壓縮失真以及IP網絡傳輸失真。訓練測試的方法與LIVE數據庫是一樣的,迭代訓練的次數為1 000次,表5顯示了實驗得到的SROCC和LCC值以及與其他算法的性能比較結果。

表5 IVP視頻庫上不同方法的性能比較
從表5可以看出,本文在IVP庫上的結果比起LIVE庫上更加精準,與Video BLINDS算法的差距有所拉大。通過分析IVP庫的內容和失真類型可以發現,IVP庫中不僅僅是自然場景,還有一組是通過3D建模制造的動畫,而且IVP庫中有Dirac小波壓縮失真,本文提取的失真特征中,小波域中提取的頻譜熵針對這種失真類型,更加具有優勢,所以在整體數據庫中算法性能提高得更多。根據以上分析可以看出,本文提出的算法在IVP視頻數據庫上的評價結果優于當前文獻報道相關方法,表明本文方法是數據庫通用的。
通過對視頻的感知特征進行分析,本文挖掘了一系列空域和頻域聯合的質量感知特征,包括灰度-梯度共生矩陣、空間熵、譜熵、關系熵以及自然指數特征,實驗中還對這些特征進行組合分析,從分析過程以及最后的結果上來看,本文提出的特征都是行而有效的。針對當前大部分視頻質量評價模型都是僅在空域、頻域等單個域內提取特征構建評價模型,沒有考慮結合其他域內與其互補的特征問題,本文結合了視頻的空域和頻域,使得評價效果更好。對于當前報道的文獻大多采用取均值提取特征的方法,本文針對頻域提出取方差來得到視頻特征。從實驗的結果來看,采用方差提取整個視頻特征的方法能夠有效地提高算法的性能。最后用支持向量回歸模型構建這些感知特征與視頻質量之間的關系模型。在LIVE和IVP視頻質量評價數據庫上的實驗結果,表明了本文提出算法的有效性。
參考文獻:
[1]胡一帆,胡友彬,李騫.基于視頻監控的人臉檢測跟蹤識別系統研究[J].計算機工程與應用,2016,52(21):1-7.
[2]Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:From error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[3]姚杰,謝永強,譚建明,等.采用內容劃分方法的視頻質量評價[J].計算機工程與應用,2013,49(11):158-161.
[4]戴慧慧,桑慶兵.基于小波域和時域的視頻質量評價[J].計算機工程,2015,41(5):280-284.
[5]Soundararajan R,Bovik A C.RRED indices:Reduced reference entropic differencing for image quality assessment[J].IEEE Transactions on Image Processing,2012,21(2):517-526.
[6]Saad M A,Bovik A C,Christophe C.Blind prediction of natural video quality[J].IEEE Transactions on Image Process,2014,23(3):1352-1365.
[7]Saad M A,Bovik A C.A completely blind video integrity oracle[J].IEEE Transactions on Image Processing,2016,25(1):289-300.
[8]Xu J,Ye P,Liu Y,et al.No-reference video quality assessment via feature learning[C]//IEEE International Conference on Image Processing,2015:491-495.
[9]Li X,Guo Q,Lu X.No-reference video quality assessment based on statistical analysis in 3D-DCT domain[J].IEEE Transactions on Image Processing,2016,25(7).
[10]張航.數字圖像及視頻質量評價方法研究[D].杭州:浙江大學,2015.
[11]Sheikh H R,Bovik A C.Image information and visual quality[J].IEEE Transactions on Image Process,2006,15(2):430-444.
[12]Burr D C,Ross J.Contrast sensitivity at high velocities[J].Vision Research,1982,23(4):3567-3569.
[13]Liu L,Liu B,Huang H.No-reference image quality assessment based on spatial and spectral entropies[J].Signal Processing:Image Communication,2014,29(8):856-863.
[14]桑慶兵,李朝鋒,吳小俊.基于灰度共生矩陣的無參考模糊圖像質量評價方法[J].模式識別與人工智能,2013,26(5):492-497.
[15]Liu W,Pokharel P,Principe J C.Correntropy:Properties and applications in non-Gaussian signal processing[J].IEEE Transactions on Signal Processing,2007,55(11):5286-5298.
[16]Mittal A,Soundararajan R,Bovik A C.Making a“Completely Blind”image quality analyzer[J].IEEE Signal Processing Letters,2013,20(3):209-212.
[17]Ruderman D L.The statistics of natural images[J].Network Computation in Neural System,2009,5(4):517-548.