朱 蕓,王永芳,帥 源
(上海大學通信與信息工程學院,上海200444)
由于3D圖像/視頻能給人以沉浸式立體體驗,因此3D產品在多媒體市場中越來越吸引人們的眼球.但是由于在3D內容的捕獲、壓縮和傳輸過程中引入了不同程度的失真,降低了3D圖像/視頻的用戶體驗質量(quality of experience,QoE).因此,建立一個有效的3D體驗質量評價機制來保證用戶體驗質量顯得尤為重要.立體圖像客觀評價能夠自動提取立體圖像的特征來對圖像的質量進行預測,具有快速、穩定、低物耗人耗的特點,是質量評價領域的研究熱點.
現有的立體圖像質量評價(stereoscopic image quality assessment,SIQA)方法模型直接將2D圖像質量評價方法運用到左右視點圖像上,得到相應的質量分數,然后對這2個部分的質量分數進行加權,得到立體圖像的質量[1-3].但是,該方法沒有考慮立體圖像的特性,如深度感知、雙目視覺等,與人眼感受到的立體圖像質量有很大差異.在2D圖像評價方法的基礎上,You等[4]提出了圖像質量和視差圖像非線性組合的立體圖像的質量;Benoit等[5]加入了視差信息,用2D圖像質量評價方法C4[6]計算左右視點圖像的質量,用基于結構相似度(structural similarity index model,SSIM)的方法計算視差圖的質量,并將這2個部分質量融合成為最終的立體圖像的質量;Yang等[7]通過計算絕對視差與傳統的2維圖像質量評價方法相結合的方法計算立體圖像的質量.以上方法雖然考慮了視差信息,但是模型的精確度依賴于視差估計算法,比較精確的視差估計算法會大大增加計算時間,因而這種算法無法應用在實時視頻質量評估中.
Shao等[8]通過訓練,由立體圖像的單目視覺特征得到了雙目視覺特征,實驗表明這些特征能有效地計算雙目感知質量;Chen等[9]提出了一種基于雙目融合特性的立體圖像質量評價方法,該方法用Gabor濾波器作為權值響應因子,將左右圖像進行雙目融合生成中央眼圖,將計算出的質量作為立體圖像的質量;Bensalma等[10]通過模擬雙目簡單和復雜細胞的信息處理過程,建立了基于雙目能量差異的立體圖像評價模型;Galkandage等[11]擴展了基于雙目能量差異的評價方法,將雙目抑制等視覺特性加入到評估模型中;Wang等[12]從單個視點的質量出發,結合雙目抑制特性進行3D質量評估.人類的視覺特性非常復雜,還需要進一步研究.
本工作從圖像質量和深度感知質量2個方面來評估立體圖像的體驗質量,對于圖像質量,根據人類視覺系統的內在推理機制(internal generative mechanism,IGM),將左右視點圖像分別分解成可預測部分和不確定部分.對于可預測部分提出采用基于灰度共生矩陣(gray level co-occurrence matrices,GLCM)的質量評估方法;對于不確定部分提出采用基于視覺信息量的評估方法;對于深度感知質量,則采用一種改進的自然場景統計(natural scene statistics,NSS)模型來預測這部分質量.最終,將圖像質量和深度感知質量融合為立體圖像的體驗質量.
本工作提出的算法流程圖如圖1所示,用圖像質量和深度感知質量2個因素來衡量立體圖像的體驗質量.對于圖像質量,根據自由能量理論和大腦的內在推理機制[13]可知,大腦會對輸入的信息進行分析,結合已有的先驗知識對信息進行推理和解讀,并且忽略無序的、不可預測的信息.由此,可將立體圖像左右視點分別分解成可預測部分Ip和不確定部分Iu.可預測部分包含了圖像的主要信息,采用基于灰度共生矩陣的質量評估算法;不確定部分包含了無序的、不可預測的信息,采用基于視覺信息量的評估方法.對于深度感知質量,采用一種改進的自然場景統計模型對其進行評估.最后,將圖像質量和深度感知質量融合成立體圖像體驗質量.
本工作參照文獻[13]的基于貝葉斯預測理論的AR模型來推理出圖像的主要內容.該方法通過周邊像素χ={x1x2···xn}來預測當前像素x,計算方法為i∈χ

式中:為x的預測值,I(x;xi)為x與周邊像素的互信息;為歸一化系數;ε為隨機噪聲,這里將χ塊的大小設為37×37.將輸入圖像分解成如圖2(b),(c)所示的2個部分.

圖1 算法流程框圖Fig.1 Framework of the proposed approach

圖2 圖像分解結果Fig.2 Result of the picture decomposition
根據自由能量理論和人類視覺系統的內在推理機制,立體圖像的可預測部分包含了圖像的主要信息,這部分信息受損會影響人對圖像內容的理解.GLCM是一種通過研究灰度圖像的空間相關性來描述圖像特征的方法.圖像結構的破壞必然會使圖像的空間相關性遭到破壞,因此可以利用GLCM計算可預測部分的質量.
一幅灰度級為n的圖像的GLCM是一個n×n的矩陣[14],其元素為p(i,j|d,θ),表示距離為d、角度為θ的2個像素灰度級為i和j的概率.通常不直接將灰度共生矩陣作為圖像特征進行分析,而是用其特征量來進行的,這些特征量可以表示圖像的某些特性.在本工作中,提取的特征量如下.
(1)角二階矩(angular second moment,ASM).
ASM反映了灰度分布均勻程度和紋理粗細程度,ASM的值越大,表示圖像的紋理分布越規則,

式中:p(i,j|d,θ)是GLCM中的元素;i,j為元素的位置;d,θ為灰度圖像中2個像素之間的距離及角度,這里d=1,θ =0°,45°,90°,135°.
(2) 信息熵(entropy difference,END).
END描述了圖像的信息量,GLCM的信息熵描述了圖像的紋理的密集程度,END的值越大,圖像的紋理越趨于平坦,

(3)對比度(contrast,CON).
CON表示局部圖像的變化程度,代表紋理的銳化程度.當圖像邊緣尖銳、有較深的紋理溝槽時,該值較大,

(4)相關性(correlation,COR).
COR表示圖像灰度的局部相關性,

對原始立體圖像左右視點和失真立體圖像左右視點的可預測部分,分別提取以上4個特征量F=(ASM,END,CON,COR),表示為通過原始圖像和失真圖像的特征量的相似度來衡量圖像的質量(以左視點為例):

式中:C1為常數,C1=(0.03L)2,保證分母不為0;L為灰度級.
為了提取圖像在多個尺度上的失真情況,本工作將圖像轉化成3個不同灰度級的灰度圖,得到3個GLCM(4×4,8×8,16×16),一共得到3個相似性度量相似地,對于右視點也得到3個相似性度量那么可預測部分的質量即為

式中,ω1,ω2,ω3為權重系數,調整各部分的重要性.
圖像的不確定部分包含較多無序信息,該部分獨立于圖像的主要視覺信息,信號的能量直接表示內容的不確定度[15],即視覺信息量.由此,不確定部分的質量采用基于視覺信息量的質量評估算法.不確定部分的信息量表示為

式中,Iu為圖像的不確定部分,N為圖像總的像素數目.
對于原始、失真立體圖像的左右視點的不確定部分,分別計算視覺信息量得到左視點的不確定部分的質量為

由人眼雙目視覺和視覺信息量之間的關系[16]可知,在雙目感知過程中,對立體圖像的質量感知由含有較多信息量的視圖決定.因此,立體圖像不確定部分的質量為

立體圖像左右視點的差值圖表示物體的輪廓,也是立體圖像中視差變化劇烈的地方,一旦這些位置發生失真,就會使物體的深度感下降,從而降低立體圖像的感知質量.因此,本工作對立體圖像左右視點作差,并利用自然場景統計模型提取統計參數,根據統計參數的變化衡量圖像的深度感知質量.通過實驗發現,歸一化差值圖并不能很好地擬合成統計模型,如廣義高斯模型(generalized Gaussian distribution,GGD),故利用梯度幅度對歸一化差值圖進行校正.
把左右視點差值記為ΔI,將其歸一化[17]:

校正后的歸一化差值為

校正后的歸一化差值滿足廣義高斯分布:


立體圖像的體驗質量包括多方面的因素,不僅要考慮圖像質量,還要考慮立體效果、舒適度等.對圖像的可預測部分和不確定部分的質量進行融合,作為圖像質量[13],結合深度感知質量融合為最終的立體圖像體驗質量[18]:

式中,Qp為可預測部分的質量,Qu為不確定部分的質量,為深度感知質量.聯立式(8),(16),由BFGS(Broyden-Fletcher-Goldfarb-Shanno)優化算法[19]獲得誤差最小時的參數值,ω1=0.15,ω2=0.7,ω3=0.15,ω4=0.85,ω5=0.15,η =0.75,γ =0.25.
本工作在Waterloo-IVC 3D PhaseⅠ[20],PhaseⅡ[21]以及Live 3D PhaseⅡ[22]圖像庫上對所提算法的有效性進行驗證.以上3D圖像庫都含有對稱失真和非對稱失真的立體圖像,特別是Waterloo-IVC 3D圖像庫,含有不同失真類型、不同失真程度的2個視點的組合.
在實驗過程中,將圖像庫中80%的圖像作為訓練集,20%作為測試集.模型中的系數由訓練得到,然后用訓練好的模型對余下的20%的圖像進行測試.本工作用2個常用的指標來衡量模型的性能,分別是皮爾遜線性相關系數(Pearson linear correlation coeきcient,PLCC)和斯皮爾曼秩排序相關系數(Spearman rank order correlation coeきcient,SROCC).這2個系數越趨近于1,那么這個模型的性能就越好.
為了驗證模型的有效性,將本算法與其他現有的算法進行比較,這些算法分別為加入視差線索的文獻[4-5,7],以及加入雙目視覺特性的文獻[8-9,11-12].結果記錄在表1~3中,其中性能最好的2個算法的結果用黑體標出.由表1~3可見,本算法在這3個圖像庫中都具有較好的性能.在Live 3D PhaseⅡ數據庫上,本算法的性能在對稱和非對稱失真的圖像中都與主觀評分有較高的一致性,且PLCC和SROCC都達到了0.9以上.雖然文獻[9]對稱失真數據庫中的性能較好,但是在非對稱失真數據庫中的性能不如本算法.文獻[12]在表2和3中的非對稱失真評估性能不如本算法,且其算法需要原始圖像,而本算法不需要任何參考圖像,在精確度和帶寬上有更好的權衡.在這2個數據庫中,基于視差圖的算法的性能都比較差,這是因為視差圖的獲得不能做到很精確,易造成實驗結果有偏差.基于雙目視覺的算法在不同的失真情況下更具有穩定性,但總體上在對稱失真的情況下性能更好.本算法在不同數據庫中的實驗結果都比較穩定,且都具有較好的性能.

表1 不同算法在Waterloo-IVC 3D PhaseⅠ數據庫中的性能對比Table 1 Performance of different methods on Waterloo-IVC 3D Phase Ⅰdatabase

表2 不同算法在Waterloo-IVC 3D PhaseⅡ數據庫中的性能對比Table 2 Performance of different methods on Waterloo-IVC 3D Phase Ⅱdatabase
本工作提出了一種基于大腦內在推理機制和深度感知的立體圖像評價算法.根據大腦的內在推理機制,本算法將左右視點分別分解為可預測部分和不確定部分,其中對可預測部分采用基于GLCM的質量評估算法,對不確定部分采用基于視覺信息量的質量評估算法.本算法加入了深度線索,用改進的基于NSS的模型評估深度感知質量.最后,將以上3個部分的質量融合為立體圖像的感知質量.在Waterloo-IVC 3D和Live 3D PhaseⅡ數據庫中的實驗結果表明,本算法優于現有的立體圖像質量評估算法,與主觀感受具有較高的一致性.下一步的研究工作是對人眼視覺系統的特性做進一步的研究,并提取相應的特征以提高立體圖像質量評估算法的性能.

表3 不同算法在Live 3D PhaseⅡ數據庫上的性能對比Table 3 Performance of different methods on Live 3D Phase Ⅱdatabase