陳 勇 金曼莉 朱凱欣 劉煥淋 陳 東
①(重慶郵電大學工業物聯網與網絡化控制教育部重點實驗室 重慶 400065)
②(重慶郵電大學通信與信息工程學院 重慶 400065)
圖像在獲取、傳輸和存儲的過程中不可避免地引入失真,影響觀看者的視覺體驗質量。因此,設計與人眼主觀評分一致的立體圖像質量評估(Stereoscopic Image Quality Assessment,SIQA)模型對于3D圖像質量優化和處理至關重要[1]。
人類視覺系統(Human Visual System,HVS)可以將左眼和右眼獲得的不同視圖轉換為單幅視圖,在轉換過程中,并不是簡單將左右眼刺激相加就可以獲得單一視圖[2,3]。與2D圖像質量評價相比,3D除了需要考慮深度信息和雙目視覺特性對立體圖像質量評價的影響[4]。Ding等人[5]通過加權組合的方式來模擬復雜的雙目視覺機制;Ding等人[6]將log-Gabor濾波器和局部二值算子(Local Binary Pattern,LBP)應用到立體圖像的左右視圖上來獲取其頻率幅度圖和紋理圖;Hachicha等人[7]利用伯努利廣義高斯(Bernoulli Generalized Gaussian,BGG)分布對其最終的小波子帶進行建模;文獻[8]采用不同的雙目組合策略構建兩幅獨眼圖,并分別提取其雙目特征,從而使該模型的預測分數與人眼主觀評分更加接近。由于自然圖像(Natural Scene Statistics,NSS)在空間域和頻域上都表現出特定的統計規律[9],并且隨自然圖像NSS中不同類型和程度的失真的引入,其統計規律會發生變化。
對此,本文提出了一種結合空間域和變換域提取質量感知特征的無參考立體圖像質量評價模型。先將輸入的左、右視圖進行分塊并進行分塊判別,然后構建模擬左右視圖在大腦融合過程中的雙目組合模型,并分別在空間域和變換域提取自然統計特征。利用支持向量回歸(Support Vector Regression,SVR)訓練從特征域到質量分數域的立體圖像質量評價模型。
圖1給出了本文SIQA模型建立的整體框架。其主要原理為:將左、右視圖分割成大小為N×N圖像塊,通過比較左、右圖像塊的結構相似度及所含信息量大小,構建雙目組合模型。由于失真并不會均勻地分布在整幅圖像上,且不同類型和程度的失真會引起圖像的信息量和結構產生不同的變化,導致左、右視圖不同區域的結構相似度發生變化。對此,在空間域和變換域分別提取輸入的左、右視圖的自然場景統計特征,并在變換域提取合成獨眼圖的自然場景統計特征。將提取的特征輸入到SVR中,訓練從特征域到質量分數域的預測模型,從而建立SIQA客觀質量評價模型。

圖1 SIQA模型的整體框架
(1)自然場景統計特征的提取
自然圖像遵循特定的統計特性,其統計特性會隨失真的存在而發生改變[10]。現以LIVE 3D Phase I數據庫[11]中一幅立體圖像的左視圖和右視圖,以及相應的合成獨眼圖為例如圖2(a)—圖2(c),分別提取左視圖、右視圖和獨眼圖上亮度統計分布特征,并分別進行均值對比度歸一化操作(Mean Subtracted Contrast Normalized,MSCN)計算亮度分布統計特征,即計算圖像的MSCN系數,以此得到其對應MSCN系數的統計分布直方圖,如圖2(d)—圖2(f)。從圖中可以看出自然圖像的MSCN系數分布與廣義高斯分布(Generalized Gaussian Distribution,GGD)具有一定的一致性。因此,可采用GGD模型來擬合左視圖、右視圖和獨眼圖的MSCN系數的統計分布,并將擬合形狀的參數α和方差v2作為第1組質量感知特征。

圖2 左視圖、右視圖、合成獨眼圖及其相應的MSCN系數的統計分布直方圖
(2)深度特征的提取
由于包含更多信息量的視圖將會更加吸引HVS的注意[12]。對此,利用式(1)計算左視圖的信息量,并用其對視差圖進行加權以獲得加權視差圖De。由于失真會使視差圖的統計特征發生變化,因此,從加權視差圖上提取峰度K和偏斜度S,并將其作為深度特征f3。其加權視差圖De、偏斜度S和峰度K的計算分別如式(2)、式(3)和式(4)所示:

其中,EL是左視圖中包含的信息量;N和L分別表示RGB顏色空間的通道數和最大像素值;下標k和i表 示RGB顏色空間的第k個顏色通道和第i灰度級;p(xki,l)表 示左視圖中的像素值x等于i時的概率。用同樣的方法可以計算得到右視圖中所包含的信息量ER。

其中,we(i,j)是(i,j)處視差值的權重,將式(1)應用到以(i,j)為中心的N×N大小的圖像塊上,計算圖像塊的信息量作為像素點 (i,j)處的權重we(i,j);d(i,j)是(i,j)處的視差值。

其中,S,K,m和v分別表示加權視差圖的偏斜度、峰度、均值和方差;M×N是加權視差圖的尺寸。并將加權視差圖的偏斜度、峰度和均值作為水平特征。
由于非對稱失真導致的左右視圖縱向信息不匹配現象也會影響HVS的深度感知,并導致雙眼視覺不適,從而影響人眼對立體圖像深度質量的判斷[13]。對此,本文計算左右視圖之間縱向變化的線性相關程度,以此作為對水平深度信息的補充。根據式(5)和式(6)分別計算左右視圖的視差補償圖。

其中,dr(x,y)表示以左視圖為主視圖,從右視圖上找到與左視圖目標像素點相似度最大的對應點,計算兩個目標點之間的水平距離;dl(x,y)表示以右視圖為主視圖,從左視圖上找到與右視圖目標像素點相似度最大的對應點,即兩個目標點之間的水平距離。
在上述基礎上,對左、右視圖及其對應的視差補償圖進行去均值歸一化操作,并計算其差補償圖之間的縱向相關系數:

其中,c orr(X,Y)是MATLAB中的一個相關函數,用于計算兩個矩陣X和Y列與列之間的成對相關系數;N(·)是去均值對比度歸一化操作。
現以圖3(a)—圖3(b)為LIVE 3D Phase II圖像庫[14]中的一幅左、右視圖為例,通過上述方法計算的左視圖與右視差補償圖之間的縱向相關系數的統計分布圖和右視圖與左視差補償圖之間的縱向相關系數的統計分布圖(如圖3(c)、圖3(d))。從圖中看出,縱向相關系數的統計分布與非零均值非對稱廣義高斯分布(Asymmetric Generalized Gaussian Distribution,AGGD)具有一致性。

圖3 左右視圖及縱向相關系數圖的統計分布直方圖
其非零均值非對稱廣義高斯分布AGGD模型計算:

其中,α是形狀參數,控制AGGD的形狀;βl,βr控制兩邊的擴散程度;m是均值,當m=0時,該分布就是零均值AGGD。
失真類型分為信息加性失真和丟失性失真。信息加性失真和丟失性失真在整幅圖像上的不均勻分布會導致失真圖像不同區域的信息量和結構產生不同的變化[12]。因此,本文將分塊判別左右視圖在HVS融合過程中可能發生的雙目行為,并構建獨眼圖,然后在變換域提取反映圖像失真程度的雙目特征,從而使客觀評分更加接近人眼主觀評分。對此,提取離散余弦變換(Discrete Cosine Transform,DCT)域特征,即形狀參數α、頻率變化系數z、不同頻率子帶的平均能量差異比。
首先,將左、右視圖分割為N×N大小的圖像塊,分塊比較左、右圖像塊的結構相似度及所含信息量大小,構建相應的雙目組合模型,即獨眼圖。當立體圖像的失真類型為非對稱信息丟失失真(Information-Loss Distortion,ILD)時,立體圖像的感知質量受左、右視圖中圖像質量較高的那幅視圖支配;對于非對稱高斯噪聲之類的信息加性失真(Information-Additive Distortion,IAD),立體圖像的感知質量受左、右視圖中質量較低的視圖支配[12]。正如文獻[15,16]所述立體圖像的感知質量由包含更多信息的視圖主導,因此選較多信息的視圖作為雙目組合過程中的主導視圖。所提方法與文獻[17]相比,不需要對失真類型進行分類,從而降低了算法的復雜度,同時避免了可能由分類引起的誤差。
為了判別和模擬HVS中不同的雙目行為,需要構建不同的獨眼視圖來模擬雙目視覺機制。對此采用結構相似度模型SSIM[18]計算左右兩幅視圖圖像塊之間每對像素點的相似度值,然后通過將所有像素點的相似度值求平均的方式來計算圖像塊之間的結構相似度SL,R,并通過比較左視圖和右視圖包含的信息量來選擇雙目組合過程中的主導視圖。通過式(1)計算熵來衡量左右視圖圖像塊的信息量,同時根據文獻[19]的雙目刺激之間的相似/不相似程度來區分不同的雙目行為。同時,參考文獻[4]設置了結構相似度閾值T1和 信息量閾值T2來構建不同的雙目組合模型。
(1)雙目融合
當SL,R≥T1,選擇左視圖作為主導視圖:

(2)雙目抑制

(3)雙目競爭

其中,IL(x,y)和IR(x,y)分別表示左、右視圖;d(x,y)是根據文獻[14]計算的水平視差值;EL(x,y)和ER(x,y)分別表示左右視圖的2D-Gabor能量響應;ESL(x,y)和ESR(x,y)分別表示以左、右視圖為主視圖的兩幅抑制圖的2D-Gabor能量響應。2D-Gabor濾波器定義:

其中,x=x0cosq+y0sinq和y=-x0sinq+y0cosq;(x0,y0)是濾波器的中心點;λ是波長,控制濾波器的尺度;q是方向角度;s是橢圓高斯包絡沿x軸和y軸的標準偏差。由于初級視覺皮層中的簡單細胞和復雜細胞具有不同尺度的感受野,因此,使用具有5個頻域尺度和4個方向的多尺度Gabor濾波器,
2D-Gabor能量響應定義:

其中,?表示卷積操作;I(x,y)是輸入圖像。
然后,對合成獨眼圖圖像塊進行DCT,并利用GGD模型擬合獨眼圖圖像塊的DCT系數,提取擬合的形狀參數α作為圖像塊特征。并通過平均組合的方式,將所有圖像塊形狀參數的平均值作為整幅獨眼圖的質量感知特征。令X表示輸入圖像的DCT系數,則下一個DCT域特征頻率變化系數z可以通過DCT系數幅度的標準差s|X|和 均值m|X|之比計算得到:

提取獨眼圖圖像塊的頻率變化系數ζ特征,同樣采用平均池化的方式將所有圖像塊頻率變化系數的平均值作為整幅獨眼圖的第2個變換域特征。圖4(a)~圖4(d)分別給出了LIVE 3D Phase Ⅰ圖像庫[11]中一幅未失真、模糊失真的右視圖以及經過DCT后的能量分布圖。從圖4中可以看出,圖像經過DCT后能量集中分布在左上角。經失真和未失真圖像的能量分布圖對比,失真會使圖像的能量分布發生變化,為了度量這一變化,對此定義了局部DCT能量子帶比。

圖4 參考圖像及失真圖像經DCT后的能量分布圖
為了便于說明計算和量化不同頻率子帶的DCT系數,以視圖分割為5×5大小的圖像塊為例構成圖5所示中5×5的矩陣,并按顏色劃分為3個不同頻率的子帶,DCT系數矩陣從左上角向右下角移動,表示空間頻率越來越高。令n表示不同的頻帶,其中n=1,2,3(低,中,高)。然后將GGD擬合頻帶n的模型方差定 義為對應于頻帶n的平均能量,計算式為

圖5 不同頻率子帶的DCT系數

則不同頻率子帶的平均能量差異比Rn(n=2,3)的計算式:

比率越大則表明頻帶n的頻率能量與較低頻率的頻帶中的平均能量之間的差異越大。特征Rn可用于測量受失真影響時較低和較高頻段中能量的相對分布。計算R2和R3的平均值作為第3個DCT域特征。同樣地,計算所有圖像塊的該特征,并將其均值作為整幅獨眼圖的第3個DCT域特征。
對于左、右視圖,直接輸入整幅圖像,使用GGD擬合其DCT系數,并分別提取左、右視圖相應的形狀參數α、頻率變化系數z和不同頻率子帶的平均能量差異比作為其DCT域特征。
自然圖像具有多尺度特性[20,21],提取多尺度特征有利于處理圖像分辨率的變化以及從圖像顯示器到觀察者的距離或觀察者視覺系統的敏銳度變化,從而提高模型性能。對此,對輸入圖像進行兩次下采樣,所建立的SIQA模型在3個尺度上基于NSS場景進行空間域和變換域特征提取,并在單尺度上提取立體圖像的深度特征,從而為捕捉不同分辨率下圖像失真度的變化提供依據。
首先,對輸入圖像經過兩次下采樣,從3個尺度上分別提取左、右視圖的 2×3=6維空間域NSS特征,3×3=9維DCT域特征,即從左、右視圖上分別獲得15維單目特征;在3個尺度上提取獨眼圖3×3=9維DCT域特征。另外,從加權視差圖上提取3維水平深度特征,相關系數圖上提取4維縱向深度特征,即共提取46維質量感知特征。
在訓練階段,首先提取訓練集的質量感知特征,然后利用支持向量回歸SVR訓練從特征向量到主觀評分的預測模型。在測試階段,只需將提取到待測圖像的特征向量輸入到訓練好的預測模型中即可得到待測圖像的質量分數。圖像庫中的主觀評分是以DMOS(Differential Mean Opinion Score)或MOS(Mean Opinion Score)的形式呈現,其中,DMOS值越大,表示圖像質量越差,而MOS值越大,表示圖像質量越好。
本文所建立模型分別在LIVE 3D Phase I數據庫[11]、LIVE 3D Phase II數據庫[14]、Waterloo-IVC 3D Phase I數據庫[3]以及Waterloo-IVC 3D Phase II數據庫[22]中進行測試。
4.2.1 算法性能評估
本文采用Spearman秩相關系數(Spearman’s RankOrdered Correlation Coefficient,SROCC)、皮爾遜線性相關系數(Pearson Linear Correlation Coefficient,PLCC)以及均方根誤差(Root Mean Squared Error,RMSE)來驗證所提方法的性能。SROCC和PLCC分別評估了模型預測分數的單調性以及預測分數和客觀評分的一致性;RMSE反映了預測分數和客觀評分的誤差。PLCC和SROCC值越接近1,且RMSE值越小,則表示主觀一致性越高,模型的預測性能越好,即模型預測分數和人眼主觀評分更加接近。實驗中,訓練集選80%圖像庫的圖像和測試集選另外20%的圖像。為避免偏差,將隨機訓練-測試重復1000次,取中值作為結果。
4.2.2 一致性實驗
所提模型在4個立體數據庫中預測圖像的質量分數和主觀評分的散點圖如圖6所示。從圖6中可以看出,所提模型預測分數與人眼主觀評分的散點圖比較聚集且非常接近中心線,特別是圖6(a)、圖6(b)和圖6(d)中的所有散點非常接近中心線,表明所提算法具有良好的預測性能,與人眼主觀評分具有較高的一致性。

圖6 所提模型在4個數據庫中圖像預測值和主觀評分的散點圖
4.2.3 模型性能評估
(1)不同圖像庫中的測試
選用LIVE 3D Phase I和LIVE 3D Phase II兩個立體圖像庫對所提算法針對每種失真類型立體圖像質量預測的準確性進行測試,其中圖像庫包含JPEG2000(JP2K),JPEG壓縮失真,高斯白噪聲(Gaussian White Noise,WN),高斯模糊(Gaussian blur,Gblur)和快速衰落(Fast Fading,FF)等5種失真類型。測試結果列于表1中(括號中為LIVE 3D Phase II數據),分析可知所提算法與人眼主觀觀測結果具有較好的一致性。

表1 LIVE 3D Phase I和II圖像庫中的性能測試
(2)對比算法的測試
對本文算法的整體性能評估。將本文所提出的方法與一些主流的SIQA方法進行比較,如全參考Lin[29],Khan[23],Chen FR[14],Jiang[24]和SSIM[18];半參考Ma[25];無參考SINQ[8],Zhou[8],Karimi[26],Yang-SAE[27],Fezza[17],BRISQUE[28]和全參考Lin[29]等。表2給出了所提算法與一些主流的SIQA算法在公開立體圖像庫中整體性能比較的結果。與對比算法相比,所提模型的整體性能在4個SIQA數據庫中表現優異。由于所提SIQA模型考慮到非均勻分布失真對圖像質量評價的影響,同時結合空間域和變換域提取質量感知特征,從而提高了模型性能。

表2 LIVE 3D Phase I和II圖像庫中整體性能比較
4.2.4 泛化性能測試
本文分別將LIVE 3D Phase I和Phase II數據庫用作訓練集和測試集,LIVE 3D Phase I/Phase II表示所提模型在LIVE 3D Phase I圖像庫中訓練,然后在LIVE 3D Phase II圖像庫中進行測試;LIVE 3D Phase Ii/Phase I表示所提模型在LIVE 3D Phase II圖像庫中訓練,然后在LIVE 3D Phase I圖像庫中進行測試。
實驗中,對比算法為:Yang-SAE[27]、BRISQUE[28]、CNN-based[30],并利用PLCC和SROCC指標評估所提模型與對比算法的泛化性能。表3給出了本文算法與一些SIQA算法跨庫實驗的對比結果,與其他SIQA算法相比,所提模型在LIVE 3D Phase I和Phase II圖像庫上測試的PLCC值和SROCC值基本達到最大值,表明本文算法訓練的預測模型針對不同的測試數據庫具有良好的通用性。

表3 跨庫性能對比實驗
針對失真并不會均勻地分布在整幅視圖上的問題,將輸入的左、右視圖分塊,然后分塊判別并構建模擬左右視圖在大腦中融合過程的雙目組合模型,并在變換域提取雙目特征。最后將空間域和變換域特征同時輸入到SVR,訓練從特征域到質量分數域的立體圖像質量評價模型。并在4個公開的立體圖像數據庫上與一些主流的全參考、半參考和無參考立體圖像質量評價算法進行對比,驗證了所提算法具有良好的性能。
通過實驗驗證了所提建立SIQA圖像質量評價模型與人眼主觀視覺具有高度一致性,表明所提方法具有一定的參考價值。