陳 慧,李朝鋒
江南大學 物聯網工程學院,江蘇 無錫 214122
立體圖像的附加維度(深度和視差)[1],使得在評價其質量時不能只簡單地考慮左視圖和右視圖。人類的眼睛作為圖像的最后接受者,主觀評價被認為是最可靠的感知圖像質量的評價方法[2]。主觀評價是由觀察者對立體圖像的主觀感受進行評價,準確性較高,但費時費力,且易受到觀察者的情緒、疲勞度和測試環境等因素的影響,在實際應用中受到嚴重的限制,為此客觀質量評價必不可少。
客觀立體圖像質量評價根據是否有原始圖像作為參考,可以分為3類:全參考(full reference,FR)立體圖像質量評價方法、半參考(reduced reference,RR)立體圖像質量評價方法和無參考(no reference,NR)/盲(blind)立體圖像質量評價方法。
全參考立體圖像質量評價需要原始圖像的全部信息。Benoit等人[3]提出了一種立體圖像質量評價方法,采用一些2D的全參考質量評價算法計算左參考圖像和左失真的圖像、右參考圖像和右失真圖像以及參考圖像和失真圖像之間的視差圖的圖像質量得分。然后將這些得分組合得到立體圖像的質量得分。You等人[4]將多種2D圖像質量評價方法應用在評價立體圖像的圖像對和視差圖中,并采用了多種方法計算視差圖。證明了視差是立體視覺的重要因素。Geng等人[5]提出了一種基于獨立成分分析和雙目組合的全參考度量,計算參考圖像和失真圖像的圖像特征相似度和局部亮度一致性。
半參考圖像質量評價方法僅需要參考圖像的部分信息。Hewage等人[6]通過利用深度圖的邊緣信息提出了半參考圖像質量評價方法。Ma等人[7]通過評估重組離散余弦變換域中的失真,提出了用于立體圖像的半參考圖像質量評價方法。Wang等人[8]依賴于輪廓域中的自然圖像統計來設計用立體圖像的半參考評價方法。
在實際應用中,由于參考圖像通常難以獲得,無參考的圖像質量評價方法顯然更有價值。Chen等人[1]從立體圖像的獨眼圖中提取2D自然場景統計特征,從視差圖和不確定性圖中提取3D的特征,將這些特征組合預測得分,取得了能和全參考圖像質量評價相提并論的性能。Sazzad等人[9]使用立體圖像對的局部特征的感知差異,開發了基于時空分割的無參考立體圖像質量評價方法。Akhter等人[10]從立體圖像對和視差圖中提取特征,采用邏輯回歸模型來預測質量得分。Ryu和Sohn[11]提出了一種基于雙目質量感知的無參考立體圖像質量評價算法。對在模糊性和塊效應的情況下人類視覺系統的雙目質量感知進行建模。Shao等人[12]構造了雙目導引質量查詢和視覺碼本,通過簡單的合并過程實現無參考圖像質量評價。Lv等人[13]提出了一種基于雙目自相關和雙目合成的無參考立體圖像質量評價算法。Tian等人[14]對立體圖像的左右視圖進行Gabor濾波提取單目特征,對獨眼圖提取雙目特征,將這些特征放入深度信念網絡預測立體圖像的質量得分。Li等人[15]提出了一種基于雙目特征聯合的無參考立體圖像質量評價算法,在對稱失真和非對稱失真庫上都有較好的主觀一致性。
這些無參考質量度量大多基于手工制造的特征來表示立體圖像的特性,手工設計圖像特征困難復雜,需要豐富的經驗和知識。Kang等人[16]在討論CNN(convolution neural network)用于評價2D圖像質量的能力方面做了開創性的工作,將特征提取和學習過程結合在一起。Bosse等人[17]設計了一種深度的CNN,用于對2D圖像進行質量評價,并且取得了很好的結果。Zhang等人[18]設計了一個CNN模型,將亮度對比度歸一化后的左視圖、右視圖和視差圖作為網絡的輸入,用于評價立體圖像質量。不同于文獻[18],采用切塊后的彩色圖像直接作為網絡的輸入,設計了12層的深度CNN模型,用于無參考的立體圖像質量評價。
立體圖像與2D圖像不同,除了要同時考慮左右視圖的質量,還需要將立體的深度信息考慮進去。因此,本文的模型將切塊后的立體圖像的左視圖、右視圖和視差圖作為網絡的輸入,以便網絡能夠更好地感知立體信息。本文提出的深度CNN模型結構如圖1所示。三通道的CNN分別輸入切塊后彩色的左視圖、右視圖和視差圖,每個通道后面接有12個卷積層來提取特征,在每兩次卷積后進行一次池化層操作,以降低特征圖的維數。然后將3個通道得到的特征向量進行線性拼接,得到的拼接向量與一個具有512個節點全連接層連接,最后在輸出節點預測圖像的質量得分。
在立體圖像質量評價算法中,視差圖像比立體圖像的左視圖和右視圖更重要,原因是視差圖像不僅考慮了圖像的內容,而且還考慮了立體圖像的深度信息和視差信息[9]。在本文中,視差圖采用左右視圖直接相減獲得:


Fig.1 Framework of proposed deep CNN圖1 本文提出的深度CNN模型結構圖

Fig.2 Stereoscopic image sample圖2 失真圖像示例
其中,Il和Ir分別為左視圖和右視圖;Id為左右圖像的視差圖。圖2為圖像庫中的一組左右視圖以及對應的視差圖。對得到的視差圖和立體圖像的左視圖與右視圖進行不重疊的切塊處理,圖像塊的大小取32×32。立體圖像的質量得分作為每個圖像塊的質量得分。然后將對應的圖像塊分別作為3個通道的輸入同時輸入到網絡中進行計算。
不同于文獻[18]中將切塊后的圖像進行局部亮度對比度歸一化后再輸入網絡,本文采用切塊后的彩色圖像直接作為網絡的輸入,這樣可以最大程度地保證圖像的所有信息都輸入到網絡,使網絡更全面地學習到相應的特征。
卷積層是卷積神經網絡的核心,通過圖像與卷積核進行卷積計算和特征提取,具有局部連接和權值共享特征的屬性。卷積核的大小就是對圖像的感受視野大小,當卷積過小時,無法提取有效的特征,而當卷積核過大時,提取的特征的復雜度可能會超過后面網絡的表示能力。因此設置適當的卷積核對于提高卷積神經網絡的性能至關重要。本文采用的卷積核的大小為3×3。卷積的計算過程定義如下:

其中,ωk和bk為第k個濾波器的卷積核與偏置;xij是與濾波器進行卷積的局部圖像塊;hij是得到的第k個特征圖。
池化層是卷積神經網絡的重要組成部分,通過減少卷積層之間的連接,降低運算復雜度。在本文中,采用最大池對特征圖進行子采樣。最大池過程定義如下:

其中,Ω為最大池的局部窗口,模型中的池化窗口大小為2×2,這樣每一個特征圖經過池化運算后,數據量將減少一半;表示卷積后的第k個特征圖;表示第k個特征圖經過池化運算后的特征值。
在經過多層的卷積池化操作后,3個通道分別可以得到3個一維的特征向量,將這3個特征向量進行如下線性拼接:

其中,η表示組合后的特征向量;α、β、λ分別表示左視圖、右視圖、視差圖3個通道得到的特征向量。然后,將拼接后的向量與一個全連接層連接,用于計算圖像的質量得分。
由于神經網絡的輸入通常是固定尺寸大小的,而圖像庫中的圖像尺寸有時不一定相同,因此將原來的彩色圖像切塊為32×32大小的圖像塊作為輸入。因為LIVE 3D圖像質量評價數據庫中的圖片失真為均勻失真,所以每個輸入塊被賦予與其原圖像相同的質量分數,最后預測的圖像質量得分為一幅圖像所有圖像塊質量得分的均值。
網絡的參數配置如表1所示。在所有的卷積層中,采用的卷積核大小均為3×3,并且使用ReLUs(rectified linear units)作為激活函數。卷積過程的補零處理可以讓卷積層的輸入與輸出保持相同的尺寸大小。所有最大池的窗口大小為2×2。在全連接層,對輸出的值進行dropout處理,將輸出的值按照50%的概率設置為0,通過對信號的隨機屏蔽處理,可以防止網絡訓練出現過擬合現象。

Tabel 1 Parameters of CNN表1 網絡參數配置
對于一個質量得分為qt的圖像,假設被切塊后共有Np個圖像塊。預測的圖像質量得分q為所有圖像塊經過CNN后輸出值yi的均值,即:

本文模型中的目標函數定義為:

采用Adam算法優化網絡參數,最小化目標函數,其中學習率設置為r=0.000 1。每次迭代隨機從訓練集中挑選32個圖像塊輸入網絡。動量momentum設置為0.9。
本文采用LIVE實驗室提供的立體圖像測試庫Ⅰ和Ⅱ作為實驗數據。LIVE 3D PhaseⅠ數據庫包括20種圖像,5種失真類型,總共365組失真圖像和參考圖像。其中包括Gaussian blur(BLUR)失真45組,JPEG2000 compression(JP2K)、JPEG compression(JPEG)、white noise(WN)和fast fading(FF)失真各80組以及每組失真立體圖像的DMOS(difference mean opinion score)值。LIVE 3D PhaseⅡ數據庫包含8對原始立體圖像和360幅對稱失真和非對稱失真立體圖像對,失真類型為Gblur、WN、JPEG、JP2K和FF共5種失真,并給出每組失真立體圖像的DMOS值。
為了評估模型的性能,選取兩種評價指標:斯皮爾曼等級相關系數SROCC(Spearman rank order correlation coefficient)和皮爾遜線性相關系數PLCC(Pearson linear correlation coefficient)。SROCC主要用于測量兩組順序樣本的次序相關系數,即質量得分單調性的指標;PLCC主要用于客觀評價得分與主觀得分之間的線性相關性。SROCC和PLCC的值區間都為[-1,1],其絕對值越接近于1表明主客觀之間的相關性越好。
實驗中隨機選取數據庫中80%的參考圖像對應的所有失真圖像用于訓練,剩余20%的參考圖像對應失真圖像用來進行測試,這樣保證學習訓練圖像與測試圖像在內容上是完全獨立的。
表2和表3列出了不同方法在LIVE 3D PhaseⅠ數據庫上得到的SROCC值和LCC值。為了使實驗所得到的結果便于觀察和對比,將實驗結果中的最高值進行加粗顯示。表中的全參考度量方法用斜體標出。

Table 2 SROCC on LIVE 3D PhaseⅠ表2 在LIVE 3D PhaseⅠ數據庫上的SROCC

Table 3 LCC on LIVE 3D PhaseⅠ表3 在LIVE 3D PhaseⅠ數據庫上的LCC
由表2和表3分析可以看出,本文模型在單一JP2K、WN、FF失真類型的結果最好,在JPEG失真類型表現較差。其他模型對于JPEG失真的預測結果也不是很理想,這是因為在LIVE 3D PhaseⅠ數據庫中,對于JPEG失真,其DMOS的范圍是-10到20,相比于其他失真類型范圍更窄,這就意味著更少的感知失真和較小的感知差異[9]。如何提高模型對JPEG失真圖像質量預測的準確性是將來需要研究的問題。
表4和表5列出了不同方法在LIVE 3D PhaseⅡ數據庫上得到的SROCC值和LCC值。由表4和表5可以看出,模型在LIVE 3D PhaseⅡ庫的JP2K和JPEG失真類型上的結果略低于其他算法,但在WN、BLUR和FF失真上效果比其他算法都好。圖3和圖4為本文算法在LIVE 3D PhaseⅠ和PhaseⅡ質量評價預測值與DMOS的散點分布圖。由散點圖的分布可以看出,本文提出的算法具有較好的主觀一致性。

Table 4 SROCC on LIVE 3D PhaseⅡ表4 在LIVE 3D PhaseⅡ數據庫上的SROCC

Table 5 LCC on LIVE 3D PhaseⅡ表5 在LIVE 3D PhaseⅡ數據庫上的LCC
為了說明視差圖的有效性,將本文方法與只有兩通道的深度CNN進行實驗對比。兩通道的深度CNN模型結構輸入只有左視圖和右視圖,沒有視差圖,其余結構和三通道的CNN相同。表6和表7為兩通道模型在LIVE 3D PhaseⅠ數據庫上得到的SROCC值和LCC值。由表6和表7可以看出,有視差圖輸入的模型比沒有視差圖輸入的模型具有更好的主觀一致性,證明在立體圖像質量評價算法中視差圖的重要性。

Fig.3 Result on LIVE 3D PhaseⅠ圖3 在LIVE 3D PhaseⅠ庫的預測散點圖

Fig.4 Result on LIVE 3D PhaseⅡ圖4 在LIVE 3D PhaseⅡ庫的預測散點圖

Table 6 SROCC comparison between 2-channel and 3-channel表6 兩通道和三通道CNN的SROCC對比

Table 7 LCC comparison between2-channel and 3-channel表7 兩通道和三通道CNN的LCC對比
對于卷積神經網絡模型來說,其訓練時間與網絡的深度以及機器設備的型號密切相關。更深的網絡層數意味著更多的權重參數,也就需要更多的時間進行計算。本文提出的模型由3個通道構成,每次每個通道輸入32張切塊后的圖片,即每次迭代輸入96張圖像塊。訓練采用caffe框架,實驗采用的GPU型號為GTX660,每進行1 000次迭代需要耗時120 s。相比于其他算法耗時略長,但隨著計算機顯卡的計算能力的提升,其訓練時間可以大大縮短從而提升算法的效率。
本文提出了一種基于深度卷積神經網絡的立體圖像質量評價模型。將立體圖像的左視圖、右視圖和視差圖的彩色圖像直接輸入網絡,每個通道由12層的深度網絡結構組成,通過卷積層與最大池的多層堆疊,直接學習到立體圖像的感知特征,避免了傳統方法對于左右視圖和視差圖的復雜處理,能有效度量立體圖像質量。在LIVE 3D PhaseⅠ庫和LIVE 3D PhaseⅡ庫上的實驗結果表明,該模型能夠較好地預測人眼對立體圖像的主觀感知。