潘達,史萍
(中國傳媒大學 理工學部,北京 100024)
在過去的幾年里,3D電影、電視等立體視覺內容越來越多地出現在人們的日常生活當中。立體圖像的質量評價方法不僅在3D視頻的傳輸與接收中發揮重要作用,而且也是3D圖像壓縮的關鍵組成部分。在現有的立體視覺質量評價數據庫中,根據左右視圖失真類型和失真程度的不同,立體圖像可分為對稱失真立體圖像和非對稱失真立體圖像。其中對稱失真立體圖像是指左右視圖的失真類型和程度完全一致,他對應的質量評價是3D-IQA中首要解決的任務,因此,如何構建對稱失真立體圖像的質量評價模型是研究立體圖像質量評價的關鍵。
在以往研究中,IQA可以分為全參考圖像質量評價(FR-IQA)[1,2]和無參考圖像質量評價(NR-IQA)[3,4]。文獻[1]改進了SSIM在單視圖質量評價的方法,并且基于雙目競爭原理,建立了一種基于激勵模型的立體圖像質量評價。文獻[2]引入了基于大型數據庫學習的多尺度字典,在前向評估階段,通過計算稀疏特征相似度和全局亮度相似度來估計圖像質量。文獻[3]提出了一種立體無參考的圖像自然質量指數,他采用支持向量機訓練相關的自然場景統計特征。文獻[4]提出了一種無參考的深度質量評價策略,用于衡量單目和雙目之間的相互作用關系,結合左右眼分數綜合給出立體視覺質量分數。
盡管傳統的3D-IQA方法表明,先利用優異的2D-IQA模型計算出左右單視圖分數,再采用簡單的平均策略也能較好地預測對稱失真的立體圖像質量,但左右視圖之間的相關性還沒有得到充分的考慮。根據實驗分析,人在觀看視頻時,存在一種叫雙眼競爭的現象,即一只眼睛會比另一只具有明顯的主導優勢,這說明3D圖像質量感知不僅與左右眼之間的視差有關,還與雙眼機制相關。受此啟發,本文提出了一種端到端權重組合的無參考立體圖像質量評價的深度學習網絡。該網絡的主要特點如下:1.深度網絡將立體視覺特征作為整體評估,融入了左右視圖的相關性特征;2.提出的加權集成網絡能夠根據圖像失真情況,自我優化左右視圖的能量分布。
眾所周知,左右視圖之間的相關性在3D圖像感知中起著重要作用,單獨計算左右視圖的失真質量就缺少了對左右眼相關性的度量。因此,本文著重討論并考慮如何將左視圖與右視圖結合起來進行整體質量評估。文獻[4]中的理論推導表明,立體圖像的質量感知可以概括為:

(1)
其中IL,IR分別表示左視圖和右視圖,θ表示3D-IQA的主觀分數,P(θ)表示主觀分數的先驗概率分布,P(IL,IR|θ)表示在主觀得分θ下,關于左視圖和右視圖的條件概率分布,P(IL,IR)表示3D圖像的先驗聯合概率分布。根據貝葉斯推理,方程(1)可重新表示為:

(2)
基于雙眼競爭理論,人的左眼和右眼對相同光線刺激有不同的反應,這意味著在圖像質量評價過程中有一只眼睛占主導地位。因此,本文改進了公式(2):

(3)
w1和w2代表左右視圖的權重,本文設計了一種權重網絡用以表達左右眼在評價3D圖像質量中的能量分布。整個權重網絡結構共6層,第一層和第三層是核大小分別為7×7和5×5的卷積層,在每個卷積層之后是2×2的最大池化層,第五層和第六層分別是大小為1024和2048個節點的全連接層。為了將網絡輸出值約束在0到1之間,我們選擇sigmoid作為最后一層的激活函數。除最后一層外,其他層之后都選擇ReLU作為激活函數。實驗部分可以證明,本文提出的權重組合網絡可以根據左右視圖的失真內容學習自適應的能量分布。

圖1 本文提出的深度網絡模型。C表示卷積層,P表示池化層,F表示全連接層
本章所有實驗都在三個公開的3D-IQA數據庫上進行測試,這三個庫分別為LIVE 3D Phase II,Waterloo-IVC Phase I和Waterloo-IVC Phase II。這些庫都包含參考圖和失真圖,并且圖像失真覆蓋不同的類型和程度。本文采用皮爾遜線性相關系數(PLCC)和斯皮爾曼相關系數(SROCC)來計算主觀評分與客觀評分之間的相關性用以比較各個IQA方法的性能。具體來說,PLCC是用以評估質量預測的準確率,而SROCC表示質量預測的單調性。IQA模型計算出的PLCC和SROCC的值越大,就表明該模型的性能越好。在本文所有實驗中,我們將數據庫的80%用于訓練,剩下的20%做測試。為了避免數據劃分帶來的性能偏差影響,我們做了5輪交叉驗證實驗,整個數據庫隨機均分為5等份,我們將其中的一份用于測試,其余的四份用于訓練,整個過程重復5次,以確保沒有劃分偏差。最終的質量評價分數是平均每次迭代計算的分數。
圖像的最終質量評價分數是將原圖中裁剪的所有224×224圖像塊分數取平均。為了測試圖像塊采樣策略對最終效果的影響。本實驗允許圖像塊重疊采樣,將原始失真圖像按照水平和豎直方向劃分為不同數量的采樣塊。我們比較了三種圖像劃分的策略:5×5,16×10和25×15。例如,對于16×10,水平步長為(w-224)/(16-1),w表示圖像寬度。表1展示了不同數量圖像塊的性能比較,從表1中我們可以看出,25×15的采樣組合方式性能最優。

表1 在Waterloo-IVC Phase II數據庫上不同數量圖像塊的性能比較
表2展示了本文提出的深度質量評價模型與其他方法的比較結果,其中,Mean-Net表示對左右兩個分支網絡預測結果直接求均值。從表2中可以看出,本文提出的方法很好地符合人的主觀感知特性,而且其性能明顯優于其他基于2D-IQA的方法。其中的Mean-Net均值網絡比其他2D-IQA方法都高出了3%,這意味著立體質量評估深度網絡能夠充分表達對稱失真圖像的視覺感知。引入權重網絡后,本文提出的方法在PLCC和SROCC兩個方面都取得了最好的性能,主要是因為通過深度權重網絡計算出的能量分布,能夠很好地表現左右眼之間的相關性。這些結果也證明了我們提出的權重集成學習深度網絡可以很好地評估對齊失真在立體視覺圖像中的狀態。

表2 各方法在3D圖像數據庫中的性能比較

表3 數據集不同劃分下的性能比較
表3展示了在三種不同的數據劃分下,LIVE 3D Phase II和Waterloo-IVC Phase II兩個圖像庫的性能結果。本文將數據集劃分為80%的訓練集和20%的測試集。另外兩種數據的劃分為70%和60%樣本用于訓練深度網絡,其余圖像用于測試。本文對每一種劃分類型都隨機10次,以其均值作為最終結果。結果表明,隨著訓練圖像數量的下降,所有方法的質量評價性能都降低。但是本文提出的方法只輕微下降了0.8%,而其他方法都顯著下降了4%,這證明了本文提出的方法相比其他方法,對訓練圖像數量的依賴性更小,在小型數據集上也能有較好的性能。
本文提出了一種無參考的對齊失真立體圖像的質量評價深度網絡模型。該深度網絡不僅考慮了左右視圖之間的相關性,還設計了一種基于雙目競爭理論的加權集成學習網絡。在各個數據庫上的結果表明,本文提出的方法優于其他方法,取得了與主觀感知的高度一致性。
[1]Wang J,Rehman A,Zeng K,et al.Quality prediction of asymmetrically distorted stereoscopic 3D images[J].IEEE Transactions Image Processing,2015,24(11):3400-3414.
[2]Shao F,Li K,Lin W,et al.Full-reference quality assessment of stereoscopic images by learning binocular receptive field properties[J].IEEE Transactions Processing,2015,24(10):2971-2983.
[3]Su C C,Cormack L K,Bovik A C.Oriented correlation models of distorted natural images with application to natural stereo pair quality evaluation[J].IEEE Transactions Image Processing,2015,24(5):1685-1699.
[4]Shao F,Tian W,Lin W,et al.Toward a Blind Deep Quality Evaluator for Stereoscopic Images Based on Monocular and Binocular Interactions[J].IEEE Transactions on Image Processing,2016,25(5):2059-2074.
[5]Bianco S,Celona L,Napoletano P,et al.On the use of deep learning for blind image quality assessment[J].Signal Image & Video Processing,2016(3):1-8.
[6]Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C].European Conference on Computer Vision,2016:21-37.
[7]Mittal A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain[J].IEEE Transactions Image Processing,2012,21(12):4695-4708.
[8]Ye P,Kumar J,Kang L,et al.Unsupervised feature learning framework for no-reference image quality assessment[C].IEEE Conference on Computer Vision and Pattern Recognition,IEEE Computer Society,2012:1098-1105.
[9]Xue W,Mou X,Zhang L,et al.Blind image quality assessment using joint statistics of gradient magnitude and laplacian features[J].IEEE Transactions Image Processing,2014,23(11):4850-4862.
[10]Xue W,Zhang L,Mou X.Learning without human scores for blind image quality assessment[C].Computer Vision and Pattern Recognition,2013:995-1002.
[11]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems,2012:1097-1105.
[12]Mittal A,Moorthy A K,Bovik A C.No-reference image qualityassessment in the spatial domain[J].IEEE Transactions Image Processing,2012,21(12):4695-4708.
[13]Saad M A,Bovik A C,Charrier C.Blind image quality assessment:A natural scene statistics approach in the DCT domain[J].IEEE Transactions Image Processing,2012,21(8):3339-3352.