鐘曉純, 張 偉, 李朝鋒
(江南大學物聯網工程學院,江蘇無錫214122)
隨著網絡的發展,需要頻繁地對圖像進行傳輸、存儲、壓縮等,而這些過程都要評價圖像質量,因此圖像質量評價已成為當前圖像處理的一個熱點問題。圖像質量評價一般可以分為主觀和客觀質量評價。由于人是圖像的最終接收者,主觀質量評價最為可靠;但實際應用中,主觀質量評價費時費力,且無法嵌入自動化系統,因此客觀質量評價必不可少。根據有無參考圖像信息,客觀質量評價可分為全參考、半參考和無參考圖像質量評價。全參考和半參考方法需要參考圖像全部或者部分信息,但在許多情況下參考圖像的信息很難獲取或獲取代價太高,而無參考圖像質量評價不需要原始圖像任何信息,所以研究有效的無參考評價方法尤為重要。
近年來,無參考圖像質量評價方法得到較大發展。Moorthy A K等[1]提出一種先分類后回歸的方法DIIVINE,將圖像進行小波分解,使用廣義高斯分布(GGD)擬合得到尺度內和尺度間統計特征,用支持向量機(SVM)先分類再回歸的方法預測圖像得分;GAO X B等[2]在小波域提取圖像的非高斯性、局部依賴性和指數遞減性特征,運用多核學習先分類再回歸建立模型NSS-TS;LIU L X等[3]將圖像進行曲波變換,提取子帶系數直方圖擬合特征、相位一致性特征等,運用SVM建立模型CurveletQA;Sead M A等[4]使用GGD擬合離散余弦變換系數得到特征,以SVR訓練得到模型BLIINDS-II;Mittal A等[5]對經過預處理的圖像進行高斯擬合,提取形狀、方差和均值等統計特征,使用 SVR建立模型BRISQUE。
盡管上述方法均取得不錯的評價效果,但仍存在著以下不足:①先分類后回歸的方法在運算上明顯復雜于直接回歸建立模型的方法;②當前大部分評價模型如 BLIINDS-II[1]、NSS-TS[2]、BRISQUE[5]等均只在DCT域、小波域、空域等單個域內提取特征建立評價模型,沒有考慮結合其他域內與其互補的圖像質量相關特征;③目前計算圖像尺度間冗余信息時大部分采用GGD擬合獲取統計特征,這種方法只是一種近似估計,不能精確描述尺度間冗余信息。
針對以上問題,文中提出一種結合輪廓波域和空域特征的無參考圖像質量評價方法。通過輪廓波域提取特征獲取圖像不同尺度及方向特征信息,在空域提取特征獲取圖像像素間特征信息,實現了圖像不同尺度、不同方向、不同像素的信息計算。在計算圖像尺度間冗余信息時,引入圖像融合中計算兩幅圖像信息相關度的方法定量計算。另外,使用直接回歸的方法建立模型,使得該方法擁有較低的時間復雜度。實驗結果表明,這些整體到局部的圖像特征信息能有效描述圖像,且能獲得比現有評價模型更好的效果。
輪廓波變換具有多方向多分辨率的時頻特性,且有良好的各向異性[6],因此能很好地反映圖像邊緣和輪廓信息。實驗中首先對圖像進行3尺度8方向輪廓波分解。
由文獻[6]可知,圖像經輪廓波分解后子帶系數間存在信息冗余。由于輪廓波基函數與輪廓重疊,且方向一致時會產生較大系數值,所以輪廓波子帶系數與其父子帶系數之間存在很強的信息冗余。圖像融合中計算兩幅圖像信息相關度的互信息可以直接對這種父子信息冗余關系進行定量計算。互信息計算公式[7]如下:

式中:x,y分別為參考子帶和父子帶系數;p(x),p(y)為邊緣概率分布;p(x,y)為聯合概率分布;I(x,y)為互信息。
圖 1給出了 LIVE數據庫[8]中原始圖像Buildings及其5種失真的互信息曲線。

圖1 原始圖像以及對應的5種失真圖像的互信息分布Fig.1 Mutual information distribution of the original image and five distorted images
由圖1可以看出,不同失真圖像互信息曲線各不相同,且與原始圖像互信息曲線分布存在差異。如WN失真的互信息所對應曲線高于原始圖像及其他失真類型的互信息曲線;Glur和FF失真的互信息曲線低于原始圖像,且其變化程度相對于其他失真類型也較平緩;但互信息曲線沒能很好反映JP2K及JPEG失真。為了彌補互信息曲線的這種不足,文中提取方向特征。
由文獻[9]可知,自然圖像在能量譜上表現為空間頻率在對數域呈線性關系,在輪廓波域則隨著不同分解尺度、子帶能量呈線性遞減。文中將計算視覺感知重要區域的方向子帶系數作為子帶能量,具體方法[10]如下:首先取最高尺度的方向子帶(實驗中為第3尺度),選取其絕對值大于子帶絕對值均值的系數作為視覺感知重要區域,然后對不同尺度進行同方向升采樣插值,從而得到其他尺度的視覺感知重要區域。得到所有子帶的視覺重要區域后,利用以下公式計算該區域各個子帶的系數作為各子帶的能量值。

式中:E為子帶能量;N為子帶像素個數;X為子帶視覺感知重要區域的系數。
圖2給出了LIVE數據庫29幅原始圖像以及5種失真類型隨機選取的各29幅圖像隨分解尺度變化的能量曲線。
由圖2可以看出,原始圖像能量呈線性遞減。JP2K失真圖像在第1尺度呈線性遞減,在2,3尺度線性關系被破壞;JPEG失真整體上線性遞減,但各尺度能量變化程度較原始圖像劇烈;WN失真圖像由于受到噪聲污染,圖像能量加大,因此其能量曲線從第2尺度開始呈上升趨勢;Gblur及FF失真圖像能量分布呈分散狀態。從圖2可以發現,雖然JPEG失真的能量曲線不能很好地區別于原始圖像能量曲線,但其他失真對自然圖像能量線性遞減特性產生不同程度的破壞,特別是能量特征可以明顯地區別出JP2K失真類型,這在一定程度上彌補了互信息的缺陷,但仍不能有效區分JPEG失真。為了克服能量特征的這種缺點,文中提取像素特征更好地區分JPEG失真。

圖2 原始圖像及五種失真類型圖像的子帶能量分布曲線Fig.2 Energy distribution of the original image and five distorted images
根據經典自然圖像空域模型[11],用圖像灰度值減去局部均值,再除以局部標準差可以消除圖像的分段光滑性,計算方法如下:

其中,I(i,j)為失真圖像;M,N為圖像的高和寬;K=L=3,w={wk,l|k= - K,…,K,l= - L,…,L}為一個窗函數,由3個標準差及經過調整的單位體積通過二維圓對稱高斯加權函數獲得。
文獻[5]稱經過預處理的圖像為MSCN。圖3分別給出了5種失真類型下同一圖像不同差分平均主觀得分(DMOS)的MSCN值歸一化分布。
由圖3可以看出,隨著JP2K失真的加劇,其分布曲線的尾部越來越長。JPEG失真變化劇烈時,其曲線的峰變得平緩;WN失真整體分布更加接近高斯分布,并且其曲線的峰隨著失真程度的加劇變得更加陡峭,與其他失真類型相反;當Gblur失真加劇時,趨向于零的值越來越多;而FF失真則擁有最陡的峰和最長的尾。由以上分析得出,不同失真類型分布形狀均不相同,不同得分對應的分布曲線各不一樣,特別是JPEG失真,其不同失真程度的MSCN分布較其他失真類型更加明顯。且MSCN值的分布總體上均具有非高斯性,因此MSCN可以先由GGD進行擬合。零均值 GGD[12]如下:

其中,α為控制曲線形狀;σ2為曲線方差;Γ(·)為伽馬函數。由于不同失真類型圖像表現為擬合后方差與形狀不同,因此取方差和形狀作為特征。
另外,MSCN中不僅像素點本身分布具有非高斯性,其與相鄰點相乘后依舊具有這種特性。因此對MSCN分別計算水平、垂直、主對角線以及負對角線四對點的乘積,其乘積可由零均值非對稱廣義高斯函數(AGGD)進行擬合。零均值AGGD[13]和均值計算如下:

由于人眼視覺是多尺度的,所以對經過預處理后的圖像MSCN進行下采樣處理,再提取以上特征。文中將GGD擬合后的方差、形狀及AGGD擬合后的形狀、左右方差和均值作為第三類特征。


圖3 不同失真類型同一圖像不同差分平均主觀得分(DMOS)的MSCN值的歸一化分布Fig.3 Normalized distribution of MSCN offive distortions with different DMOS
為了得到圖像質量評價模型,需要在特征與主觀得分之間建立一種映射關系。文中選取SVR建立這種關系。采用林智仁等開發的LIBSVM軟件包(http://www.csie.ntu.edu.tw/ ~ cjlin/libsvm/)實現SVR,使用的核函數為徑向基(RBF)核。
首先采用LIVE數據庫,該庫共有29幅原始圖像和779幅失真圖像,包括5種失真類型:JP2K,JPEG,WN,Gblur和FF。該庫同時也提供每幅圖像的DMOS值作為客觀評價標準。為了測試文中方法與主觀得分的一致性,實驗選取兩種評價標準:反映預測單調性的Spearman等級次序相關系數(SROCC)與反映預測精確性的線性相關系數(LCC)。SROCC和 LCC值越接近1表明一致性越好。
為了比較,文中采用與文獻[1-5]相同的處理方法。實驗中隨機選取LIVE數據庫23幅原始圖像及其對應的失真圖像訓練,剩余6幅原始圖像及其對應的失真圖像測試,訓練圖像與測試圖像沒有交叉。共進行1 000次隨機選擇圖像訓練與測試,取中值作為最終結果,以消除隨機性帶來的偏差。表1和表2分別列出了實驗結果SROCC和LCC中值,并給出了僅使用能量或互信息作為輸入特征得到的結果,同時也給出了相關文獻報道結果。

表1 LIVE數據庫1 000次實驗后SROCC中值Tab.1 Median SROCC across 1 000 trials on LIVE IQA database

表2 LIVE數據庫1 000次實驗后LCC中值Tab.2 Median LCC across 100 0trials on LIVE IQA database
由表1和表2可以看出,文中方法在文獻[5]的基礎上融入能量和互信息特征,從像素、方向、尺度3個方面提取特征,可以在總體性能上提高主觀感知一致性;同時在5種失真類型上相對文獻[5]的結果均有不同程度的提高,并且在JPEG、Gblur失真類型上更優于其他文獻報道的結果。從單獨特征看,能量特征可對JP2K很好地評價,空域特征可對JPEG能作出很好評價,能量與互信息的組合可以彌補空域特征在FF失真上的不足,這說明文中所提取的三類特征是相互補充并且有效的。
由于文中方法是基于訓練的,為了說明該方法不依賴于訓練數據庫,實驗在與LIVE數據庫完全獨立的TID2008庫[14]上進行測試。TID2008庫包括24幅自然圖像和1幅合成圖像,共1 700幅失真圖像,同時也提供每幅圖像的平均主觀得分作為客觀評價標準。實驗選取24幅自然圖像,并僅選取其與LIVE數據庫中訓練對應的4種失真類型:JP2K,JPEG,WN和Gblur,共384幅失真圖像進行測試。
文中采用LIVE數據庫779幅失真圖像的特征訓練,再在TID2008庫上測試,所得實驗結果見表3。由表3可以看出,在總體性能上,文中方法在與LIVE數據庫完全獨立的TID2008庫上仍獲得最高SROCC值,相比于其他模型(如 NSS-TS,CurveletQA等),文中方法均有大幅度提高,這說明文中方法不依賴于訓練數據庫,具有可靠的適用性和推廣性;同時文中方法在WN和Gblur失真上優于其他模型結果,這也表明文中方法能很好地評價WN和Gblur這兩種失真類型。而對于JP2K和JPEG失真,文中方法略低于最優值,需要在今后工作中尋找能更好表示這兩種失真的特征。

表3 TID2008庫SROCC值Tab.3 SROCC on the TID2008 database
文中提出一種結合輪廓波域和空域特征的無參考圖像質量評價方法。通過利用輪廓波及空域在不同方面描述圖像能力的優點,從尺度、方向、像素3個方面分別提取輪廓波域互信息、能量以及空域特征,訓練SVR模型,得到一種新的無參考圖像質量評價方法。實驗結果表明,該方法具有較好的主觀一致性和可靠的推廣性,優于當前文獻報道相關方法。文中方法的不足之處在于需要提前對樣本進行訓練,下一步工作是構造質量評價公式,實現對圖像的直接評價。
[1]Moorthy A K,Bovik A C.Blind image quality assessment:from natural scene statistics to perceptual quality[J].IEEE Transactions on Image Processing,2011,20(12):3350-3364.
[2]GAO X B,GAO F,TAO D C,et al.Universal blind image quality assessment metrics via natural scene statistics and multiple kernel learning[J].IEEE Transactions on Networks and Learning Systems,2013,24(12):2013-2026.
[3]LIU L X,DONG H P,HUANG H,et al.No-reference image quality assessment in curvelet domain[J].Signal Processing:Image Communication,2014,29(4):494-505.
[4]Saad M A,Bovik A C,Charrier C.Blind image quality assessment:a natural scene statistics approach in the DCT domain[J].IEEE Transactions on Image Processing,2012,21(8):3339-3352.
[5]Mittal A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain[J].IEEE Transactions on Image Processing,2012,21(12):4695-4708.
[6]Do M N,Vetterli M.The contourlet transform:an efficient directional multiresolution image representation[J].IEEE Transactions on Image Processing,2005,14(12):2091-2106.
[7]Paninski L.Estimation of entropy and mutual information[J].Neural Computation,2003,15(6):1191-1253.
[8]Sheikh H R,WANG Z,Cornack L,et al.LIVE image quality assessment database release2[EB/OL].(2006-5-10)[2013-12-3].http://live.ece.utexas.edu/research/quality.
[9]Ruderman D L.The origins of scaling in natural images[J].Vision Research,1997,37(23):3385-3398.
[10]李任.基于變換域特征提取的無參考圖像質量評價方法研究[D].無錫:江南大學,2013.
[11]Ruderman D L.The statistics of natural images[J].Network Computation in Neural System,1994,5(4):517-548.
[12]Sharifi K,Garcia A L.Estimation of shape parameter for generalized gaussian distributions in subband decompositions of video[J].IEEE Transactions on Circuits and Systems for Video Technology,1995,5(1):52-56.
[13]Lasmar N E,Stitou Y,Berthoumieu Y.Multiscale skewed heavy tailed model for texture analysis[C]//Proceesing of 2009 16th IEEE International Conference on Image Processing.New York:IEEE,2009:2281-2284.
[14]Lukin N P V,Zelensky A,Carli M,et al.TID2008-a database for evaluation of full reference visual quality assessment metrics[J].Advances of Modern Radioelectronics,2009,10(5):30-45.