王學珍,劉 昱,李器宇,汪少初
(天津大學電子信息工程學院,天津 300072)
圖像質量評價(Image Quality Assessment,IQA)屬于信號處理學科中較為年輕的領域,分為主觀評價和客觀評價兩種方式。主觀評價方式講究樣本采樣,以樣本分布模擬總體分布,把參與評價的主體的平均打分作為圖像質量主觀評分(Mean Opinion Score,MOS)[1-3]。主觀評價因為評價周期長、參與人數多、對主客觀條件均要求嚴格,不利于在實踐中推廣。與之相反,客觀評價方式借助高性能計算機和基于人類視覺模型的算法設計,不僅能快速給出始終一致地圖像質量評分,而且方便嵌入其他工程應用[4]。近些年,研究者們對IQA客觀算法的設計與改進取得了不少優秀成果。然而,針對客觀算法的準確性評估一直都存在爭議。
Richard Dosselmann[5]對IQA算法中獲得廣泛應用的結構相似度[6](Structural Similarity index,SSIM)算法與均方誤差(Mean Squared Error,MSE)算法進行統計分析和主觀比較研究之后發現,上述兩種算法的性能有很多相近的地方。這與文獻[6]和文獻[7]的結論不同。此后,他與Xue Dong Yang合作[8]為SSIM算法和MSE算法的度量值建立了代數關系式,更進一步拉近了兩種算法之間的關系。以上成果提供了審慎反思的新視角,它對IQA算法中僅憑少數個例,或通過缺乏可信度的統計分析而得到的結論提出了質疑。為了給不同的IQA算法做準確評估,Hamid Rahim Sheikh 等[7]和 Nikolay Ponomarenko 等[9]采取了相同的策略,他們分別設計了LIVE database圖片庫和TID2008圖片庫來代表各種圖像內容和失真類型,以對應圖像的MOS值作為評估IQA算法的依據。不同的是,Sheikh[7]提出首先用1個含5個參數的Logistic方程做數據的非線性回歸擬合,然后選用3種性能度量指標分別做評估;不足之處在于Logistic方程缺乏普遍意義,以及3種性能指標的統計學意義含重復的部分;Nikolay Ponomarenko[9]則直接選用Spearman相關系數和Kendall相關系數對各算法分別進行排序,這2個統計指標顯得過于粗糙、簡陋。
視頻質量專家組(Video Quality Experts Group,VQEG)作為推進視頻質量評價VQA(Video Quality Assessment),由于VQA與IQA的評估標準相同,本文中一律用IQA代替)領域的專家組織,前后推出3次針對視頻質量評價算法評估的報告[1-3]。在統計分析策略方面,新報告相比之前版本均有變動。最新版本報告[1]的策略為:首先用1個保證單調遞增的含4個參數的三次多項式方程做為數據的非線性回歸擬合;然后選用3種性能度量指標分別從不同角度做評估。該報告未提供三次多項式方程形式的非線性回歸擬合的具體實施過程。
針對VQEG提供的IQA算法評估策略中未作說明的,三次多項式形式的非線性回歸擬合過程開展研究,力爭探索一種客觀評估IQA算法性能的方法。本文選用TID2008圖片庫[9]及其MOS數據作為實驗素材,以峰值信噪比(PSNR,Peak Signal to Noise Radio)、SSIM[6]和多尺度 SSIM[10](MSSIM,Multi-scale SSIM)3 種算法為評估的對象舉例,給出了基于有約束最小二乘法的曲線擬合過程。
主觀評價被認為是評價圖像質量最有效力、最可信賴的方式[11]。因此,本文認為對IQA算法做評估的過程就是衡量IQA算法度量值與主觀評分的相似度和差異度的過程。本文僅對圖像逼真度(Image Fidelity)感興趣,因此只涉及全參考IQA算法的質量評估。其中所采用的三次多項式形式的回歸映射函數和3個性能指標,均參照VQEG[1]的做法;考慮到TID2008數據庫中MOS值的獲取途徑,原始圖像(或參考圖像)的MOS值存在缺失,因此,將文獻[1]中出現DMOS值的位置用失真圖像的MOS值代替。
回歸映射函數的方程形式為

式中:要求式(1)在x定義域范圍內保持單調遞增。
1.2.1 Pearson相關系數(R)

式中:Xi代表主觀評分(MOS值);Yi代表客觀評分(MOSp值);N代表參與評估的圖像總數。Pearson相關系數R衡量了一種算法輸出的預測值與主觀數據之間的線性關系,值越大,表示算法的單調性越好。
1.2.2 均方根誤差(RMSE)

式中:N代表參與評估的圖像總數;d表示映射函數方程中自由度的個數,文中d=4。RMSE描述了IQA算法的準確度,值越小,算法的準確度越高。
1.2.3 離散率(Outlier Radio,OR)

式中:1個有效的離散點是滿足式(5)約束條件的點。

式中:K2=1.96,σ (mos(i))表示與第i幅圖像相關的標準差;Nsubjs=33,表示參與評價第i幅圖像的人數[8]。OR表征了IQA算法評分與主觀評分的一致程度,值越小,算法與主觀評分的一致性越好。
考慮到IQA算法的目的是為了模擬人眼視知覺的判斷,本文選定將均方根誤差最小化作為回歸映射函數的直接目標。將IQA算法應該滿足的基本假設為:圖像質量越高,即MOS值越大,算法度量值(MOSp)應該越大。因此,在定義域內保持單調遞增是回歸映射函數需要滿足的約束條件。因為均方根運算不影響函數的單調性,所以目標函數的形式可簡化為

將公式(1)代入式(6),得

式中:f為因變量,對任何i值,MOS(i)均為常量。以上述形式充當目標函數的方法即為最小二乘法。
當將x作為自變量考慮時,x的定義域可歸一化為[0,1]區間,顯然公式(1)為連續函數,為了使MOSp(x)在x的定義域內滿足單調遞增,當且僅當MOSp(x)的一階導數MOSp'(x)在[0,1]區間滿足

式中:目標函數和約束不等式十分復雜。參考文獻[12-15]中提及該目標函數和約束條件既不屬于多元線性回歸問題,也不屬于簡單的曲線擬合和非線性回歸的范疇。從回歸分析的角度來看,其可定性為有約束的線性回歸問題,此時 a,b,c,d 為待求變量。
當將a,b,c,d看作自變量重新考慮上述過程時,發現公式(8)即為線性約束條件。離散情況下,當x的數據量足夠大時,若對每一個x值,均有公式(8)成立,那么可近似認為MOSp(x)在[0,1]區間上單調遞增。當然,前者為后者的必要不充分條件,結果是否符合預期需要驗證。簡言之,對第i幅圖像(i=1,2,…,N),使每一個 MOSp(xi)均滿足公式(8),同時最優化目標函數(7)的值最小,最后通過查看映射函數曲線來反過來驗證函數MOSp(x)是否單調。上述即為本文采取的策略,可用數學模型表達為

式中:C 和A 為矩陣;d,b,lb,ub和x為矢量,其中x=[a,b,c,d]為待求變量。
實驗平臺采用Matlab實現,其數學模型為

式中:C,A 和 Aeq 為矩陣;d,b,beq,lb,ub 和 x 為矢量,其中x為待求變量。
對本文而言,各參數的含義如下:x=[d,c,b,a]T,,y為某一IQA算法1700 ×1維的度量值其中 mosi表示對應第i幅圖像的MOS 值,Aeq=beq=[],lb=[-Inf,-Inf,-Inf,- Inf],ub=[Inf,Inf,Inf,Inf]。上述符號均按Matlab語言表述,由此解得的自變量x即為公式(1)中映射函數的系數。
根據PSNR、SSIM和MSSIM三種算法基于TID2008數據庫的計算結果,使用Matlab優化工具箱擬合得到的回歸映射函數分別為

式中:psnr_t=psnr/50,使得psnr_t值中99.94%的比例落在區間[0,1]之間。
PSNR、SSIM和MSSIM 3種算法的散點圖和回歸映射函數曲線如圖1所示。圖1的橫坐標分別表示圖像的PSNR、SSIM和MSSIM 算法歸一化到[0,1]區間的度量值,這些度量值通過對TID2008圖像庫的失真圖像及其參考圖像應用各算法計算得到;縱坐標表示圖像的MOS值,數據直接取自TID2008圖像庫[9],0值表示主觀判斷圖像質量最差,9表示最好。如果存在理想算法,那么在圖1的坐標系下其散點將全部分布在第1象限的某條直線上。觀察圖1中曲線可知,根據此方法得到的映射函數的確在數據定義域內單調遞增。

圖1 3種算法的散點圖和其映射函數曲線
實驗所得的統計參量如表1,表2所示。表1為不同算法的統計參量絕對值。該組數據顯示,3種算法與MOS值之間的線性相關系數R全部低于90%,RMSE平均相差0.7個等級(全部為0~9共10個等級),OR系數顯示有至少94%以上的算法度量誤差閾值大于人眼。表2列出了不同算法的相對差異程度,用0和1表示,0表示兩種算法的差異不明顯,1表示兩種算法間存在顯著的差異。由以上兩組數據可以得到3種算法的性能排序,但是其結果與人眼判斷的MOS值差距很大,均不能令人滿意。這組性能指標與文獻[6-7]的實驗數據相比,數據意義簡單、明確,對客觀地理解和判斷IQA算法的性能有所幫助。

表1 統計參量的絕對值

表2 統計參量Pearson CC,RMSE及OR的相對差異顯著程度
上述實驗結果表明,目前主流的IQA算法與主觀評價值之間差異較大,圖像的客觀評價算法仍有待進一步提高性能。本文提供了一種衡量圖像客觀評價與主觀評價之間差異的方案,為圖像評級研究提供了幫助。應該指出,本文的方法還有待完善,如公式(1)不一定滿足在[0,1]整個區間內單調遞增,具體單調區間受算法的度量值 x的上下限 xmin、xmax影響,只能滿足在[xmin,xmax]區間內的單調遞增,下一步研究將對該曲線擬合方法繼續完善。
本文針對VQEG對IQA算法的評估策略,采用基于有約束最小二乘法的數學模型,對算法數據的三次多項式形式非線性回歸擬合過程求解。建議的方法約束條件為線性,所以求解過程效率高,可以為研究IQA算法提供性能比較的實驗平臺。
[1]VQEG.Final report from the video quality experts group on the valida-tion of objective models of multimedia quality assessment,phase I[DB/OL].(2008-09-12)[2011-07-21].http://www.vqeg.org.
[2]VQEG.Final report from the video quality experts group on the validation of objective models of video quality assessment,phase I[DB/OL].(2000-03-03)[2011-07-21].http://www.vqeg.org.
[3]VQEG.Final report from the video quality experts group on the validation of objective models of video quality assessment,phase II[DB/OL].(2003-08-25)[2011-07-21].http://www.vqeg.org.
[4]李永強,沈慶國,朱江,等.數字視頻質量評價方法綜述[J].電視技術,2006,30(6):74-77.
[5]DOSSELMANN R.An evaluation of existing and emerging digital image and video quality metrics[D].Canada:University of Regina,2006.
[6]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[7]SHEIKH H R,SABIR M F,BOVIK A C.A statistical evaluation of recent full reference image quality assessment algorithms[J].IEEE Transactions on Image Processing,2006,15(11):3440-3451.
[8]DOSSELMANN R,YANG X D.A comprehensive assessment of the structural similarity index[J].Signal,Image and Video Processing,2011,5(1):81-91.
[9]PONOMARENKO N,LUKIN V,ZELENSKY A,et al.TID2008 – a database for evaluation of full-reference visual quality assessment metrics[J].Advances of Modern Radioelectronics,2009,10:30-45.
[10]WANG Z,SIMONCELLI E P,BOVIK A C.Multiscale structural similarity for image quality assessment[C]//Proc.the 37th IEEE Asilomar Conference on Signals,Systems and Computers.[S.l.]:IEEE Press,2003:1398-1402.
[11]BOVIK A.The essential guide to image processing[M].Salt Lake City:Academic Press,2009:553-595.
[12]斯皮格爾,希勒,斯里尼瓦桑.概率與統計[M].孫山澤,戴中維,譯.2版.北京:科學出版社,2002.
[13]何曉群.實用回歸分析[M].北京:高等教育出版社,2008.
[14]DOUGLAS M,DONALD G.非線性回歸分析及其應用[M].韋博成,萬方煥,朱宏圖,譯.北京:中國統計出版社,1997:1-71.
[15]MATHEWS J,FINK K.數值方法:MATLAB版[M].周璐,陳渝,錢方,等,譯.4版.北京:電子工業出版社,2005:195-213.