童 冰
(漳州職業(yè)技術(shù)學院信息工程學院,福建 漳州 363000)
隨著多媒體應用的迅速發(fā)展與普及,屏幕內(nèi)容圖像(screen content image,SCD)的處理和傳輸變得越來越重要. 屏幕內(nèi)容圖像(screen content image,SCI)是一種合成圖像,不僅包含計算機生成的圖形和文本,還包含數(shù)碼相機拍攝的自然圖像. 自然圖像具有豐富的顏色以及少量的顏色變化,而屏幕內(nèi)容圖像具有更多的細線、清晰的邊緣以及少量的顏色變化,在屏幕內(nèi)容圖像的獲取、壓縮及傳輸?shù)冗^程中不可避免地產(chǎn)生各種失真. 例如,在傳輸階段會產(chǎn)生噪聲失真;在不同設(shè)備中進行屏幕分享時,會產(chǎn)生對比度變化失真;在圖像壓縮時會產(chǎn)生偽像現(xiàn)象. 由此,有必要提出一種有效的圖像質(zhì)量評估算法來處理屏幕內(nèi)容圖像. 根據(jù)參考原始圖像信息的程度,圖像質(zhì)量評估算法可分為3種類型:無參考(no reference,NR)型、半?yún)⒖?reduce reference,RR)型以及全參考(full reference,FR)型.
如何客觀地評估圖像質(zhì)量,并確保從算法中得到的結(jié)果與人類視覺系統(tǒng)的感知具有較高的一致性,是圖像質(zhì)量評估算法的關(guān)鍵所在. 峰值信噪比(PSNR)算法和均方誤差(MSE)算法僅考慮像素強度之間的差異,未考慮人類視覺系統(tǒng)的特點,得出的結(jié)果不能與主觀感知產(chǎn)生較高的一致性[1-2]. 結(jié)構(gòu)相似性度量(SSIM)[2]、梯度相似性度量(GSIM)[3]、特征相似性度量(FSIM)[4]及信息加權(quán)的SSIM(IW-SSIM)[5]等算法加入了對人類視覺系統(tǒng)特點的考慮. 進一步考慮到具有清晰邊緣和輪廓的圖像內(nèi)容對人類視覺系統(tǒng)更為敏感,許多學者提出基于邊緣信息的圖像質(zhì)量評估算法[6-8]. Xue等[7]提出了梯度幅度相似度偏差(GMSD)的算法,僅使用梯度幅度相似度來表示圖像質(zhì)量,復雜度非常低. Sheikh等[9]通過量化圖像信息的丟失及丟失的信息與圖像質(zhì)量之間的關(guān)系,提出一種視覺信息保真度算法(VIF). 根據(jù)屏幕內(nèi)容圖像的特點,Yang等[10]構(gòu)建了一個用于屏幕內(nèi)容圖像質(zhì)量評估算法研究的大型數(shù)據(jù)集SIQAD,通過分析文本區(qū)域和圖像區(qū)域的特點,提出全參考算法SPQA. Fang等[11]提出SFUW算法,將圖像分割為圖像區(qū)域和文本區(qū)域,分別提取亮度特征和結(jié)構(gòu)特征,進行相似度計算以獲得圖像的視覺質(zhì)量. Ni等[12]構(gòu)建了一個更大型的數(shù)據(jù)集SCID,并利用邊緣的3種特性計算失真圖像和參考圖像的相似性,得到圖像的質(zhì)量分數(shù). Gu等[13]在SSIM算法的基礎(chǔ)上加入對結(jié)構(gòu)退化的測量,提出SIQM算法. 以上算法均為全參考算法,可與主觀感知產(chǎn)生較高的一致性,然而需要完整的原圖信息,在實際應用中存在較大的局限性.
無參考算法不需要任何原始圖像的信息,具有更大的應用前景. Fang等[14]結(jié)合局部紋理特征和全局亮度特征來表示失真圖像信息,提出一種無參考算法NRLT. Gu等[15]分別提取圖像復雜度、亮度信息、清晰度及屏幕內(nèi)容統(tǒng)計信息4類特征,來評估失真圖像的質(zhì)量. Shao等[16]利用稀疏表示框架提出一種無參考算法BLIQUP-SCI.
本文結(jié)合邊緣與亮度對圖像質(zhì)量的影響,提出一種新的無參考屏幕內(nèi)容圖像質(zhì)量評估算法NRSVR. 由于人類視覺系統(tǒng)對邊緣信息高度敏感[17-18],而邊緣是屏幕內(nèi)容圖像中文本區(qū)域和圖像區(qū)域中高頻部分的基礎(chǔ)組成成分,因此,NRSVR算法利用兩個具有不同標準差的高斯核提取失真圖像的邊緣信息,利用頻率分布直方圖統(tǒng)計圖像的邊緣特征. 同時,因亮度信息的變化也與圖像的視覺感知高度相關(guān)[19-20],故本算法通過局部歸一化失真圖像,去除視覺場景中的冗余信息[21],提取圖像的亮度信息,利用頻率分布直方圖統(tǒng)計圖像的亮度特征. 最后,選擇支持向量回歸作為映射函數(shù),將提取的質(zhì)量感知特征映射為主觀質(zhì)量分數(shù). 在兩個數(shù)據(jù)集上的實驗結(jié)果表明,所提的NRSVR算法可與主觀感知產(chǎn)生較高的一致性,效果比現(xiàn)有的大部分圖像質(zhì)量評估算法更優(yōu)秀.
屏幕內(nèi)容圖像亮度和邊緣信息的變化會影響圖像的視覺質(zhì)量[10,12]. 屏幕內(nèi)容圖像和自然圖像的主要差別是屏幕內(nèi)容圖像中存在文本區(qū)域,人們?nèi)菀钻P(guān)注并理解圖像中的文字部分. 因此,本文利用邊緣和亮度信息來捕捉圖像的失真信息,算法框架如圖1所示. 首先,通過高斯差分函數(shù)計算失真圖像的邊緣圖,統(tǒng)計得到圖像的邊緣特征;接著,利用局部歸一化算法計算失真圖像的亮度圖,統(tǒng)計得到失真圖像的亮度特征;最后,利用支持向量回歸訓練感知質(zhì)量特征到主觀質(zhì)量分數(shù)的映射函數(shù). 在特征提取中,根據(jù)特征提取的先后順序,邊緣特征提取比亮度特征提取更為重要,因而實際過程中先從邊緣特征提取出發(fā).

圖1 NRSVR算法框架Fig.1 Framework of NRSVR algorithm
文獻[22]表明,利用高斯差分函數(shù)可有效提取圖像的邊緣信息. 將帶有不同標準差的高斯核相減,并將相減后的結(jié)果與失真圖像進行卷積運算,由此獲得失真圖像的邊緣圖,計算公式如下:
E(x,y)=|Gσ1,σ2(x,y)?I(x,y)|,
(1)
式中,“?”表示卷積運算;I(x,y)表示圖像中位置(x,y)處的像素值;E表示得到的邊緣圖;σ1和σ2為高斯核的標準差;Gσ1,σ2(x,y)表示帶有不同標準差的高斯核的差,計算公式為:
Gσ1,σ2(x,y)=G(x,y;σ1)-G(x,y;σ2).
(2)
G(x,y;σ)表示帶有標準差σ的高斯核,計算公式為:
(3)
直接利用頻率分布直方圖對圖1的絕對值進行統(tǒng)計,得到失真圖像的邊緣特征. 將直方圖分組個數(shù)設(shè)置為10,可用一個10維向量{f1,f2,…,f10}來表示邊緣特征,計算公式如下:
(4)

(5)
式中,k表示特征向量中的第k個元素,范圍是[1,10];X和Y分別表示圖像的長度和寬度;z(k)表示直方圖第k個分組的取值范圍.
亮度信息可很好地反映出圖像的失真信息,進而捕捉到圖像質(zhì)量的變化[14]. 本文利用局部歸一化計算圖像的亮度圖:
(6)

(7)
(8)
式中,(x,y)為像素位置;I(x,y)為位置(x,y)處圖像I的像素值;I′(x,y)為圖像I歸一化后位置(x,y)處圖像I的像素值;C為常數(shù),防止分母為零;M和L為歸一化窗口大小,設(shè)M=L=7;ω(m,l)是一個二維圓形對稱高斯加權(quán)函數(shù).
利用頻率分布直方圖對圖I′的絕對值進行統(tǒng)計,得到失真圖像的亮度特征. 同樣將直方圖的分組個數(shù)設(shè)置為10,用一個10維向量{t1,t2,…,t10}來表示亮度特征,用式(4)和(5)來計算向量中的元素.
由于方向信息也可表示視覺場景中的內(nèi)容[23-24],且相鄰像素間的規(guī)律也會因失真的出現(xiàn)而發(fā)生變化[21],因此,在提取亮度特征時加入對相鄰像素間關(guān)系的考慮. 將圖I′中的像素點沿水平、垂直、主對角線和副對角線4個方向相乘,如圖2所示,可得4張亮度圖,計算公式為:

圖2 像素對沿4方向的乘積Fig.2 The product of pixel pairs in four directions
H(x,y)=I′(x,y)I′(x,y+1),
(9)
V(x,y)=I′(x,y)I′(x+1,y),
(10)
D1(x,y)=I′(x,y)I′(x+1,y+1),
(11)
D2(x,y)=I′(x,y)I′(x+1,y-1).
(12)
利用式(4)和(5)對圖H、V、D1和D2進行特征統(tǒng)計,式(4)中x∈{1,2,…,X-1},y∈{1,2,…,Y-1},因而可得40維特征向量,加上上一步驟的10維向量,對于每張失真圖像,可用一個50維向量來表示圖像的亮度信息. 圖3顯示了一張典型的屏幕內(nèi)容圖像以及3種失真類型圖像,及其各自對應的邊緣圖、亮度圖和特征直方圖.

圖3 特征圖和直方圖示例Fig.3 Example of characteristic graph and histogram
由上述計算方法,一張失真屏幕內(nèi)容圖像可在一個尺度上得到一個60維的特征向量,分別包括一個10維邊緣特征向量和一個50維亮度特征向量. 由于人類視覺系統(tǒng)獲取圖像內(nèi)容過程是由粗略到細致[25],要更好地表示圖像特征,需從3個尺度上對圖像進行特征提取,總共可得一個180維的特征向量來表示失真圖像信息. 選擇具有徑向基函數(shù)內(nèi)核的SVR作為映射函數(shù),將所提取的質(zhì)量感知特征映射為質(zhì)量分數(shù). 操作中,隨機選擇數(shù)據(jù)集中80%的數(shù)據(jù)(16張原始圖像對應的失真圖)作為訓練集,剩余的(4張原始圖像對應的失真圖)作為測試集. 實驗執(zhí)行1 000次,將所得數(shù)據(jù)的中位數(shù)作為圖像的最終質(zhì)量分數(shù).
SIQAD數(shù)據(jù)集[10]包含20張參考圖像和980張失真圖像,共分為7種失真類型(即JPEG壓縮(JPEG)、高斯噪聲(GN)、基于層劃分的壓縮(LSC)、JPEG2000壓縮(J2K)、高斯模糊(GB)、運動模糊(MB)和對比度變化(CC)),每種失真類型又有7種失真等級. SCID數(shù)據(jù)集[6]包含40張參考圖像及1 800張失真圖像,共分為9種失真類型(即GN、GB、MB、CC、JPEG、J2K、具有抖動的顏色量化(CQD)、高效視頻編碼-屏幕內(nèi)容編碼(HEVC-SCC)和顏色飽和度變化(CSC)),每種失真類型又有5種失真等級.
如圖3所示,a為屏幕內(nèi)容圖像,其中a(1)是參考圖像,a(2)~a(4)分別為高斯噪聲圖、高斯模糊圖、JPEG圖;b和d分別為與a一一對應的邊緣圖和亮度圖;c和e分別是與a一一對應圖像的邊緣特征直方圖和亮度特征直方圖.
本文使用皮爾森線性相關(guān)系數(shù)(PLCC)、斯皮爾曼等級相關(guān)系數(shù)(SROCC)和根均方誤差(RMSE)來評估算法的性能. PLCC、SRCC和RMSE可評估預測結(jié)果的準確性、單調(diào)性和一致性. 其中,PLCC和SRCC值越高,算法的性能越好;而RMSE的值越低,算法性能越好. 3個指標的計算公式如下:
(13)
(14)
(15)

由于不同的圖像質(zhì)量評估方法會產(chǎn)生不同的分數(shù)范圍,本文使用邏輯斯蒂函數(shù)將圖像質(zhì)量分數(shù)非線性回歸到共同的分數(shù)空間:
(16)
式中,a1、a2、a3、a4、a5表示5個擬合參數(shù).
為了驗證NRSVR算法的優(yōu)越性,將NRSVR算法與其他經(jīng)典圖像質(zhì)量評估算法在SIQAD數(shù)據(jù)集和SCID數(shù)據(jù)集上進行對比,算法分別為:PSNR、SSIM[2]、VIF[9]、SPQA[10]、GSS[26]、ESIM[12]、NIQE[27]、DIIVINE[28]、BRISQUE[21]、BQMS[29]、SIQE[15]、ASIQE[15]、IL-NIQE[30]、BLIINDS-II[31]、BLIQUP-SCI[16]和NRLT[14].
表1中所示為NRSVR算法與其他無參考算法在SCID數(shù)據(jù)集上的實驗結(jié)果. 從表1可以看出,針對屏幕內(nèi)容圖像設(shè)計的算法BLIQUP-SCI、BQMS、SIQE、ASIQE、NRLT和NRSVR均取得了比其余針對自然圖像設(shè)計的算法更好的性能,說明由于兩者在圖像內(nèi)容上存在明顯差別,因此針對自然圖像設(shè)計的算法不能直接應用于屏幕內(nèi)容圖像. 同時,NRSVR算法在3個指標上均取得最優(yōu)值,且PLLC值比其他算法中的最優(yōu)值高了將近20%.

表1 NRSVR算法與其他無參考算法在SCID數(shù)據(jù)集上的實驗結(jié)果Table 1 Experimental results of NRSVR algorithm and other unreferenced algorithms on SCID dataset
將NRSVR算法與其他算法在SIQAD數(shù)據(jù)集上進行比較,如表2所示. 表2不僅列出了算法的整體性能,還列出了每種失真類型的實驗結(jié)果,其中”ALL”一行表示將所有失真類型混合在一起時的整體性能.
從表2可以看出,全參考算法算法普遍可以取得比無參考算法更好的性能,這是由于全參考算法使用了參考圖像的信息,其中ESIM算法的3個指標在所有對比方法中最優(yōu). NRSVR算法的整體性能在所有無參考算法中最優(yōu),超過了大部分的全參考算法,且在單個失真類型上的性能在無參考算法中大部分也是最優(yōu)的.

表2 NRSVR算法與其他全參考或無參考算法在SIQAD數(shù)據(jù)集上的實驗結(jié)果Table 2 Experimental results of NRSVR algorithm and other all reference or no reference algorithms on SIQAD dataset
將質(zhì)量感知特征分為邊緣特征和亮度特征,單獨利用這兩個特征來訓練評估模型,實驗結(jié)果如表3所示. 從表3可以看出,當結(jié)合使用兩個特征時,算法性能最好.

表3 兩個數(shù)據(jù)集上不同特征的實驗結(jié)果Table 3 Experimental results of different features on two datasets
本文根據(jù)人類視覺系統(tǒng)對圖像中邊緣和亮度信息敏感的特點,提出一種基于SVR的無參考屏幕內(nèi)容圖像質(zhì)量評估算法NRSVR,利用高斯差分函數(shù)計算失真圖像的邊緣圖,通過局部歸一化計算失真圖像的亮度圖,使用頻率分布直方圖對邊緣圖和亮度圖進行特征提取,利用支持向量回歸將提取的質(zhì)量感知特征映射為主觀質(zhì)量分數(shù). 實驗結(jié)果表明,在預測失真圖像質(zhì)量上,NRSVR算法可以取得比大部分算法更高的準確性.