李國濤,楊忠,張馳,朱儻,許昌亮
南京航空航天大學 自動化學院,江蘇 南京 211106
在過去的幾年里,隨著計算機和互聯網技術的發展速度大大加快,多媒體技術的發展也有較大的進步。然而,在多媒體系統中,數字圖像在采集、處理、壓縮、存儲和傳輸等過程中存在的失真會導致圖像質量的下降[1]。因此,在圖像處理領域中,對一張圖像的質量進行評分已然成為一個關鍵的課題研究。
圖像質量評價( image quality assessment,IQA)可用于如圖像去噪、圖像重建、圖像合成和視頻編碼等許多圖像處理應用當中。根據利用參考圖信息的情況,IQA 分為全參考(full-reference)、半參考(reduced-reference)和無參考(no-reference)3 種類型[2]。其中,第3 種無參考的圖像質量評價(no-reference image quality assessment, NR-IQA)算法是最具有廣泛適用性的,原因是實際應用中往往沒有無失真的圖像可供全參考或半參考的算法作為參考。
早期的NR-IQA 方法利用從圖像中提取的一些基于經驗觀察的特征[3-6]來評價圖像質量,但這種方法效果一般,這就表明了這些手工特征存在著一定的局限性。而深度學習方法可以使用卷積層來提取圖像的特征,然后利用全連接層將特征映射到質量分數[7-9]。Kang 等[10]提出的IQA_CNN利用卷積神經網絡獲取圖像特征,并將圖像分割成若干圖像塊來訓練模型從而實現圖像質量評價。Liu 等[11]提出RankIQA 對網絡進行訓練之前,首先對失真圖像集的質量進行了排序,才用于網絡的訓練,然后為了訓練更深的網絡,利用了遷移學習技術。通過生成圖像這一方式,RankIQA模型可以實現訓練數據的增加。由于NR-IQA 沒有參考圖作對比,Ren 等[12]提出的RAN4IQA 首先生成未失真的原圖,然后用類似全參考的評價方式獲得質量分數,即利用了生成式對抗網絡(generative adversarial networks,GAN)的思想,也取得了不錯的效果。Su 等[13]提出了一個自適應網絡架構的hyperIQA,該方法為了提取圖像的深層語義特征,用到了ResNet50 網絡,然后利用超網絡建立起感知規則,該感知規則又被應用于質量預測網絡。Yan 等[14]雖然也提出用2 個分流網絡來增強對圖像特征的提取,取得了一定的效果,但是由于其將圖像分割成32×32 的小圖像塊而過多忽略了整體圖像本身所含有的信息,且為了反映圖像結構而使用的梯度圖在失真程度較弱時變化不明顯,因此存在一定的局限性。
基于以上分析,考慮到圖像質量評價數據集的數據量不充足以及圖片失真非均勻性的問題,本文針對無參考圖像質量評價的問題提出了一種基于Gabor 濾波的并行網絡深度學習算法,并在LIVE 和TID2013 數據集上進行實驗,以證明該算法的有效性。
考慮圖像的失真可能存在著非均勻性,即在輸入圖像的不同部分中,失真類型和失真程度通常會有所不同。針對該問題,本文利用可提取空間局部頻域特征的Gabor 濾波器[15]來獲取邊緣圖片。同時,針對圖像數據量的不足,采取圖片切塊的方式增大數據量以便深度神經網絡的訓練學習。因此,在網絡訓練之前,要對圖片進行邊緣圖像的獲取以及切塊的預處理。
Gabor 濾波器實質上是一種小波。早在1946 年,一維Gabor 函數便由英國物理學家Gabor 率先提出。直到1980 年,將Gabor 的一維形式擴展到二維[16]才被DAUGMAN 提出。通過設置不同的參數,Gabor 濾波器可以在不同尺度、不同方向上的進行濾波,能有效地提取圖像的邊緣特征,感知紋理信息。文獻[17]中的生物研究表明,哺乳動物大腦皮層存在著用于實現視覺機制的感受細胞,而Gabor 小波也具有這樣的性質,這和NR-IQA 領域追求質量評分與人類視覺系統一致的目的有了共同的特性。由復正弦波調制的橢圓高斯包絡線組成的二維Gabor 濾波器,不僅對輸入圖像局部區域的頻率有著一定的敏感程度,對空間頻率也有著一定的敏感性。Gabor 函數表達式如下:
式中:
實數部分表達式為
虛數部分表達式為
不同的Gabor 參數生成的濾波器不同。本文各參數取值如下: λ為濾波器波長,取值為3; θ為濾波器方向,取值范圍是0~π; ψ為正余弦因子參數的相位偏移,取值為0; σ為Gabor 函數的高斯因子標準差,取值為1.5; γ為空間縱橫比,取值為1.2。
從圖1 和圖2 可以看出,未失真圖片在經過Gabor 濾波器之后,獲得的邊緣特征更為細致,而失真圖像的邊緣特征相對來說就缺失了許多,這就說明了Gabor 濾波對圖像失真引起的邊緣損失比較敏感。

圖1 失真圖及其邊緣圖

圖2 未失真圖及其邊緣圖
獲取灰度圖和邊緣圖片后,考慮深度神經網絡的訓練需要充足的數據量,對圖像進行切塊處理,且一張圖上切塊形成的多張新圖像塊的對應質量分數也取原圖像的分數,以此達到增強數據集的目的。同時為了保證原圖像的每一部分都能夠作為切塊后的數據集使用,并且切塊后的圖像相互之間沒有重疊的部分。那么,切塊圖像的尺寸大小應該是原圖像長寬的公約數,所以切塊后的尺寸設為128×128。圖像切塊方式如圖3 所示,若一個數據集的圖像大小為384×384,經切塊處理得到128×128 大小的圖像塊,可使得整體數據量擴為原來的9 倍,便于深度網絡的訓練學習。
訓練完成的模型對一張圖片進行分數預測時,整張圖像的質量分數是取其所有圖像塊分數的平均值,公式如下:
式中:q為預測圖片的分數,Np為該圖像切割的圖像塊數,xi、gi分別為輸入圖像塊的灰度圖與邊緣圖,f為由圖像塊xi、gi到質量分數q的映射關系。
本文旨在通過一個并行網絡來學習視覺外觀與圖像質量間的復雜關系。目前,大多數的NRIQA 方法只是使用圖片的灰度圖像或者RGB 圖像作為輸入。相比之下,本文考慮了大多數失真可能導致圖片邊緣結構信息損失的問題,在以灰度圖片為輸入的分支網絡主要學習圖像各像素的強度等特征的同時,也利用另一個分支網絡去重點學習邊緣圖像的結構特征。由于邊緣圖像更能反映圖片中高頻分量由于失真導致的損失情況,如此一來,利用并行網絡學習到的多重融合的特征則更能反映圖像質量的情況,再回歸預測后得到的分數也就更貼合人類的視覺感知。
本文的特征提取網絡是選取改進后的VGG16。為了在提高網絡擬合能力的同時,進一步減少參數,經典的VGG16 網絡[18]采用了多個較小卷積核(3×3)的卷積層來增加非線性映射的數量,但是其要求輸入圖片大小224×224,而本文圖像塊大小為128×128。因此,本文只采用VGG16網絡前面的圖像特征提取部分。
本文的特征提取網絡結構如圖4 所示。該網絡共包含了13 個卷積層和5 個最大池化層,針對輸入128×128 大小的圖像塊,充分提取其圖像特征,最終得到圖4 中4×4×512 的圖像特征。
針對并行的特征提取網絡獲得的多重融合的特征,需要將其映射到與人的視覺感觀相一致的質量分數。NR-IQA 并行網絡結構如圖5 所示,針對特征提取網絡從灰度圖像塊和邊緣圖像塊獲得的2 個4×4×512 的特征量,將其擴展成2 個1×1×8 192的特征向量后,分別各自通過1 個8 192×512 的全連接層獲得2 個1×1×512 的特征向量,將2 者連接起來形成1 個1×1×1 024 的特征向量;然后經過1 個1 024×256 的全連接層,得到1×1×256 的特征向量;最后經過256×1 的全連接層,獲得最終的圖像質量預測分數。

圖5 NR-IQA 并行網絡
本節將所提出的NR-IQA 并行網絡算法在公開數據集LIVE[19]和TID2013[20]上進行實驗來驗證其有效性。
數據集LIVE 共包含779 張失真圖像,大多數圖像大小為768×512,這些失真圖像是由25 張未失真圖像經過5 種不同類型失真在不同失真級別上所生成的,所有圖像質量的平均意見得分(direrential mean opin-ion score,DMOS)都在一個[0,100]范圍,如圖6 所示。其中DMOS 越高,表示失真程度越高,也就說明圖像質量越低。數據集TID2013 共有3 000 張失真圖像,大多數圖像大小為512×384,這些失真圖像是由25 張原始圖像通過非偏心圖像噪聲、壓縮失真(如JPEG)等24 類不同失真所形成的,如圖7 所示。每張圖像的平均意見得分(mean opin-ion score,MOS)值都在[0,9]內,其中較低的MOS 表示失真程度較高,也就說明圖像質量越低。

圖6 LIVE 數據集圖像

圖7 TID2013 數據集圖像
評價指標采用了用于評價模型預測準確性的斯皮爾曼秩相關系數(Spearman rank order coefficient,SROCC)、評價單調性的皮爾森線性相關系數(Pearson linear correlation coefficient,PLCC)、評價相關一致性的肯德爾秩次相關系數(Kendall rankorder correlation coefficient,KROCC)和評價偏差程度的均方根誤差(root mean squared error,RMSE)。其中,SROCC 和PLCC 這2 點指標最為重要,兩者取值范圍均為[0,1],值越接近1,表明模型效果與人眼主觀視覺的一致性越好。
本文實驗平臺的配置如表1 所示。

表1 實驗平臺相關配置
根據平臺硬件設備性能,本實驗將訓練集與測試集比例設為8∶2,網絡輸入圖像大小設為128×128,將網絡訓練的批尺寸(batch size)、迭代次數(epoch)和初始學習率(learning rate)分別設為32、150 和0.000 1,更新一次學習率的步長(step size)為30,更新學習率的乘法因子(gamma)為0.9。
利用所提出的基于Gabor 濾波的并行網絡NR-IQA 算法在LIVE 數據集上進行消融實驗,以證明使用128×128 的圖像塊作為輸入、采用邊緣圖像的并行網絡以及利用Gabor 濾波獲取邊緣圖像這3 點對圖像質量預測是積極有效的。
實驗數據如表2 所示。消融實驗一共分為4 組,分別為:1)G_Net_128:表示采用128×128 大小的灰度圖像塊作輸入的單分支網絡模型;2)GS_PNet_128:表示采用128×128 大小的灰度圖像塊和經Sobel 算子所獲得的邊緣圖像塊作為輸入的并行網絡模型;3)GG_PNet_32:表示采用32×32 大小的灰度圖像塊和經Gabor 濾波所得的邊緣圖像塊作為輸入的并行網絡模型;4)作為本文提出的GG_PNet_128:表示采用128×128 大小的灰度圖像塊和經Gabor 濾波所得的邊緣圖像塊作為輸入的并行網絡模型。

表2 在LIVE 數據集上的消融實驗
從表2 實驗結果可知,采用本文所提算法的第4 組實驗GG_PNet_128 在4 個指標上均獲得了消融實驗中最好的數值,這也證明了在本文所提算法中這3 點改進均使得模型效果與人眼主觀視覺的一致性得到了提升。
實驗GG_PNet_128 的訓練曲線如圖8 所示。由圖8 中的Loss 曲線可以看出,網絡訓練過程中較快地達到了收斂,并且較為平穩。
這一節選擇了基于深度學習的代表性算法在LIVE 數據集和TID2013 數據集上的性能表現來做對比實驗,如DIQaM-NR[9]、DIIVINE[5]、CORNIA[21]、BIQI[4]、RankIQA[11]、hyperIQA[13]等算法,實驗結果如表3 所示。
由表3 實驗結果可知,在LIVE 數據集和TID2013 數據集上,本文所提算法都基本取得最好的效果,雖然在LIVE 數據集上的SROCC 指標比RankIQA 小了0.002,但是在TID2013 數據集上的SROCC 指標卻高出其0.88。
要評估一個算法的好壞,算法的泛化能力也是一個很重要指標,為了評估模型性能,本文以SROCC 作為主要指標,并與以下多種經典算法進行比較:如BRISQUE[22]、BLIINDS-II[23]、DIIVINE[5]、CORNIA[21]和DIQaM-NR[9]。將在LIVE 數據集上訓練的模型放在TID2013 數據集上進行測試,以及將TID2013 數據集上訓練得到的模型放在LIVE 數據集上進行測試,實驗結果如表4 所示。

表4 跨數據集性能評估的SROCC 指標
由表4 實驗結果可知,LIVE 上訓練的模型在TID2013 數據集上的測試效果明顯不佳,而TID2013 上訓練的模型在LIVE 數據集上的測試效果明顯較好。這是因為LIVE 數據集只有5 種失真類型,而TID2013 數據集卻有24 種失真類型。那么在數據更豐富且失真類型更多的TID2013數據集上進行訓練,所得模型自然泛化能力也要更優秀。
在LIVE 數據集上,以SROCC 為評價指標,針對數據集單一失真類型進行本文算法與主流算法的性能對比實驗,如DIIVINE[5]、BRISQUE[22]、NIQE[6]、HOSA[24]、MCNN[25]、BIECON[26]。實驗結果如表5 所示。
由表5 實驗結果可知,在LIVE 數據集中的5 種失真類型里,在JP2K、WN、BLUR 和FF 這4 個失真類型圖像上的質量預測均取得最優異的效果,而JPEG 這一失真類型圖像上的質量預測也僅次于BIECON。
本文提出了一種基于Gabor 濾波的并行網絡無參考圖像質量評價算法,該算法通過增加一個輸入大小為128×128 邊緣圖像的分支網絡提取圖像質量特征,一定程度上彌補了以灰度圖像輸入的單支網絡提取圖像質量特征不足的缺陷;同時,可提取空間局部頻域特征的Gabor 濾波器也在一定程度上解決了圖像失真非均勻性導致的質量評價不準確的缺陷。實驗結果也表明所提算法的圖像質量評分與人類主觀視覺有較高的一致性。由于不同的失真有著不同的特性,圖像的失真類型也是多樣且復雜,因此,提高NR-IQA 算法的通用性是今后的研究重點。