王 楊,隆海燕,賈曦然
(1.河北工業大學電子信息工程學院,天津 300401;2.河北工業大學天津市電子材料與器件重點實驗室,天津 300401)
圖像質量評價在藝術作品設計、廣告公司海報宣傳等方面應用廣泛,逐漸成為研究熱點,因而圖像質量的可靠評價具有實用性。圖像質量的主觀評價方法易受觀測者知識背景和觀測者動機等因素影響,而客觀評價以其速度快、不受主觀情況影響等優勢被普遍應用。近年來,人們將人眼視覺顯著性引入圖像質量客觀評價中。在結構相似度理論[1]和ltti中心-周圍差異模型[2]的基礎上,劉迪等[3]考慮人眼視覺特性中的對比度掩蓋效應,對模糊強度進行感知加權來優化圖像質量評價的結果。賈惠珍等[4]分別提取參考圖像和失真圖像的相位一致性、梯度、視覺顯著性和對比度特征,采用機器學習的方法自動預測圖像質量。沈飛鵬等[5]在此基礎上將待評價圖像進行顯著性目標分類,根據分類結果提取局部特征和全局特征,特征融合后得到最終的質量評估值。上述方法均考慮了人眼的視覺特性,其結果與人眼的主觀感知具有良好的相關性。
然而,影響圖像信息獲取的人眼視覺成像系統具有頻率傳遞的特性,其彩色視覺頻率響應與人眼顏色辨別特性緊密相關。所以,許多研究人員開始將人眼色彩差異化感知特性[6]引入客觀圖像質量評價中。許麗娜等[7]提出了一種融合圖像結構相似度和光譜信息的圖像質量評價方法;侯春萍等[8]提出在得到圖像的全局特征時用顏色矩來表示圖像的顏色特征;趙月等[9]則將圖像從RGB空間轉化到孟塞爾模型HSI(Hue,Saturation,Intensity),分別提取色度、飽和度、亮度分量并將其作為特征用于圖像質量評價。以上方法均結合人眼視覺顯著特性和色彩敏感度特性,獲得了與人眼主觀感知相一致的圖像質量客觀評價值。而在實際應用中,圖像中存在非色彩顯著區域語義信息,因而利用人眼對色彩的差異化感知特性重點關注圖像中的色彩顯著區域并進行質量評價,尚需進一步研究。
基于上述人眼視覺顯著特性和色彩敏感度特性在圖像質量評價中的應用,本文提出了一種基于孿生神經網絡的色彩區域圖像質量評價CR-SNIQA(Color Region Image Quality Assessment based on Siamese Neural network)算法。利用色彩對比分別提取原始圖像和失真圖像中多個色彩區域的語義內容,可以在保留圖像語義信息的同時更好地模擬人眼對色彩的差異化感知;復用孿生模塊進行特征提取并共享權值,可充分表達多層次特征的有效信息。本文所提CR-SNIQA算法在考慮人眼彩色視覺特性和語義內容的基礎上,將孿生神經網絡引入圖像質量評價中,實現了圖像色彩區域的質量評價。
Chopra等[10]提出的孿生神經網絡多應用于圖像分類與識別,該網絡的雙分支輸入為2幅圖像,輸出為2幅圖像之間的相似程度。孿生神經網絡具體結構如圖1所示。圖中X1和X2為孿生神經網絡雙分支的輸入,W為網絡分支共享的學習參數,GW(X1)和GW(X2)是X1和X2在低維空間中的2個映射,最后通過比較2個映射之間的距離EW判斷X1和X2的匹配程度。

Figure 1 Structure of siamese neural network圖1 孿生神經網絡結構圖
楊光義等[11]將原始圖像與失真圖像輸入至雙分支結構的孿生神經網絡中,網絡整體是端到端前饋模型。為了適應全連接層輸入圖像的大小,將圖像固定分塊后進行質量評價。本文所提CR-SNIQA算法采用雙卷積結構,將原始圖像與失真圖像中由語義分割得到的多個相互對應的色彩區域輸入到孿生神經網絡中進行圖像質量評價。
CR-SNIQA算法整體框架如圖2所示。圖中Q(Quality)表示所得評價值。首先,算法利用人眼對色彩差異化感知特性提取原始圖像和參考圖像中的多個色彩區域;然后,將多個色彩區域的圖像以圖像對的方式輸入孿生神經網絡進行雙支路訓練,選擇損失度最小的權值進行共享,從而實現輸入圖像到輸出圖像質量分數的端到端訓練;最后,用樣本對之間的歐氏距離EW(x1,x2)來評價圖像質量的優劣。

Figure 2 Overall framework of CR-SNIQA圖2 CR-SNIQA整體框架
視覺心理學[12]認為,人眼的視覺對不同色彩的敏感程度存在一定差異,并且圖像色彩是僅次于圖像清晰度的第2大質量因素。人眼視覺對紅光、藍光、綠光的敏感度與可見光譜理論是一致的[13]。可見光譜圖[14]如圖3a所示,上面一行數字代表光對應的頻率f即強度,單位是THz;下面一行數字代表光對應的波長λ,單位是nm。人眼對不同波長光的平均視覺靈敏度表示為視見函數。明視覺和暗視覺下的視見函數曲線[15]如圖3b所示。由圖3可知,人眼對明視覺下波長為550 nm的光和暗視覺下波長為505 nm的光最敏感;對可見光譜中部區域更敏感,越靠近光譜兩端,人眼的敏感度越弱。

Figure 3 Visible spectrum and visual function curve圖3 可見光譜圖與視見函數曲線
根據人眼色彩對比度敏感的視覺特性,Nadenau[16]提出了色度模型CSF[16],如式(1)所示:
CSF(fθ)=a·expbf(θ)c
(1)
其中,a、b和c為常數;θ為觀察視角;fθ為角頻率,定義為單位空間視角內刺激人眼的條紋的周期數目。
CSFrg和CSFby分別表示藍黃和紅綠對立色的色度模型函數[17],其常數取值如表1所示。

Table 1 Constant values in the chromaticity model function表1 色度模型函數中的常數值
郭迎春等[18]參照人眼視覺注意機制理論,選擇性地提取圖像的不同特征,利用合適的融合模型來實現特征融合,以達到圖像顯著區域提取的目的。本文根據輸入圖像內容信息的不同,采用語義分割劃分圖像邊界并標注標簽。圖4給出了一幅具有3種語義內容的語義區域劃分過程。
由圖4可知,利用語義分割模型可以將圖像根據語義內容分割為不同的區域,標注標簽后進行區域圖像細節復現。

Figure 4 Division of semantic regions圖4 語義區域的劃分
人們通常在RGB顏色空間對數字圖像進行色彩描述。因人眼對RGB顏色空間感知的不均勻性,本文將像素變換到人眼感知均勻的Lab顏色空間[19]。在顏色空間轉換的基礎上,依據圖像色彩的差異和語義內容進行圖像差異化區域提取。圖5展示了對圖像進行差異化色彩區域劃分的結果。由圖5可知,根據圖像中不同顏色對應的像素值不同,可以將圖像的內容信息以及邊界細節提取出來,得到色彩區域顯著圖。

Figure 5 Division results of image differentiated color region 圖5 圖像差異化色彩區域劃分結果
從視覺角度來說,圖像顯著區域越接近人工標記的真值圖,圖像顯著區域提取算法與人眼視覺注意機制關聯性越強。
評價圖像顯著區域提取算法的常用評價指標包括準確率P(Precision)、召回率R(Recall)等。
假設檢測到的二值圖中顯著區域為FN,真值圖中顯著區域為GN,則P和Q的公式定義分別如式(2)和式(3)所示:
(2)
(3)
準確率P越大,提取結果越可靠。召回率R越高,提取效果越符合人眼的注意效果。經多次實驗得到每幅測試圖像的準確率和召回率,求得P和Q的平均值分別為0.962 5和0.852 9,可以此為基礎模擬人眼對圖像的感知。
CR-SNIQA算法的孿生神經網絡結構如圖6所示。圖像以樣本對的形式輸入。使用Inception-ResNet-V2網絡作為其雙分支網絡,該網絡允許并行使用卷積和池化操作,同時雙分支網絡之間共享權值。樣本對輸入距離層后,采用歐氏距離衡量二者的匹配程度。歐氏距離值越小,樣本的匹配程度越高。

Figure 6 Structure of siamese neural network based on CR-SNIQA algorithm 圖6 CR-SNIQA算法的孿生神經網絡結構圖

Figure 7 Structure of Inception-ResNet-V2 network 圖7 Inception-ResNet-V2網絡結構
Inception-ResNet-V2模塊網絡結構如圖7所示。為進一步提高圖像校準水平,Inception-ResNet-V2采用了殘差網絡結構,且在Inception中平均池化層代替了傳統的全連接層。該網絡處理圖像的步驟如下:
步驟1將圖像輸入Stem模塊中進行卷積、池化和卷積操作,將其結果輸入到4個分支分別進行卷積操作后疊加輸出。
步驟2Inception-ResNet-A模塊的內部包含4個分支。第1個分支將Stem模塊輸出的35×35×384特征圖未進行卷積處理直接輸出,另外3個分支對Stem模塊輸出的特征圖進行一系列卷積操作后,再經過1×1的卷積層,最后與第1個分支的輸出疊加得到35×35×256的特征圖輸入至Reduction層。
步驟3Inception-ResNet-B和Inception-ResNet-C的模塊內部均為3個分支,第1個分支直接輸出,其余2個分支均經過卷積操作。所有支路輸出疊加后的結果輸入平均池化層,下降損失函數經過多次迭代設置參數為0.8,以確保最佳擬合。
本文引入EMD(Earth Mover’s Distance)損失函數,以便根據類別距離懲罰錯誤類,獲得更高的預測精確度。該函數是對特征空間中2個多維矩陣的某一維距離的一種度量。歸一化的EMD函數表示如式(4)所示:

(4)

3.4.1 數據集處理
本文所用圖像取自TID2013(Tampere Image Database 2013)圖像庫,包括25幅分辨率為 324× 512 的彩色參考圖像和其對應的3 000幅失真圖像。失真類型共24種,包括多重高斯噪聲、舒適噪聲、有損壓縮、彩色圖像量化、色差以及稀疏采樣等,每種失真類型包含5種失真水平。該圖像庫中所有測試圖像的平均主觀得分MOS(Mean Opinion Score)值是由5個國家的971位測試人員主觀評分統計得到的。MOS值的取值范圍為[0,9],MOS值越大,表示圖像質量越好。
將TID2013圖像庫中的圖像進行色彩顯著區域提取,按照2∶1∶2的比例隨機劃分原始圖像及相應失真圖像的色彩區域圖,分別作為訓練集、驗證集和測試集。因篇幅所限,本文選取TID2013圖像庫中第8種高斯模糊失真類型和第16種平移位移失真類型及相應的5種失真水平作為示例圖像。圖像提取結果如圖8和圖9所示。

Figure 8 Region extraction results of example image 1 圖8 示例圖像1區域提取結果

Figure 9 Region extraction results of example image 2 圖9 示例圖像2區域提取結果
3.4.2 模型參數的訓練
初始化實驗模型后,在訓練集上訓練模型權重。完整遍歷一次訓練集為一次epoch過程,在驗證集上評估結果以選取最優權重。將訓練的epoch次數設置為500,采用小批次梯度下降法完成訓練。每經過一次epoch,都在驗證集上測試模型指標,綜合考慮損失率最小和準確率最高因素,判定其是否為最優模型。模型在訓練集上訓練時,損失函數EMD的變化曲線如圖10所示。如圖10所示,橫坐標表示迭代次數,縱坐標表示損失率。EMD損失函數呈穩定下降趨勢,表明模型訓練情況良好。當epoch次數大于420時,損失函數趨于平穩。訓練完畢后,損失函數可達到0.037 9的損失率。

Figure 10 Change curve of loss function EMD圖10 損失函數EMD的變化曲線
將測試集中的色彩區域圖像作為全域圖像的子圖像輸入孿生神經網絡中進行評估,得出各個子圖像的質量評價分數。考慮到人眼對區域圖像色彩差異的敏感度,以及色彩差異區域的顏色與RGB空間的親近度,本文對子圖像的質量評價值進行加權處理,以獲得整幅圖像的質量評價分數。加權處理公式如式(5)所示:
(5)

本文將以下8種算法與本文所提算法進行準確率和復雜度的比較。除峰值信噪比PSNR(Peak Signal to Noise Ratio)算法[20]中按灰度圖像每像素比特數設置參數為8之外,其余算法的原始參數均來自原始文獻。由于篇幅所限,每種算法的關鍵參數設置如下:

本文采用客觀質量評價值與其對應MOS值的相關性作為算法性能的評價標準。評價指標包括皮爾森線性相關系數PLCC(Pearson Linear Correlation Coefficient)和斯皮爾曼相關系數SROCC(Spearman Rank Order Correlation Coefficient)。PLCC用于評價算法輸出的質量客觀評價值和主觀評價的線性相關程度,SROCC用于評價算法輸出的質量客觀評價值和主觀評價的單調性。SROCC/PLCC越大,表示質量客觀評價算法與主觀評價值有良好的一致性。為進一步驗證本文算法的魯棒性,在LIVE(Laboratory for Image & Video Engineering)數據集和CSIQ(Categorical Subjective Image Quality)數據集上進行了補充實驗。LIVE數據集包括29幅參考圖像、5種失真類型對應的779幅失真圖像以及每幅圖像對應的平均主觀得分差異DMOS(Differential Mean Opinion Score)值;CSIQ數據集包括30幅參考圖像、6種失真類型對應的866幅失真圖像以及每幅圖像對應的DMOS值。表2給出了不同算法在TID2013數據集、LIVE數據集和CSIQ數據集上經訓練、驗證和測試得到的PLCC和SROCC評價指標值,表中“/”表示該指標在算法原始文獻中沒有給出且難以通過復現獲取。

Table 2 Performance comparison of image quality evaluation algorithms表2 圖像質量評價算法性能比較
由表2可知,本文所提CR-SNIQA算法較部分對比算法在3個數據集上精確度好。在TID2013數據集上,PLCC和SROCC均在0.88以上,相比于PSNR、SSIM、VSNR、FSIM、FSIMc、MAD和MPCC算法的均有較大提高。雖然較MDSI算法的SROCC降低了0.004 2,但其PLCC提高了0.003 0;在CSIQ數據集上,PLCC相比PSNR、SSIM、VSNR、FSIM和FSIMc算法的均有提高,SROCC值也高于PSNR和VSNR算法的;在LIVE數據集上,PLCC和SROCC均在0.94以上,精確度優于PSNR、VSNR和SSIM算法的。綜合評價,在人眼主觀感知相關性方面,所提算法的性能優良。
本文算法基于Inception-ResNet-V2深度學習網絡,用Python3.7語言實現。其運行環境中,CPU為Intel i7-10750H 2.59 GHz;GPU為NVIDIA GTX 1060,16 GB內存。本文算法參數設定如表3所示,該組參數均經過優化迭代得出,本文實驗結果均在該參數的基礎上得到。

Table 3 Parameters setting of the proposed algorithm 表3 本文算法參數設定
為評估算法的復雜度,本文將CR-SNIQA算法的評價時間與其它算法的進行了對比。以每10幅圖像運行的平均時間作為衡量指標,比較結果如圖11和表4所示。表4中,每種失真類型名稱下的數字表示其包含的圖像數量。

Figure 11 Comparison of running time of algorithm evaluation for every 10 images圖11 算法評價每10幅圖像的運行時間對比

Table 4 Average running time of the CR-SNIQA algorithm per 10 images in a single distortion class表4 CR-SNIQA算法在單一失真類型中每10幅圖像的平均運行時間 s
由表4可知,在TID2013數據集上,CR-SNIQA算法對AGN失真類別中每10幅圖像的平均運行時間最長,為2.950 s,對NEPN失真類別的運行時間最短,為1.830 s;在CSIQ數據集上,對AWGN失真類別中每10幅圖像的平均運行時間最長,為2.470 s,對FNIOSE失真類別的運行時間最短,為1.960 s;在LIVE數據集上,對FASTFA失真類別中每10幅圖像的平均運行時間最長,為2.360 s,對BLUR失真類別的運行時間最短,為1.990 s。通過分別計算CR-SNIQA算法在3個數據集上運行時間的平均值可知,在TID2013數據集上每10幅圖像的平均運行時間為1.938 7 s,明顯少于在CSIQ和LIVE數據集上2.238 3 s和2.174 s的平均運行時間。
不同算法在3個數據集上每運行10幅圖像的平均時間對比如表5所示。

Table 5 Comparison of average time of 10 images each run by different algorithms表5 不同算法每運行10幅圖像的平均時間對比 s
算法的運行時間可在一定程度上反映其復雜程度,故本文通過3個數據集上運行時間的平均值對算法的復雜程度進行比較。由表4可見,本文所提CR-SNIQA算法在TID2013數據集上每10幅圖像的運行時間明顯少于在CSIQ和LIVE數據集上的運行時間。通過與不同算法運行時間的對比可知,所提算法復雜度明顯低于FSIMc、VSNR、 MAD和MPCC算法,而高于PSNR和SSIM,但在精確度上,所提算法的較高。根據CR-SNIQA算法流程分析其具有較低復雜度的原因是:對色彩區域特征提取的優化以及Inception結構中因層級結構的改進而減少了參數處理量。綜合評估精確度和復雜度得出,CR-SNIQA算法可作為一個思路推廣于圖像質量評價領域。
本文算法考慮了人類視覺對圖像色彩信息的感知,將顏色作為視覺線索,提取原始圖像和參考圖像中顏色對比顯著的區域。將提取后的色彩區域輸入孿生神經網絡中進行質量評價。結果表明,利用孿生神經網絡對圖像色彩差異化區域進行質量評價具有可行性,可作為彩色圖像質量評估的一種新思路。今后將在本文基礎上考慮視差對立體圖像質量評價的影響以及探索遷移學習和顏色識別在質量評價算法中的應用。發展通用型的圖像質量評價算法實現對所有圖像的評價,可作為未來的研究課題之一。