郝大為,張相芬,袁非牛
(上海師范大學 信息與機電工程學院,上海 201418)
目前,圖像質量評價(image quality assessment,IQA)方法主要分為兩類:主觀圖像質量評價和客觀圖像質量評價??陀^圖像質量評價主要有[1]:全參考圖像質量評價、半參考圖像質量評價和無參考圖像質量評價(no-reference image quality assessment,NR-IQA)。傳統的NR-IQA需要事先知道圖像的失真類型,然而真實失真場景中的圖像失真類型往往都是未知的,這時基于特定失真類型手工設計特征的方法在復雜多變的未知失真類型場景中往往表現出較強的局限性,模型不能準確預測失真圖像的質量分數。
近幾年發展起來的基于卷積神經網絡(convolutional neural network,CNN)的NR-IQA得到越來越多人的關注。這類方法無需針對特定失真類型手工設計特征,直接將原始失真圖像輸入CNN中提取特征進行預測,利用卷積神經網絡強大的特征表達能力,在NR-IQA任務中獲得了出色的性能表現。當前基于CNN的NR-IQA按照其網絡架構設計主要分為兩類。第一類網絡結構借鑒遷移學習的思想,把在大規模圖像分類數據集ImageNet上預訓練的CNN作為主干網絡,將模型在NR-IQA任務上進行微調,然后預測失真圖像質量分數。例如,Yang D等[2]提出了一個孿生神經網絡架構,將預訓練的VGG網絡作為特征提取網絡,通過交叉數據集訓練獲得了較好的性能。Hosu V等[3]基于InceptionResNet[4]網絡結構設計了用于NR-IQA任務的深度學習模型KonCept512。另一類網絡結構針對不同尺度下的特征圖設計多級特征融合模塊,以緩和下采樣過程中圖像質量特征降質的問題。代表性的有,Wu J等[5]提出一種端到端的用于NR-IQA任務的級聯深度神經網絡(cascaded CNN with HDC,CaHDC),對圖像進行多級特征提取,進而進行質量預測。Li F等[6]提出一個多尺度和分層融合的網絡架構(multi-task deep convolution neural network with multi-scale and multi-hierarchy fusion,MMMNet),用來提取圖像顯著的失真特征。雖然上述基于CNN的模型在當前合成失真圖像質量評價數據集上取得了較優的性能,但是在真實失真圖像質量評價數據集上往往泛化能力欠佳。
主要有以下幾方面的原因:①現有的合成失真圖像質量評價數據集一般包含不超過30張的參考圖像,圖像內容單一,且失真類型較少,使得CNN的學習能力受限,模型很容易出現過擬合的現象。②目前基于深度學習的方法所設計的特征提取網絡沒有充分挖掘相同或相似失真類型之間共有的失真信息。
在圖1中我們展示了6張來自Kadid-10k數據集[7]中的圖像,圖1(a)~圖1(c)為3張基于對比度改變的失真圖像,其差異主觀質量分數均為3.27,圖1(d)~圖1(f)為3張具有相同內容的圖像,其失真類型分別為顏色相關失真、壓縮失真、空域失真,差異主觀質量分數均為3.27。從圖1(a)~圖1(c)和圖1(d)~圖1(f)可以看出,對于相同失真類型的不同圖像內容或是不同失真類型相同圖像內容,其主觀質量分數有時表現為相同或相近,這就要求模型能夠充分學習相似失真類型以及跨失真類型的特征表達,因此對模型的辨識能力提出了更高的要求。此外,我們進一步對圖1(a)~圖1(c)和圖1(d)~圖1(f)中的失真圖像分別進行0°到180°方向的radon變換得到圖2(左)和圖2(右),通過可視化圖1失真圖像的顯著性特征,再次印證了相同失真類型以及不同失真類型的圖像往往包含共有的失真先驗知識這一結論。

圖1 來自Kadid-10k數據集[7]的6張失真圖像

圖2 0°到180°方向的radon變換集合
本文借鑒人類視覺系統的特性,即使得NR-IQA模型能夠像人類一樣,通過學習一種或幾種失真類型信息快速推理新的失真類型特征信息并預測質量分數。本文貢獻如下:
(1)設計了基于不同失真類型的元任務,采用與模型無關的元學習優化算法對模型進行優化,得到具有跨失真類型推理能力的(cross-distortion representation of feature aggregation,CDR-FA)NR-IQA框架;
(2)構建了具有跨不同失真類型推理能力的元知識圖結構,學習不同失真類型共有的失真先驗知識,幫助模型適應未知的失真類型;
(3)引入了基于注意力機制的特征融合操作來獲得失真圖像的顯著性加權因子;
(4)所提出的方法不僅超出了當前在真實失真圖像質量評價數據集上表現較優的方法,而且在合成失真圖像質量評價數據集上也獲得了具有競爭力的成績。
在這一部分,我們介紹了所提出的CDR-FA NR-IQA框架,如圖3所示。輸入不同的元訓練任務集合,每一個任務代表一種失真類型,總共有M種不同的失真類型。CDR-FA NR-IQA框架由3部分組成:主干網絡提取低級語義特征;圖表示模塊聚合相同失真類型共有的失真先驗知識,輸出圖表示向量;基于注意力特征聚合模塊產生相同失真類型的顯著特征向量,將顯著性特征向量輸入Softmax層提取每種失真類型不同空間尺度信息,得到注意力向量;將注意力向量和圖表示向量進行逐通道的融合得到特征融合向量;最后,將特征融合向量輸入到質量回歸預測模塊預測失真圖像的質量分數。

圖3 跨失真表征的特征聚合無參考圖像質量評價框架
我們定義CDR-FA模型為Fθ(·)
=Fθ(I)
(1)
其中,I代表輸入圖像,代表輸入圖像的預測質量分數,θ代表網絡整體權重參數集合。
我們使用監督學習中常用的回歸損失函數均方誤差(mean squared error,MSE)函數作為整體框架的損失函數,其表達式為
L=q-22
(2)
其中,L表示輸入圖像I的真實質量分數q與預測質量分數之間的差值。我們通過最小化損失函數L來優化模型參數。
本文以Finn C等[8]提出的與模型無關的元學習(model-agnostic meta-learning,MAML)優化算法為理論基礎,針對NR-IQA任務,設計基于優化的元學習算法提升NR-IQA模型的泛化性能。
首先,基于特定類型失真的NR-IQA任務建立元訓練集合Up(T)meta={UTms,UTmq}Mm=1。 其中,UTms代表第m個任務的支持集,UTmq代表第m個任務的查詢集,M表示任務的總數(即M種不同的失真類型)。
然后,為了學習不同失真類型共有的先驗知識,我們隨機挑選出k(1 Li=∑x(j)y(j)~TiF(x(j);θ(j))-y(j)22 (3) (4) 其中,α代表內循環學習率,Fθ表示CDR-FA模型。 最后,為了驗證模型的泛化性能,我們在查詢集UTiq(i=1,2,…,k) 上更新模型參數θ′i, 進而整合所有任務的梯度更新模型參數θ, 即 (5) 其中,β代表外循環學習率,箭頭右邊的θ表示更新后的模型參數。 主干網絡采用在大規模圖像分類數據集ImageNet上預訓練的ResNeSt-50[9],該網絡共有4個block,如圖4所示,每個block由不同的split-attention模塊組成。該網絡分別借鑒了GoogleNet中的Multi-path機制、ResNeXt的組卷積機制、SE-Net中的通道注意力機制以及SK-Net中的基于特征圖的注意力機制,在很多下游任務(如圖像分類、目標檢測、實例分割、語義分割等)上均獲得當前最先進的性能。此外,在不增加計算量的情況下,性能優于現有的ResNet-50。 在CDR-FA架構中,圖表示模塊和特征聚合模塊共享主干網絡提取的基礎特征信息。在基于CNN的NR-IQA任務中,隨著CNN層數的加深,所提取的失真圖像質量特征越具有全局和高級語義的信息,所以模型對于高級語義特征的辨識能力決定著NR-IQA模型預測的準確性?;诖?,我們設計了圖表示模塊和特征聚合模塊來提取失真圖像的高級語義信息。 為了學習相同失真類型之間的共性信息,緩和圖像內容對質量預測的影響,我們提出采用圖表示模塊聚合相同失真類型的共性信息,如圖5所示。 圖5 圖表示模塊 通過基于MAML的優化算法,使得圖表示模塊具有跨不同失真類型的推理能力,解決相同圖像內容不同失真類型下NR-IQA難辨識的問題,進一步提升NR-IQA模型對于未知失真類型的辨識能力。 我們設計了第t種失真類型的元知識圖結構Gp(T)meta={Vt,Et,At}Mt=1, 其中Vt代表節點集合;Et代表邊的集合,用來描述相同失真類型之間的關系;At代表圖的鄰接矩陣。假設輸入是含有k個任務的集合,每個任務含有N個相同失真類型的樣例。第i(i=1,2,…,k) 個任務輸入主干網絡ResNet50中,得到第i種失真類型的失真原型向量P0i∈N×C, 其中C表示每個節點原型向量的特征維度。我們將P0i(i=1,2,…,k) 作為節點嵌入向量,使用一組堆疊的全連接層學習節點表示,提取每種失真類型樣例的特征。鄰接矩陣Ai(i=1,2,…,k) 表示第i種失真類型樣例之間語義關系。 在構建邊的過程中,為了獲得更多節點之間的失真信息,我們借鑒Sun等[10]的思路,將二維鄰接矩陣擴展成三維鄰接矩陣Ai∈N×N×C′(i=1,2,…,k), 在本文中我們令C=C′=2048。 我們使用一個三層的圖卷積神經網絡(graph convolutional network,GCN)[11]聚合所有節點及其鄰居節點的特征,在第i種失真類型中,H(l)i代表第l層的輸出,H(l+1)i代表第l+1層的輸出,則 H(l+1)i=ReLU(A^iH(l)iθ(l)1,i),l=0,1,2 (6) 其中 H(0)i=Ai (7) A^i=- 12ii- 12i= - 12i(Ai+I)- 12i (8) 在式(6)中,θ(l)1,i代表第l層的GCN的訓練參數,A^i代表尺度化后的鄰接矩陣。 為了獲取每種失真類型的顯著性特征表達,我們設計了特征聚合模塊(如圖6所示)。我們對ResNeSt-50做了改動,去掉最后一個BottleNeck后面的全局平均池化層和全連接層,添加一個全局平均池化(global average pooling,GAP)層和一個最大全局池化(global max pooling,GMP)層對失真類型特征進行聚合,同時在每個池化操作后添加標準的L2正則化,輸出兩個維度為2048的特征向量,兩個特征向量合并為一個維度為4096的特征向量,我們對特征向量進行降維得到最終的特征聚合向量Ri∈N×2112(i=1,2,…,k)。 圖6 特征聚合模塊 最后,我們將特征聚合向量Ri輸入到Softmax層獲得每種失真類型不同空間尺度的信息,得到注意力向量Wi∈N×2112(i=1,2,…,k) Wi=Softmax(Ri) (9) 在特定失真類型下,我們將圖表示模塊的輸出Pi(i=1,2,…,k) 與注意力向量Wi進行逐通道的融合,獲得表征失真圖像質量的特征融合向量Bi(i=1,2,…,k) Bi=Ri?Pi (10) 為了預測失真圖像的質量分數,我們設計了質量回歸預測模塊(如圖7所示),輸入特征融合向量Bi(i=1,2,…,k), 輸出失真圖像的質量分數。 圖7 質量回歸預測模塊 為了評估模型的性能,我們分別在5種公開的IQA數據集上進行實驗,實驗數據集分別為:TID2008、TID2013、KADID-10k、LIVE-CH和CID2013。其中,前3個數據集為合成失真圖像質量評價數據集,后兩個為真實失真圖像質量評價數據集。 在真實失真圖像質量評價數據集中:LIVE-CH數據集包含1162張來自真實世界中攝像機所拍攝的照片,相較于實驗室合成的失真圖像,這些照片包含更加復雜的失真類型。CID2013數據集共有6個子集,包含來自79種不同的數字照相機所拍攝的480張真實失真場景下的圖像。在合成失真圖像質量評價數據集中:TID2008、TID2013、KADID-10K分別包含1700、3000和10 125張合成失真圖像。KADID-10k包含25種失真類型,分為5種失真等級。TID2013包含24種失真類型,分為5種失真等級。 為了衡量圖像質量評價模型的性能,我們采用了兩種性能指標——斯皮爾曼等級相關系數(Spearman rank-order correlation coefficient,SROCC)和皮爾遜線性相關系數(Pearson’s linear correlation coefficient,PLCC)。 SROCC定義為 SROCC=1-6∑Sw=1d2wS(S2-1) (11) 其中,dw代表第w幅圖像的主觀質量分數與由客觀質量評價模型得到的失真圖像質量預測分數之間的差值,S表示測試圖像的個數。 PLCC定義為 PLCC=∑Sw=1(pw-)(sw-)∑Sw=1(pw-)2∑Nw=1(sw-)2 (12) 其中,sw代表第w幅圖像的主觀分數,pw表示由客觀質量評價模型得到的失真圖像質量預測分數。和分別表示為主觀分數和預測分數的均值,S表示測試圖像的個數。 SROCC和PLCC的取值均在0-1之間,并且取值越高表明客觀質量評價模型預測的準確性和單調性就越好。 我們在設備NVIDIA Tesla V100 GPUs上訓練和測試PyTorch框架下的模型。CDR-FA NR-IQA框架由內循環和外循環兩個學習過程構成。ResNeSt-50中的Split-Attention(圖8展示了Split-Attention的模塊細節,圖8中 (h,w,c) 分別表示輸入圖像的(高度,寬度,通道數))參數設置為:radix=2,groups=1。輸入由元訓練集合中的支持集和查詢集圖像構成。此外,所有的訓練圖像和測試圖像都被隨機剪裁成224×224大小以適應模型的輸入。在支持集上訓練我們的模型,然后在查詢集上進一步微調模型超參數。設置epoch總數為50,外循環學習率β設置成1e-2, 內循環學習率α設置為1e-4; 每個mini-batch的大小k設置為5(與Zhu等[12]實驗所采用的mini-batch大小保持一致),即每次隨機挑選出k個任務作為元訓練集合中的小訓練集。 圖8 Split-Attention模塊細節 為了評估CDR-FA NR-IQA模型在真實失真場景下對失真圖像質量預測的準確性,我們分別在真實失真圖像質量評價數據集LIVE-CH和CID2013上進行實驗,主要和當前最具有代表性的傳統NR-IQA算法以及基于CNN的NR-IQA算法進行對比。我們與文獻[12]保持相同的實驗設置,為了避免隨機性,所有的實驗都被實施10次,我們將10次實驗的SROCC和PLCC計算其平均值列在表1和表2中,其中加粗字體表示最好的結果。在LIVE-CH和CID2013數據集上,本文提出的CDR-FA NR-IQA模型PLCC值優于現有的絕大多數無參考圖像質量評價模型。在LIVE-CH數據集上,相比于性能第2的模型,SROCC值提高了1%;在CID2013數據集上,相比于性能第2的模型,本文提出的CDR-FA NR-IQA框架其SROCC值提升10%。 表1 真實失真IQA數據集LIVE-CH上整體性能對比 表2 真實失真IQA數據集CID2013上整體性能對比 為了驗證本文提出的CDR-FA NR-IQA模型應對未知失真類型的泛化能力,我們在TID2013和KADID-10K數據集中的每種失真類型上進行測試,使用留一法對比當前最具有代表性的NR-IQA模型,即假設一個數據集有M種失真類型,我們使用 (M-1) 種失真類型進行訓練,剩下的一種失真類型進行模型性能測試。為了公平起見,所對比的NR-IQA方法都按照原作者所公開的代碼在相同的訓練測試規則下進行實施。表3和表4列出了我們的方法和當前最具代表性的NR-IQA方法在TID2013和KADID-10K數據集中每一種失真類型上的SROCC的測試結果,我們將在每種失真類型上測試得到的最好結果用黑體加粗強調。在TID2013數據集24種失真類型中,我們的方法在16種失真類型上獲得了最佳的性能;在KADID-10K數據集25種失真類型中,我們的方法在15種失真類型上獲得了最優的性能。此外,在TID2013和KADID-10K數據集上,我們的方法在超過一半的失真類型上測試得到的SROCC值要大于0.9。 表3 TID2013數據庫不同失真類別SROCC值比較 表4 KADID-10k數據庫不同失真類別SROCC值比較 圖9展示了TID2013數據集每一種失真類型對應的SROCC結果以及KADID-10K數據集每一種失真類型對應的SROCC結果。在TID2013數據集24種失真類型中,我們的方法在16種失真類型上獲得了最佳的性能;在KADID-10K數據集25種失真類型中,我們的方法在15種失真類型上獲得了最優的性能。此外,在TID2013和KADID-10K數據集上,我們的方法在超過一半的失真類型上測試得到的SROCC值要大于0.9。 圖9 TID2013數據集和KADID-10K數據集不同失真類型對應的SROCC值 我們也在當前具有代表性的合成失真質量評價數據TID2013和TID2008上進行實驗,實驗性能指標SROCC和PLCC值見表5。在TID2013數據集上,相比于性能第2的模型,本文提出的CDR-FA NR-IQA框架其PLCC值提高了7%,SROCC值提高了9%;在TID2008數據集上,相比于性能第2的模型,本文提出的CDR-FA NR-IQA框架其SROCC值提升4%。 表5 合成失真IQA數據集上整體性能對比 以上實驗結果(如圖10所示)表明我們所提出的CDR-FA NR-IQA模型無論是在真實失真圖像質量評價數據集,還是在合成失真圖像質量評價數據集上均具有較優的性能,再次表明我們的模型具有較強的泛化性能。 圖10 在真實失真IQA數據集和合成失真IQA數據集上模型整體性能表現 為了驗證各個模塊的有效性,主干網絡采用基于元學習的訓練框架(Method-1),分別驗證元學習算法結合圖表示模塊(Method-2)、元學習結合特征聚合模塊(Method-3)以及CDR-FA框架(CDR-FA)的有效性。在驗證階段,我們統一在KADID-10K數據集上訓練,然后分別在LIVE-CH、CID2013和TID2013上進行測試,SROCC和PLCC值分別列在表6中。 表6 驗證模型各模塊整體性能表現 對比3種方法,CDR-FA架構表現出較強的泛化能力,也再次驗證了我們的方法能夠有效解決NR-IQA問題中模型過擬合以及泛化性不強的問題。 本文提出了一個CDR-FA NR-IQA框架對真實失真場景中的失真圖像質量進行預測,解決現有NR-IQA模型容易過擬合以及對于相同失真類型的不同圖像內容或是具有不同失真類型的相同圖像內容難辨識的問題。CDR-FA NR-IQA框架基于MAML的優化算法,其特征聚合模塊提取每種失真類型最顯著的特征,圖表示模塊提取相同失真類型共有的失真質量信息,以減少圖像內容變化對質量預測準確性的影響。最終本文提出的CDR-FA NR-IQA框架具有跨失真類型表征的能力。


3 網絡框架
3.1 主干網絡
3.2 圖表示模塊

3.3 特征聚合模塊

3.4 質量回歸預測模塊

4 實驗結果與分析
4.1 圖像質量評價數據集
4.2 評估指標
4.3 實施細節

4.4 實驗結果與分析







4.5 消融實驗

5 結束語