



關(guān)鍵詞:無(wú)參考圖像質(zhì)量評(píng)價(jià);質(zhì)量感知特征;局部特征;全局特征;雙支路自注意力
中圖分類號(hào):TP3 91. 41 文獻(xiàn)標(biāo)志碼:A
0引言( Introduction)
圖像質(zhì)量評(píng)價(jià)(Image Quality Assessment,IQA)作為一項(xiàng)基礎(chǔ)的計(jì)算機(jī)視覺(jué)任務(wù),旨在模擬人類主觀判斷,實(shí)現(xiàn)對(duì)圖像質(zhì)量的自動(dòng)評(píng)估。精準(zhǔn)的IQA方法對(duì)于指導(dǎo)圖像處理的許多下游任務(wù)非常重要,并且能夠幫助用戶篩選出更具觀感的圖像,提供更出色的視覺(jué)體驗(yàn)。為了學(xué)習(xí)更準(zhǔn)確的質(zhì)量感知特征,本文提出了一種基于卷積調(diào)制與自注意力(Convolutional Modulation and Self-attention,CoMS)的圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)模型。CoMS能夠銜接網(wǎng)絡(luò)淺層特征向深層特征過(guò)渡,對(duì)圖像局部特征和全局特征進(jìn)行建模,并且其參數(shù)量遠(yuǎn)小于簡(jiǎn)單組合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)與視覺(jué)Transformer(Vision Transformer,ViT)的網(wǎng)絡(luò)。具體來(lái)說(shuō),CoMS在網(wǎng)絡(luò)淺層引入了一種新的卷積調(diào)制結(jié)構(gòu)——尺度感知調(diào)制(Scale-Aware Modulation,SAM)[2],以便于更準(zhǔn)確地捕獲局部特征;在網(wǎng)絡(luò)深層使用自注意力模塊捕獲全局特征。為了充分利用特征的空間信息和通道信息,本文提出雙支路自注意力特征融合(Dual Branch Self-attention Feature Fusion,DSAFF)模塊,用于單個(gè)自注意力模塊中聚合特征的空間和通道維度信息,增強(qiáng)了網(wǎng)絡(luò)的表征能力。同時(shí),采用交替堆疊SAM模塊和DSAFF模塊的方式使局部特征更高效地過(guò)渡到全局特征。在網(wǎng)絡(luò)的第四階段使用線性注意力代替雙支路自注意力,有效避免了多維度使用自注意力所帶來(lái)的額外參數(shù)開(kāi)銷。
1相關(guān)工作(Related work)
目前,NRIQA模型主要基于卷積神經(jīng)網(wǎng)絡(luò)和ViT結(jié)構(gòu)提取質(zhì)量感知特征。一些研究工作利用網(wǎng)絡(luò)淺層提取低級(jí)特征、網(wǎng)絡(luò)深層提取語(yǔ)義特征的特點(diǎn),從不同的CNNs層中提取特征,并通過(guò)融合多級(jí)特征使網(wǎng)絡(luò)學(xué)習(xí)多尺度信息。YOU等首次將ViT引入圖像質(zhì)量評(píng)價(jià)任務(wù),以CNNs提取的圖像特征作為Transformer編碼器的輸入,以此評(píng)價(jià)圖像質(zhì)量。QIN等針對(duì)ViT中的分類令牌(CLS token),引入Transformer解碼器對(duì)其進(jìn)一步解碼;同時(shí),受人類主觀評(píng)價(jià)的啟發(fā),提出一種新型注意力機(jī)制,以解決模型預(yù)測(cè)結(jié)果不穩(wěn)定的問(wèn)題。
盡管采用CNNs和ViT結(jié)構(gòu)在圖像質(zhì)量評(píng)價(jià)中取得了顯著的成功,但是兩者都存在一定的局限性。CNNs受限于卷積核大小,主要用于捕捉輸入的局部特征,難以對(duì)全局特征進(jìn)行有效建模。ViT中的自注意力機(jī)制具備長(zhǎng)距離依賴關(guān)系建模的能力,但在計(jì)算相似性時(shí)忽略了通道維度的信息,并且其二次復(fù)雜度在處理高分辨率圖像時(shí)會(huì)帶來(lái)計(jì)算成本過(guò)高的問(wèn)題。圖像質(zhì)量評(píng)價(jià)依賴于圖像的局部特征和全局特征,GOLESTANEH等嘗試聯(lián)合使用擁有局部建模能力的CNNs和擁有全局建模能力的ViT結(jié)構(gòu),以期構(gòu)建出質(zhì)量特征提取能力更強(qiáng)的NRIQA模型。然而,簡(jiǎn)單地將CNNs(例如,RseNet-50)與ViT結(jié)構(gòu)串聯(lián)起來(lái)并不能帶來(lái)預(yù)期的性能提升,反而會(huì)使網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,增加了計(jì)算成本。
2基于卷積調(diào)制和自注意力機(jī)制的圖像質(zhì)量評(píng)價(jià)方法(Image quality asessment method based on convolutional modulation and self-attention mechanism)
2.1總體結(jié)構(gòu)
本文首次將卷積調(diào)制應(yīng)用于NRIQA,提出了一種基于卷積調(diào)制和自注意力的NRIQA模型。卷積通過(guò)靜態(tài)權(quán)重的方式捕獲局部特征,不具備自適應(yīng)調(diào)整輸出的能力;而卷積調(diào)制具有自適應(yīng)地根據(jù)輸入特征來(lái)調(diào)整輸出的優(yōu)點(diǎn),與自注意力不同,前者是基于卷積提取特征進(jìn)行輸出的調(diào)制,后者是通過(guò)相似性矩陣控制輸出結(jié)果。CoMS網(wǎng)絡(luò)采用了經(jīng)典的金字塔結(jié)構(gòu),整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分為4個(gè)階段(圖1)。4個(gè)階段的深度分別設(shè)置為3層、4層、9層、2層。其中,線性前饋層由DFFN(Detail-specific Forward Network,DFFN)構(gòu)成。
該網(wǎng)絡(luò)的前兩個(gè)階段使用SAM模塊代替普通卷積捕獲局部信息,后兩個(gè)階段使用自注意力機(jī)制捕獲全局上下文信息。SAM模塊可以捕獲不同粒度和不同感受野的感知特征,并且使用大核卷積增強(qiáng)了網(wǎng)絡(luò)的全局上下文建模能力。第三階段依次堆疊SAM模塊和DSAFF模塊,促使網(wǎng)絡(luò)建模范圍從局部特征過(guò)渡到全局特征,混合交替結(jié)構(gòu)如圖2所示。第四階段使用聚焦線性注意力(Focused Linear Attention,F(xiàn)LA)捕獲全局特征,減少由空間和通道自注意力引入的額外參數(shù)。FLA通過(guò)一個(gè)簡(jiǎn)單的聚焦函數(shù)達(dá)到Softmax分布的效果,并使用深度可分離卷積恢復(fù)特征多樣性。將提取的質(zhì)量感知特征傳入回歸器,最終得到質(zhì)量評(píng)價(jià)分?jǐn)?shù)。與目前的主流模型將圖像質(zhì)量信息融入CLS token中不同,本文提出的CoMS模型直接從圖像本身提取質(zhì)量特征,因此預(yù)測(cè)結(jié)果更加可靠。
2.2雙支路自注意力特征融合模塊
圖像質(zhì)量評(píng)價(jià)任務(wù)同時(shí)依賴于圖像的局部特征和全局特征。CoMS在前兩個(gè)階段,主要專注于圖像的局部特征。雖然SAM中的大核卷積具備一定的全局特征建模能力,但是無(wú)法與自注意力的全局特征建模能力相比。因此,為了加強(qiáng)網(wǎng)絡(luò)的全局特征提取能力,本文提出了DSAFF特征融合模塊。該模塊能夠更充分地利用輸入特征的空間信息和通道信息。雙支路自注意力特征融合模塊如圖3所示,該模塊基于空間自注意力和通道自注意力,其中空間自注意力模塊捕獲空間維度上的全局上下文信息,通道自注意力模塊捕獲通道維度上的全局上下文信息。通過(guò)聚合兩個(gè)模塊的輸出,DSAFF特征融合模塊獲得了更為精確的質(zhì)量特征表示。
3實(shí)驗(yàn)與結(jié)果分析(Experiment and results analysis)
3.1數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
本文在6個(gè)公開(kāi)的IQA數(shù)據(jù)集上評(píng)估了所提方法的性能,包括2個(gè)合成失真數(shù)據(jù)集LIVE(Laboratory for Image amp; Video Engineering Public-Domain Subjective Image Quality Database)、KADID-10K (Konstanz Artificially Distorted Image Quality Database 10K)和4個(gè)真實(shí)失真數(shù)據(jù)集BID(Blurred Image Database) 、LIVEC(LIVE In the Wild Image Quality Challenge Database)、KonIQ-lOK(Konstanz ImageQuality 10K Database)、SPAQ(Smartphone Photography Attribute and Quality)。數(shù)據(jù)集詳細(xì)信息見(jiàn)表1。
本文采用兩個(gè)常用指標(biāo),即斯皮爾曼等級(jí)相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SRCC)和皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC),分別量化本文所提方法在預(yù)測(cè)單調(diào)性和預(yù)測(cè)精度方面的表現(xiàn)。這兩個(gè)指標(biāo)的范圍為[-1,1],其絕對(duì)值越大,說(shuō)明方法的性能越好。
3.2實(shí)驗(yàn)設(shè)置
本文代碼基于Pytorchl.7.1和Python3.7實(shí)現(xiàn),實(shí)驗(yàn)平臺(tái)為NVDIA AlOO-PCIE,顯存容量為40 GB。訓(xùn)練之前,將圖像最小邊長(zhǎng)的分辨率調(diào)整為384,同時(shí)保持長(zhǎng)寬比不變。在訓(xùn)練階段,輸入圖像被隨機(jī)裁剪為224×224,使用均方誤差作為損失函數(shù),初始權(quán)重為在ImageNet上預(yù)訓(xùn)練的權(quán)重。梯度下降使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為2×10-5,權(quán)重衰減為1×10-7,批次大小為40。在測(cè)試階段,將待測(cè)圖像隨機(jī)裁剪為5張224×224的圖像,待測(cè)圖像的質(zhì)量分?jǐn)?shù)為5張圖像預(yù)測(cè)分?jǐn)?shù)的平均值。每個(gè)數(shù)據(jù)集隨機(jī)抽取80%的圖像用于構(gòu)建訓(xùn)練集,剩下的20%用于構(gòu)建測(cè)試集。對(duì)于合成失真數(shù)據(jù)集,根據(jù)參考圖像對(duì)訓(xùn)練、測(cè)試集進(jìn)行分割,以確保內(nèi)容的獨(dú)立性。為消除數(shù)據(jù)集抽樣偏差的影響,重復(fù)上述過(guò)程10次,以SRCC和PLCC的中位數(shù)作為最終結(jié)果。
3.3實(shí)驗(yàn)對(duì)比結(jié)果
將本文所提方法與7種最先進(jìn)的NRIQA方法進(jìn)行了性能比較。不同方法在6個(gè)數(shù)據(jù)集上的性能比較如表2所示。由表2中的結(jié)果可知,相較于現(xiàn)有算法,本文所提方法在4個(gè)真實(shí)失真的數(shù)據(jù)集(BID、LIVEC、KonIQ-lOK和SPAQ)上的性能都有所提升,在2個(gè)合成失真數(shù)據(jù)集LIVE和KADID上取得了與現(xiàn)有方法相當(dāng)?shù)男阅堋R陨?個(gè)數(shù)據(jù)集涵蓋了各種各樣的圖像內(nèi)容和失真類型,因此要在這些數(shù)據(jù)集上都能取得優(yōu)異的性能是非常具有挑戰(zhàn)性的。與現(xiàn)有的模型相比,CoMS能更準(zhǔn)確且全面地評(píng)價(jià)失真圖像的質(zhì)量分?jǐn)?shù)。值得注意的是,本文所提方法在BID數(shù)據(jù)集上的性能實(shí)現(xiàn)了顯著的提升,相較于TreS的SRCC值提高了約3%。對(duì)于合成失真數(shù)據(jù)集,即使CoMS沒(méi)有添加額外的合成失真處理模塊,也依然能夠取得優(yōu)異的性能。雖然在LIVE數(shù)據(jù)集上,CoMS的性能略低于DEIQT,但是在最具挑戰(zhàn)性的KADID數(shù)據(jù)集上,CoMS的表現(xiàn)十分出色。以上結(jié)果表明,本文所提方法在應(yīng)對(duì)NRIQA任務(wù)時(shí)的有效性,尤其是在針對(duì)真實(shí)失真圖像的評(píng)價(jià)方面。
3.4模型大小和性能之間關(guān)系的對(duì)比分析
為了評(píng)估不同NRIQA方法的計(jì)算成本與預(yù)測(cè)性能之間的關(guān)系,本文對(duì)比了5種NRIQA方法的模型參數(shù)量以及在LIVEC數(shù)據(jù)集上的SRCC、PLCC值。模型的參數(shù)量及LIVEC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表3所示。由表3中的數(shù)據(jù)可知,本文所提方法的參數(shù)量?jī)H有25.17M,遠(yuǎn)小于MANIQA和TreS的參數(shù)量,與網(wǎng)絡(luò)規(guī)模最小的DEIQT十分接近。不僅如此,本文所提方法也達(dá)到了最優(yōu)異的性能,在同等級(jí)的參數(shù)量下,其性能超越了DEIQT。以上結(jié)果表明,本文所提方法在模型參數(shù)量與性能之間達(dá)到了較好的平衡,能以較小的計(jì)算成本獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。
3.5模型泛化性能對(duì)比分析
不同數(shù)據(jù)集的數(shù)據(jù)分布可能不同,因此在這些數(shù)據(jù)集上訓(xùn)練的模型可能只適用于特定場(chǎng)景。本文通過(guò)跨數(shù)據(jù)集交叉驗(yàn)證實(shí)驗(yàn)來(lái)評(píng)估所提方法的泛化能力,其中在評(píng)估模型泛化能力時(shí),模型先在單一數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后在其他數(shù)據(jù)集上也進(jìn)行了測(cè)試,測(cè)試過(guò)程不進(jìn)行任何微調(diào)或參數(shù)適應(yīng)。真實(shí)失真數(shù)據(jù)集交叉驗(yàn)證實(shí)驗(yàn)結(jié)果見(jiàn)表4。由表4中的數(shù)據(jù)可知,CoMS在所有交叉測(cè)試數(shù)據(jù)集上均達(dá)到了最優(yōu)異的性能,表明CoMS模型具有很強(qiáng)的特征提取能力,相較于其他方法其在不同場(chǎng)景中的預(yù)測(cè)結(jié)果更加可靠。
3.6消融實(shí)驗(yàn)
為深入探究本文所提方法中網(wǎng)絡(luò)的不同組成部分和損失函數(shù)的影響,本文針對(duì)各個(gè)模塊進(jìn)行了消融實(shí)驗(yàn)。消融實(shí)驗(yàn)同樣重復(fù)10次,以SRCC和PLCC的中位數(shù)為結(jié)果。在BID和LIVEC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表5所示。其中,SAM代表網(wǎng)絡(luò)僅由前兩個(gè)階段的卷積調(diào)制模塊組成;SAM+SA代表網(wǎng)絡(luò)由4個(gè)階段組成(后兩個(gè)階段為普通的自注意力模塊);SAM+DSAFF代表將網(wǎng)絡(luò)中的自注意力替換為雙支路自注意力特征融合模塊;SAM+DSAFF+FLA表示在第三階段使用DSAFF模塊,在第四階段使用FLA代替雙支路白注意力捕獲全局特征。
由表5中的數(shù)據(jù)可知,模型僅有SAM模塊時(shí)的表現(xiàn)并不好,而在后兩個(gè)階段添加捕獲全局特征的模塊后,其精度得到顯著提升。這充分說(shuō)明了圖像質(zhì)量評(píng)價(jià)不能僅依靠局部特征,還需要結(jié)合局部特征與全局特征的信息。只有當(dāng)模型同時(shí)具備捕獲局部特征和全局特征的能力時(shí),才能夠準(zhǔn)確地感知圖像質(zhì)量。網(wǎng)絡(luò)使用DSAFF模塊代替自注意力模塊后,在BID和LIVEC數(shù)據(jù)集上的SRCC值分別提升了0.015和0.021,說(shuō)明補(bǔ)充通道信息能有效增強(qiáng)網(wǎng)絡(luò)的表征能力。此外,將第四階段的DSAFF模塊用FLA模塊代替之后,模型的參數(shù)量減少了約5.73%,并且在一定程度上提升了模型的性能,所提出的損失函數(shù)也能提升網(wǎng)絡(luò)的預(yù)測(cè)精度。
4結(jié)論(Conclusion)
本文提出了一種基于卷積調(diào)制和注意力機(jī)制的NRIQA模型。它既能捕獲圖像的局部特征,又具備卓越的全局特征建模能力。所提出的雙支路自注意力特征融合模塊,能夠充分利用特征的空間信息和通道信息獲得更精確的質(zhì)量特征表示,特征對(duì)齊損失能夠有效引導(dǎo)局部特征向全局特征過(guò)渡,并且在第四階段使用線性注意力代替雙支路自注意力可以降低模型的參數(shù)量。實(shí)驗(yàn)表明,本文所提方法具有訓(xùn)練效率高、參數(shù)量小、泛化性能強(qiáng)等優(yōu)點(diǎn),并且預(yù)測(cè)結(jié)果比較可靠。