A dual-branch no-reference image quality assessment network guided by Transformer and a weight token
GUO Ying-Cong,TANG Tian-Hang,LIU Yi-Guang (College of Computer Science,Sichuan University,Chengdu 6lOo65,China)
Abstract: No-Reference Image Quality Assessment (NR-IQA) is a fundamental task in the field of computer vision,which aims to generate quality evaluation results consistent with human perception.However, image quality is jointlydetermined bycontent and distortion,and their complex interactions pose significant challenges for accurate prediction.This paper proposes a dual-branch network for image quality assessment, which separately extracts content and distortion features.The model incorporates a Transformer and a weight token for feature encoding and decoding,thereby accurately capturing quality-related semantics. Specifically, the content branch employs a ResNet5O backbone pre-trained on ImageNet to extract multi-level content features.For thedistortion branch,adistortion-aware dataset is specificallyconstructed,and adistortion feature extractor is trained using a Siamese network architecture.In addition,a Deformable Channel Atention (DCA)module is introduced to sample key features in both spatial and channel dimensions,facilitating efficient feature integration.Finaly,a Transformer with a weight token is utilized to capture global interactions between content and distortion features,guiding the original features to acquire quality-weighted representations.Experimental results demonstrate that across six public image quality assessment datasets,the model achieves average SRCC and PLCC values of O. 9O8 and O.919,outperforming mainstream methods.
Keywords: No-reference Image quality assessment;Content-distortion feature fusion; Pretraining;Dualbranch;Transformer;Weight token
1引言
隨著信息廣泛共享,互聯網上充斥著海量的數字圖像.這些圖像在獲取、壓縮、存儲和顯示過程中不可避免地受到各種失真的影響[1].因此,準確的圖像質量評價對于提升用戶體驗至關重要.當前,客觀圖像質量評價算法可以分為3類2:全參考、部分參考和無參考.由于參考信息難以獲取,前兩種算法的應用場景受到較大限制.本文聚焦于無參考圖像質量評價算法.
針對無參考圖像質量評價,已有大量研究進行了探索.早期方法[3-6主要設計手工特征進行質量回歸預測.但由于手工特征的表達能力有限,往往導致性能欠佳或僅適用于特定失真類型.近年來,許多基于深度學習的方法相繼提出,并取得了顯著進展.這些方法大致分為兩類.
第1類方法設計專用于質量任務的網絡結構[7-10],并直接進行模型訓練.例如,Guo等[11]從不同視角提取特征,并利用內容感知超網絡和一致性監督策略進行特征映射以增強模型對不同圖像內容和失真類型的適應能力.Wei等[12提出了多尺度密集網絡,將失真特征和多尺度的內容特征進行細粒度空間對齊,并通過跨尺度壓縮融合機制構建質量表征.但是,圖像質量標注需要耗費大量人力,導致現有質量評價數據集的規模相對較小,在數據不足的情況下,這些缺乏先驗知識的模型表現并不理想.
第2類方法從視覺相關任務上提取知識先驗[13-15],然后進行語義微調.受自由能原理[16]的啟發,一些研究[17.18]嘗試結合圖像恢復技術進行質量評價.例如,Pan等[19]提出了一種全新的特征補償網絡用于圖像恢復,然后通過恢復圖像和失真圖像的特征信息共同構建質量表征.雖然取得了一定成效,但對恢復效果的依賴性限制了此類方法的性能.Su等20]利用在分類任務上訓練的ResNet5021提取多層次內容特征,然后從高級語義特征構建質量回歸準則來聚合不同層次特征.Golestaneh等[22]進一步引人Transformer[23]捕捉特征間的全局依賴關系,并結合秩序約束損失校準質量排序.然而,分類任務更多關注物體內容語義,這導致上述模型缺乏對失真信息的感知,研究表明[24],圖像質量主要由其內容和失真共同決定,如圖1所示.圖1中的圖像均源自KADID數據集[25].對圖1a和c施加相同強度的白噪聲,圖1a中更復雜的紋理有效減弱了失真的影響,因而得分高于圖1c.相反,當對圖1b和d施加相同強度的色域偏移時,復雜紋理加劇了圖1b中的偽影效應,導致其得分更低.基于此,一些研究嘗試從內容和失真兩個角度設計預訓練任務.

Zhou等[26通過自編碼器和畸變校準器提取內容和失真特征,但其融合模塊僅使用卷積和線性投影計算特征權重,導致特征間缺乏全面的交互,從而丟失了全局依賴信息.Re-IQA采用自監督學習應對質量標簽缺乏的問題,并在大量失真圖像中聚類特征.然而,該方法在聚類過程中使用相似內容場景的裁剪塊作為同類樣本,這導致模型在失真特征提取過程中受到內容信息的干擾,難以有效地分離特征.此外,這些方法僅使用合成失真數據集進行預訓練,限制了模型提取失真特征的泛化能力.DBCNN28]雖然通過雙分支分別捕捉真實失真和合成失真,但其真實失真分支采用的是面向分類任務的網絡骨干,更多關注內容信息,而未能有效提取真實失真特征,因此在真實失真數據集上表現欠佳.
針對上述問題,我們提出了1種基于Transformer權重令牌增強的雙分支圖像質量評價網絡,該網絡能夠精確提取內容和失真特征,并捕捉特征間全局交互關系,主要貢獻如下:(1)提出了一種獨立于內容信息的失真感知數據集構建策略,制作了包含更廣泛失真特征的預訓練數據集.此外,設計孿生網絡框架訓練失真提取器,用于捕捉與內容無關的失真特征;(2)采用雙分支架構分別提取多尺度的內容和失真特征,并提出可變形通道注意力模塊,在特征空間和通道維度采樣關鍵信息,減少特征冗余;(3)利用Transformer捕獲內容特征和失真特征之間的全局交互關系,構建權重令牌,進而引導不同特征語義自適應融合,生成更精準的質量表征.
2方法
2.1 模型整體結構
本節詳細介紹所提出的方法.網絡整體結構如圖2所示.內容分支采用在ImageNet[29]上訓練的ResNet5O作為特征提取器,失真分支則基于經過失真預訓練任務優化的EfficientNet-BO[30].隨后,利用可變形通道注意力模塊(DeformableChannelAttentionMoudle,DCA)分別整合兩分支的多尺度特征,以減少特征冗余.為實現特征自適應加權,我們引入權重令牌,將其與兩個分支的特征拼接后輸人Transformer編碼器以捕獲內容特征與失真特征之間的全局交互關系,并將交互信息嵌入到權重令牌中.在解碼階段,通過查詢權重令牌生成加權后的特征表示,用于質量分數的回歸預測.

2.2失真感知數據集構建
我們組合2個合成失真數據集CID-IQ[31]、VCL@FER2以及1個真實失真數據集LIVEFB[33]構建失真感知數據集,使其包含更加豐富的失真特征.CID-IQ數據集包含23張參考圖像,每張圖像經過6種失真類型的處理,涵蓋JPEG壓縮、JP2K壓縮、泊松噪聲、模糊以及兩種色域映射,每種失真具有5個退化級別.VCL@FER數據集也由23張參考圖像組成,每張圖像經過4種失真類型的處理,包括JPEG壓縮、JP2K壓縮、高斯噪聲和白噪聲,每種失真擁有6個退化級別.LIVEFB是一個大規模真實失真數據集,包含39810張失真圖像.圖像質量評價數據集的詳細信息如表1所示.

為了讓失真特征提取器在不同內容場景下關注于失真退化差異,對于合成失真數據集,我們選擇相同失真類型,不同內容的圖像,并依據退化級別,來構建失真圖像對
.i, i′∈[1,N ]表示不同內容的圖像, j∈[1,C ]表示相同類型的失真,l,l′∈[1,L] 表示不同的退化程度.配對過程如圖3所示,其圖左右分別表示合成失真和真實失真數據集的配對方式.設 N 為參考圖像數, c 為失真類型數, L 為退化級別數,則生成的失真對數可計算為 :(N-1)×N×L×(L+1)×C/2. 對于CID-IQ數據集,上述過程共生成了45540對圖像.類似地,VCL@FER數據集產生了42504對圖像.
真實失真數據集采集于網絡或者真實攝影,缺乏明確的失真類型,因此無法直接生成不同失真退化級別的圖像對.這里假設質量分數較低的圖像通常退化級別較高;反之,分數較高的圖像一般擁有較低的退化級別.基于此,我們用質量得分作為退化級別的近似,從LIVEFB數據集中選擇質量得分最高的300張圖像和質量得分最低的300張圖像構建真實失真圖像對,在剔除灰度圖像和分辨率小于224像素的圖像后,共獲得87607對圖像.
我們隨機選擇失真圖像在對中的位置以避免數據偏置.若對中第1張圖像的退化級別更低則為該對分配標簽1,否則分配標簽0.最后,將合成失真對與真實失真對隨機混合,得到失真預訓練數據集.

2.3 特征預訓練
鑒于孿生網絡[34]在特征差異識別中的優越性,以及EfficientNet輕量高效的特點,我們設計了基于EfficientNe-BO骨干的孿生網絡進行失真感知預訓練.模型總體框架如圖4所示.

設EfficientNet-BO骨干網絡為 E ,輸入圖像對為 Ipair=(I1,I2),I1,I2∈R3×224×224 首先將 Ipair 送入 E 中進行特征編碼:

其中, we 表示 E 的網絡參數.輸入圖像 I1,I2 共享權重
并分別得到多尺度特征圖 f1,f2 .EfficientNet-BO共有9個特征階段,為了兼顧高層次和低層次語義信息,我們選取第3、4、8、9階段的特征圖用于特征差異感知.對 fj ,使用
表示上述4個階段的特征圖,其中 j∈{1,2} , i∈{1,2,3,4} ,特征圖具體尺寸如表2所示.
將特征圖逐元素作差,得到特征差異圖: Fi=
.隨后,通過非對稱卷積塊提取失真特征的細節信息.具體過程如下.

其中, ?Km×n 表示核大小為 m×n 的卷積操作; ⊕ 表示逐元素加法; σ 表示激活函數RELU; bn 表示批量歸一化,對不同尺度的特征圖應用不同卷積步幅,得到輸出特征圖
將 Fouti 沿通道拼接后進行池化、回歸,最終得到失真退化預測概率如下式.

其中,Concat表示拼接操作;MLP為多層感知機;AvgPool表示平均池化;Sigmoid激活函數用于約束概率值在 0~1 之間.
在預訓練階段,我們使用二元交叉熵作為損失函數:

其中, ?Pi 和 gi 分別表示第 i 個圖像對中第1張圖片退化程度更低的概率預測值和真值; N 表示批量大小.
訓練好的EfficientNet-BO將作為質量預測網絡的失真特征提取器.對于內容分支,則使用在ImageNet上訓練的ResNet5O骨干作為特征提取器.由于ImageNet數據集涵蓋了豐富多樣的物體場景,預訓練的ResNet5O能夠有效捕捉的內容語義.ResNet50有4個特征階段,在質量預測網絡中,提取其前3階段特征圖以及EfficientNet-B0第3、4、8階段的特征圖,分別作為內容特征(204號
和失真特征
,其中k∈{1,2,3}

2.4可變形通道注意力模塊DCA
DCA模塊用于高效整合多尺度特征,減少特征冗余.如圖5所示,DCA結合可變形卷積[35]和通道注意力機制[36],能夠在空間和通道維度上動態捕捉關鍵特征,從而有效提升特征表達能力.
首先,對內容特征 Cfk 和失真特征 Dfk 應用可變形卷積,使用不同步幅統一特征圖空間尺寸為 7x 7.可變形卷積通過動態偏移調整卷積點的位置,公式如下.

其中, ?0 表示卷積中心點; ρn 表示原始卷積點的位置.若卷積核的尺寸為 3×3 ,則 R2∈{-1,0,1}× {-1,0,1}.Δpn 是一個二維偏移量,表示原始卷積點在寬高方向上的偏移; w 表示卷積核; x 為輸人特征圖.接著,使用通道注意力增強特征,表示如下式.
CAttn(x)=Sigmoid(MLP(MaxPool(x))+
MLP(AvgPool(x)))?x
其中, ? 表示逐元素相乘;MaxPool表示最大池化.此外,DCA模塊中使用了普通卷積構建殘差連接來避免特征退化.

由于內容特征 Cfk 通道維度較大,我們使用不同通道壓縮率的可變形卷積,使得經過DCA模塊的三階段 Cf′k 通道維度分別為64、96、224.同時,將失真分支輸出記為 Df′R 在通道級聯后,融合的內容特征 Cf=Concat(Cf′1,Cf′2,Cf′3) 和失真特征 Df= Concat(D,D2,D3)擁有相同維度R384×7×7.
2.5基于Transformer權重令牌的特征編解碼
為更好地捕捉質量評估中失真特征與內容特征的全局交互關系,我們引入權重令牌和Transformer進行特征編解碼.以失真特征 Df∈RC×H×W 為例,將其展平為 Df∈RN×c N=H×W 接下來,構造權重令牌 WT∈R1×c 用于建模內容特征與失真特征在質量評價中的交互關系.拼接 WT 、Df 和 Cf 后得到 Fcd∈R(2N+1)×C 并輸人Transformer編碼器,編碼過程如下.
Fcd=MHSA(LN(Fcd),LN(Fcd),
LN(Fcd))+Fcd
Fcd′=MLP(LN(Fcd))+Fcd
其中,MHSA表示多頭自注意力,計算公式為:



其中, W 為線性投影矩陣.對于 h 個注意力頭,有Q={Q1,Q2,…,Qh}∈RN×c, 其中 Qi∈RN×d d= C/h : K 和 V 的情況類似.LN表示層歸一化; Fcd′ 為編碼器的輸出.類似于 ViT[37] ,我們使用 Fcd′ 的第一維度表示學習到的權重令牌 WT ,即 WT= Fcd′[0].
在解碼階段,使用 Df,Cf 作為查詢,并以 WT 作為鍵和值分別執行交叉注意力解碼,生成質量加權特征. Df 解碼過程如下.
Df′=MHSA(LN(Df),WT,WT)+Df

類似地,對 Cf 進行權重令牌解碼獲得 Fcw 將Fdw 和 Fcw 維度重塑為 Rc×H×W ,沿通道維連接后進行特征池化,最后使用多層感知機預測質量得分.
3實驗
3.1 數據集及評估準則
我們在6個公開的IQA數據集上進行了實驗,包括4個合成失真的數據集: LIVE[38] 、CSIQ[39]TID2013[40]和KADID[25],以及兩個真實失真的數據集:LIVEC[41]和 KonIQ[42] .合成失真數據集通過對原始圖像施加多種類型的失真生成,每種失真類型包含多個退化級別;真實失真數據集從互聯網收集或由相機在多樣化場景中拍攝所得,不具有特定的失真類型.這些數據集詳情見表1.按照慣例,我們采用皮爾遜線性相關系數(PLCC)和斯皮爾曼等級相關系數(SRCC)作為評估指標,其公式分別為:


其中, ?Pi 和 gi 分別表示第 i 張圖像的預測分數和真實分數;
和
為其均值; di 是 ??i 和 gi 在各自序列中位次的差值; N 表示預測圖像總數,這兩個指標范圍均為[一1,1],值越高則預測越準確.
在預訓練階段,每對圖像隨機裁剪出10個大小為 224×224 像素的新圖像對,并繼承原始標簽.采用Adam優化器,學習率設置為 2×10-5 ,權重衰減為 1×10-5 ,批量大小為8,共訓練30個周期.
在質量預測階段,每張圖像隨機裁剪出25個224×224 像素的圖像塊.合成失真數據集按參考圖像隨機劃分為 80% 的訓練集和 20% 的測試集;真實失真數據集則直接按比例劃分.訓練同樣使用Adam優化器,學習率為 2×10-4 ,權重衰減為5×10-5 ,批量大小為32.模型采用余弦退火策略調整學習率,訓練10個周期,第1個周期使用線性預熱.模型架構上,編碼器和解碼器的深度分別為3和1,嵌入維度為384,注意力頭數為6.訓練過程中分支提取器(ResNet5O和EfficientNet-BO)的參數被凍結,損失函數使用SmoothL1Loss.
所有實驗均在1張NVIDIA4070TiGPU上進行,每個數據集重復10次實驗,取PLCC和SRCC的中位數作為算法整體性能指標.
3.2與其他模型的比較
我們將本文模型與8種先進的深度模型進行了比較.這些模型嚴格按照原論文實現,部分方法使用了自身的先驗權重訓練方式,因此實驗中的對比模型未在構建的失真感知數據集上進行預訓練.實驗結果如表3所示.本文表中數值第1和第2的分別用加粗和下劃線表示.可以看到,本文模型在絕大多數數據集上的表現顯著優于MEON和P2P-BM.與同樣采用Transformer結構的TIQA相比,得益于雙分支結構對特征更精細的提取,本文模型在CSIQ上的SRCC和TID2013上的PLCC分別提升了 15.4% 和 4.1% .VCRNet通過圖像恢復任務提升失真感知,但在真實失真數據集LIVEC和KonIQ上,復雜失真顯著增加了恢復的難度,影響了性能表現,相比之下,本文模型在這兩個數據集上的得分明顯高于VCRNet.Re-IQA通過自監督學習增強失真感知能力,但其融合策略較為簡單,未能平衡失真語義和內容語義.因此在大多數數據集上,本文模型依然保持領先.綜合來看,本文模型在6個數據集上具有最高的平均SRCC和PLCC得分,分別為0.908和O.919,驗證了其在無參考圖像質量評價任務中的優異性能.

3.3 交叉驗證實驗
為了評估模型的泛化能力,我們設計了跨數據集驗證實驗,結果如表4所示.在CSIQ數據集上訓練并在LIVEC數據集上測試時,本文模型取得了最高的SRCC值,達到O.905.此外,在真實失真數據集KonIQ和LIVEC的交叉驗證中,本文模型表現出平均最優的性能.相比之下,大多數對比方法在數據規模較小的LIVEC上訓練后,在數據規模較大的KonIQ上表現較差;而所提出的模型在這一場景下仍能保持出色的表現,表明其從小數據集到大數據集的遷移能力較強.總體而言,所提出模型在4組實驗中的3組中取得了最佳或接近最佳的結果,展示了其良好的泛化能力.

3.4單類型失真實驗
在真實場景中,圖像通常包含多種類型失真.為了驗證模型在復雜場景中處理各種失真的能力,我們針對CSIQ數據集的6種失真類型包括JP2K壓縮、JPEG壓縮、白噪聲(WN)、高斯模糊(GB)粉紅高斯噪聲(PN)和對比度衰減(CC)進行了單獨測試.SRCC的測試結果如表5所示.我們的模型幾乎在所有失真類型上均優于其他方法.特別是,在處理JPEG、JP2K和WN失真時表現出色.對于GB,實驗結果與VCRNet相當.值得注意的是,即使是預訓練數據集中未包含的PN和CC失真類型,本文模型依然取得了最佳表現.這表明,本文所提出的模型不僅能精準感知已知失真,還能有效適應新的失真類型,體現了其出色魯棒性.

3.5 消融實驗
本文所提出的模型主要包括失真分支DB、內容分支CB、DCA模塊以及基于Transformer的權重令牌編解碼模塊WED.這些模塊的消融實驗結果如表6所示,實驗表明,無論是缺少內容分支還是失真分支,都會顯著影響模型的性能,因為兩者在提取與質量相關特征方面至關重要.在去除WED模塊后,LIVE數據集的SRCC下降了1. 2% ,TID2013數據集的SRCC下降了 7.3% .在TID2013數據集上下降幅度較大,可能是由于該數據集包含更多的失真類型,在這種情況下,捕捉內容和失真特征之間的全局交互尤為重要.另一方面,去除DCA模塊后,模型在兩個數據集上的性能均有所下降,驗證了該模塊在提取并整合關鍵特征方面的高效性.總體而言,當所有模塊組合使用時,模型性能達到最佳,充分驗證了各組件的必要性.

此外,我們探究了編碼器和解碼器深度對模型表現的影響,實驗結果見表7.在LIVEC和KonIQ數據集上,當編碼器深度為3層、解碼器深度為1層時,模型表現優異.盡管增加層數略微提升了模型在KonIQ上的得分,但效果不顯著,同時也增加了模型參數量.因此,我們使用3層編碼器和1層解碼器作為默認配置,以實現性能與復雜度的平衡.


我們進一步對失真特征圖層次的選取進行了實驗驗證.從失真預訓練階段用于特征差異感知的特征層3、4、8、9中選取部分層次作為失真感知特征.由于組合情況較多,我們進行了適量的測試實驗,結果見表8.當選取的層數較少時,不管是低級特征層3、4還是高級特征層9都缺乏足夠的特征信息,導致模型性能顯著下降;而在使用所有層次特征圖的情況下,雖然性能較優,但相較于選取3、4、8層,提升幅度有限,同時增加了訓練負擔.因此,我們選擇默認層次配置3、4、8作為最終方案.
3.6特征可視化分析
我們對經過DCA模塊后的內容特征、失真特征以及權重令牌質量加權后的融合特征進行了可視化,結果分別對應于圖6的第2、3、4列.以圖6c失真圖像為例,內容特征聚焦于圖中蝴蝶作為主體內容,而對周圍花朵上的模糊效應并不敏感;失真特征則對整幅圖像上的失真區域均有關注,但并不以主體內容為中心;經過加權融合后的特征圖則同時關注了內容與失真信息,并將重點集中在圖像主體內容及其周圍區域,更符合人類的質量感知.由此可見,通過權重令牌引導內容和失真特征加權融合,能夠使模型精準捕捉與質量相關的特征表示.

4結論
為了提升無參考圖像質量評價的精確度,本文提出了一種基于雙分支結構的圖像質量評價網絡,通過預訓練任務提升模型對內容和失真特征的感知能力.具體而言,內容分支采用在ImageNet上預訓練的ResNet5O作為骨干網絡;對于失真分支,則專門構建內容無關的失真圖像對,并基于孿生網絡訓練特征提取器,使其專注于失真語義.接著,引人DCA模塊高效整合多尺度特征,增強特征表達能力.最后,利用Transformer編解碼器和權重令牌捕捉特征之間的全局交互,實現加權融合,從而生成更加精確的質量表征.大量實驗表明,本文所提出的模型在多個公開數據集上表現出色,并且展現出良好的泛化性能,消融實驗進一步驗證了各模塊的有效性.
參考文獻:
[1]Zhai G,Min X.Perceptual image quality assessment:A survey[J].Science China Information Sciences,2020,63:1.
[2] TangL,Yuan L,ZhengG,et al.Dtsn:No-reference image quality assessment via deformable transformer and semantic network [C]//Proceedings of the IEEE International Conference on Image Processing.Abu Dhabi,United Arab:IEEE,2024: 1207.
[3] Mital A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain [J]. IEEE Transactions on Image Processing,2012,21: 4695.
[4] Saad M A, Bovik A C, Charrier C. Blind image qualityassessment:A natural scene statistics approach in the DCT domain[J]. IEEE Transactions on Image Processing,2012,21:3339.
[5] Wang Z,Sheikh HR,Bovik A C.No-reference per ceptual quality assessment of JPEG compressed images[C]//International Conference on Image Processing.Rochester: IEEE,2002:1.
[6]Zhang L,Zhang L,Bovik A C.A feature-enriched completely blind image quality evaluator[J]. IEEE Transactions on Image Processing,2015,24: 2579.
[7]Bosse S,Maniry D,Muller KR,et al.Deep neural networks for no-reference and full-reference image quality assessment[J]. IEEE Transactions on Image Processing,2017,27:206.
[8]Ke J,Wang Q,Wang Y,et al. Musiq:Multi-scale image quality transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal: IEEE,2021:5148.
[9]Pan Z,Yuan F,WangX,et al.No-reference image quality assessment via multibranch convolutional neural networks[J]. IEEE Transactions on Artificial In telligence,2022,4:148.
[10]Zhou M,Lan X,Wei X,et al. An end-to-end blind image quality assessment method using a recurrent network and self-attention[J]. IEEE Transactions on Broadcasting,2022,69:369.
[11]Guo N,Qingge L,Huang Y C,et al. Blind image quality assessment via multiperspective consistency [J]. International Journal of Intelligent Systems, 2023,1:4631995.
[12]Wei Y,Liu B,Luan P,et al. Multi-scale dense description for blind image quality assessment [C]// Proceedings of the IEEE International Conference on Multimedia and Expo.Niagara Falls: IEEE,2024:1.
[13]Zhao K,Yuan K,Sun M,et al. Quality-aware pretrained models for blind image qualityassessment[C]//Proceedings of the IEEE/CVF Confer ence on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:22302.
[14]Zhang W,Zhai G,Wei Y,et al.Blind image quality assessment via vision-language correspondence:A multitask learning perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE, 2023:14071.
[15] Zhou T,Tan S, Zhao B,et al. Multitask deep neural network with knowledge-guided attention for blind image quality assessment [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024,34: 7577.
[16]Friston K,Kilner J,Harrison L.A free energy principlefor the brain[J]. Journal of physiology-Paris, 2006,100:70.
[17]Lin K Y,Wang G.Hallucinated-IQA:No-reference image quality assessment via adversariallearning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattrn Recognition. Salt Lake City: IEEE,2018:732.
[18]Lan X,Zhou M,XuX,et al.Multilevel feature fusion for end-to-end blind image quality assess ment[J].IEEE Transactionson Broadcasting, 2023,69:801.
[19]Pan Z,Yuan F,Lei J,et al. VCRNet:Visual compensation restoration network for no-reference image quality assessment [J]. IEEE Transactions on Image Processing,2022,31:1613.
[20]Su S,Yan Q, Zhu Y,et al. Blindly assess image quality in the wild guided by a self-adaptive hyper network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE,2020: 3667.
[21]He K,Zhang X,Ren S,et al. Deep residual 1- earning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.LasVegas:IEEE,2O16:770.
[22]Golestaneh S A,Dadsetan S,Kitani K M. Noreference image quality assessment via transformers,relative ranking,and self-consistency[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.Waikoloa,HI, USA:IEE,ZUZZ:1ZZV.
[23]Vaswani A,ShazeerN,ParmarN,etal.Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998.
[24]LiD,JiangT,LinW,et al.Which has better visual quality:The clear blue sky or a blurry animal?[J]. IEEE Transactions on Multimedia,2018,21:1221.
[25]Lin H,Hosu V,Saupe D.KADID-1Ok:A largescale artificially distorted IQA database[C]//2019 Eleventh International Conference on Quality of Multimedia Experience.Berlin: IEEE,2019:1.
[26]Zhou Z,Zhou F,Qiu G.Blind image quality assessment based on separate representations andadaptive interaction of content and distortion[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,34: 2484.
[27]Saha A,Mishra S,Bovik A C.Reiqa:Unsupervised learning for image quality assessment in the wild[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:5846.
[28]Zhang W,Ma K,Yan J,et al. Blind image quality assessment using a deep bilinear convoluteonal neural network[J].IEEE Transactions on Circuits and Systems forVideo Technology,2018,30:36.
[29]Deng J,Dong W,Socher R,et al. Imagenet:A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Patternrecognition.Miami:IEEE,20o9:248.
[30]Tan M,Le Q. Efficientnet:Rethinking model scaling for convolutional neural networks[C]//Proceedings of the International Conference on Machine Learning.Baltimore,Maryland:PMLR,2Ol9:6105.
[31]Liu X,Pedersen M,Hardeberg J Y.CID: IQ-a new limage quality database[C]//Proceedings of the 6th International ConferenceImage and Signal Processing.Cherbourg,France:Springer,2Ol4:193.
[32]Zaric A,Tatalovic N,BrajkovicN,etal.VCL@FER image quality assessment database [J]. Automatika,2012,53:344.
[33]Ying Z, Niu H,Gupta P,et al.From patches to pictures(PaQ-2-PiQ):Mapping the perceptual space of picture quality[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2020:3575.
[34]Koch G,Zemel R,Salakhutdinov R. Siamese ncuial nCtwUIns iUI UIC-sHut Iagt IccUguUIl[C」/ Proceedings of the ICML Deep Learning Workshop. Lille,France:ACM,2015:1.
[35]Dai J,Qi H,Xiong Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEE International Conference On Computer Vision.Venice:IEEE,2017:764.
[36]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt LakeCity:IEEE,2018:7132.
[37]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An imageis worth 16X16 words:Transformers for image recognition at scale [EB/OL]. [2024-12-10]. https://arxiv.org/pdf/2010.11929.pdf.
[38]Sheikh H R,Sabir MF,Bovik A C.A statistical evaluation of recent full reference image qualityassessment algorithms [J]. IEEE Transactions on Image Processing,2006,15:3440.
[39]Larson E C,Chandler D M. Most apparent distortion:full-reference image quality assessment and the role of strategy[J]. Journal of Electronic Imaging,2010,19:011006.
[40]Ponomarenko N,Ieremeiev O,Lukin V,et al. Color image database TID2Ol3:Peculiarities and preliminary results[C]//European Workshop on VisualInformationProcessing(EUVIP). Paris: IEEE,2013:106.
[41]Ghadiyaram D,Bovik A C. Massive online crowdsourced study of subjective and objective picture quality[J]. IEEE Transactions on Image Processing, 2015,25:372.
[42]Hosu V,Lin H,Sziranyi T,et al. KonIQ-10k:An ecologically valid database for deep learning of blind image quality assessment[J]. IEEE Transactions on Image Processing,2020,29:4041.
[43]MaK,LiuW,ZhangK,et al.End-to-end blind image quality assessment using deep neural networks[J]. IEEE Transactions on Image Processing, 2017,27: 1202.
[44]You J, Korhonen J. Transformer for image quality assessment[C]//Proceedings of the IEEE International Conference on Image Processing. Anchorage: IEEE,2021:1389.
(責任編輯:伍少梅)