999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多尺度特征的無參考圖像質(zhì)量評價算法

2025-03-14 00:00:00張俊張選德
軟件工程 2025年3期

關(guān)鍵詞:無參考圖像質(zhì)量評價;質(zhì)量感知特征;局部特征;全局特征;雙支路自注意力

中圖分類號:TP3 91. 41 文獻標志碼:A

0引言( Introduction)

圖像質(zhì)量評價(Image Quality Assessment,IQA)作為一項基礎(chǔ)的計算機視覺任務(wù),旨在模擬人類主觀判斷,實現(xiàn)對圖像質(zhì)量的自動評估。精準的IQA方法對于指導(dǎo)圖像處理的許多下游任務(wù)非常重要,并且能夠幫助用戶篩選出更具觀感的圖像,提供更出色的視覺體驗。為了學習更準確的質(zhì)量感知特征,本文提出了一種基于卷積調(diào)制與自注意力(Convolutional Modulation and Self-attention,CoMS)的圖像質(zhì)量評價網(wǎng)絡(luò)模型。CoMS能夠銜接網(wǎng)絡(luò)淺層特征向深層特征過渡,對圖像局部特征和全局特征進行建模,并且其參數(shù)量遠小于簡單組合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)與視覺Transformer(Vision Transformer,ViT)的網(wǎng)絡(luò)。具體來說,CoMS在網(wǎng)絡(luò)淺層引入了一種新的卷積調(diào)制結(jié)構(gòu)——尺度感知調(diào)制(Scale-Aware Modulation,SAM)[2],以便于更準確地捕獲局部特征;在網(wǎng)絡(luò)深層使用自注意力模塊捕獲全局特征。為了充分利用特征的空間信息和通道信息,本文提出雙支路自注意力特征融合(Dual Branch Self-attention Feature Fusion,DSAFF)模塊,用于單個自注意力模塊中聚合特征的空間和通道維度信息,增強了網(wǎng)絡(luò)的表征能力。同時,采用交替堆疊SAM模塊和DSAFF模塊的方式使局部特征更高效地過渡到全局特征。在網(wǎng)絡(luò)的第四階段使用線性注意力代替雙支路自注意力,有效避免了多維度使用自注意力所帶來的額外參數(shù)開銷。

1相關(guān)工作(Related work)

目前,NRIQA模型主要基于卷積神經(jīng)網(wǎng)絡(luò)和ViT結(jié)構(gòu)提取質(zhì)量感知特征。一些研究工作利用網(wǎng)絡(luò)淺層提取低級特征、網(wǎng)絡(luò)深層提取語義特征的特點,從不同的CNNs層中提取特征,并通過融合多級特征使網(wǎng)絡(luò)學習多尺度信息。YOU等首次將ViT引入圖像質(zhì)量評價任務(wù),以CNNs提取的圖像特征作為Transformer編碼器的輸入,以此評價圖像質(zhì)量。QIN等針對ViT中的分類令牌(CLS token),引入Transformer解碼器對其進一步解碼;同時,受人類主觀評價的啟發(fā),提出一種新型注意力機制,以解決模型預(yù)測結(jié)果不穩(wěn)定的問題。

盡管采用CNNs和ViT結(jié)構(gòu)在圖像質(zhì)量評價中取得了顯著的成功,但是兩者都存在一定的局限性。CNNs受限于卷積核大小,主要用于捕捉輸入的局部特征,難以對全局特征進行有效建模。ViT中的自注意力機制具備長距離依賴關(guān)系建模的能力,但在計算相似性時忽略了通道維度的信息,并且其二次復(fù)雜度在處理高分辨率圖像時會帶來計算成本過高的問題。圖像質(zhì)量評價依賴于圖像的局部特征和全局特征,GOLESTANEH等嘗試聯(lián)合使用擁有局部建模能力的CNNs和擁有全局建模能力的ViT結(jié)構(gòu),以期構(gòu)建出質(zhì)量特征提取能力更強的NRIQA模型。然而,簡單地將CNNs(例如,RseNet-50)與ViT結(jié)構(gòu)串聯(lián)起來并不能帶來預(yù)期的性能提升,反而會使網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,增加了計算成本。

2基于卷積調(diào)制和自注意力機制的圖像質(zhì)量評價方法(Image quality asessment method based on convolutional modulation and self-attention mechanism)

2.1總體結(jié)構(gòu)

本文首次將卷積調(diào)制應(yīng)用于NRIQA,提出了一種基于卷積調(diào)制和自注意力的NRIQA模型。卷積通過靜態(tài)權(quán)重的方式捕獲局部特征,不具備自適應(yīng)調(diào)整輸出的能力;而卷積調(diào)制具有自適應(yīng)地根據(jù)輸入特征來調(diào)整輸出的優(yōu)點,與自注意力不同,前者是基于卷積提取特征進行輸出的調(diào)制,后者是通過相似性矩陣控制輸出結(jié)果。CoMS網(wǎng)絡(luò)采用了經(jīng)典的金字塔結(jié)構(gòu),整個網(wǎng)絡(luò)結(jié)構(gòu)分為4個階段(圖1)。4個階段的深度分別設(shè)置為3層、4層、9層、2層。其中,線性前饋層由DFFN(Detail-specific Forward Network,DFFN)構(gòu)成。

該網(wǎng)絡(luò)的前兩個階段使用SAM模塊代替普通卷積捕獲局部信息,后兩個階段使用自注意力機制捕獲全局上下文信息。SAM模塊可以捕獲不同粒度和不同感受野的感知特征,并且使用大核卷積增強了網(wǎng)絡(luò)的全局上下文建模能力。第三階段依次堆疊SAM模塊和DSAFF模塊,促使網(wǎng)絡(luò)建模范圍從局部特征過渡到全局特征,混合交替結(jié)構(gòu)如圖2所示。第四階段使用聚焦線性注意力(Focused Linear Attention,F(xiàn)LA)捕獲全局特征,減少由空間和通道自注意力引入的額外參數(shù)。FLA通過一個簡單的聚焦函數(shù)達到Softmax分布的效果,并使用深度可分離卷積恢復(fù)特征多樣性。將提取的質(zhì)量感知特征傳入回歸器,最終得到質(zhì)量評價分數(shù)。與目前的主流模型將圖像質(zhì)量信息融入CLS token中不同,本文提出的CoMS模型直接從圖像本身提取質(zhì)量特征,因此預(yù)測結(jié)果更加可靠。

2.2雙支路自注意力特征融合模塊

圖像質(zhì)量評價任務(wù)同時依賴于圖像的局部特征和全局特征。CoMS在前兩個階段,主要專注于圖像的局部特征。雖然SAM中的大核卷積具備一定的全局特征建模能力,但是無法與自注意力的全局特征建模能力相比。因此,為了加強網(wǎng)絡(luò)的全局特征提取能力,本文提出了DSAFF特征融合模塊。該模塊能夠更充分地利用輸入特征的空間信息和通道信息。雙支路自注意力特征融合模塊如圖3所示,該模塊基于空間自注意力和通道自注意力,其中空間自注意力模塊捕獲空間維度上的全局上下文信息,通道自注意力模塊捕獲通道維度上的全局上下文信息。通過聚合兩個模塊的輸出,DSAFF特征融合模塊獲得了更為精確的質(zhì)量特征表示。

3實驗與結(jié)果分析(Experiment and results analysis)

3.1數(shù)據(jù)集和評價指標

本文在6個公開的IQA數(shù)據(jù)集上評估了所提方法的性能,包括2個合成失真數(shù)據(jù)集LIVE(Laboratory for Image amp; Video Engineering Public-Domain Subjective Image Quality Database)、KADID-10K (Konstanz Artificially Distorted Image Quality Database 10K)和4個真實失真數(shù)據(jù)集BID(Blurred Image Database) 、LIVEC(LIVE In the Wild Image Quality Challenge Database)、KonIQ-lOK(Konstanz ImageQuality 10K Database)、SPAQ(Smartphone Photography Attribute and Quality)。數(shù)據(jù)集詳細信息見表1。

本文采用兩個常用指標,即斯皮爾曼等級相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SRCC)和皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC),分別量化本文所提方法在預(yù)測單調(diào)性和預(yù)測精度方面的表現(xiàn)。這兩個指標的范圍為[-1,1],其絕對值越大,說明方法的性能越好。

3.2實驗設(shè)置

本文代碼基于Pytorchl.7.1和Python3.7實現(xiàn),實驗平臺為NVDIA AlOO-PCIE,顯存容量為40 GB。訓練之前,將圖像最小邊長的分辨率調(diào)整為384,同時保持長寬比不變。在訓練階段,輸入圖像被隨機裁剪為224×224,使用均方誤差作為損失函數(shù),初始權(quán)重為在ImageNet上預(yù)訓練的權(quán)重。梯度下降使用Adam優(yōu)化器,學習率設(shè)置為2×10-5,權(quán)重衰減為1×10-7,批次大小為40。在測試階段,將待測圖像隨機裁剪為5張224×224的圖像,待測圖像的質(zhì)量分數(shù)為5張圖像預(yù)測分數(shù)的平均值。每個數(shù)據(jù)集隨機抽取80%的圖像用于構(gòu)建訓練集,剩下的20%用于構(gòu)建測試集。對于合成失真數(shù)據(jù)集,根據(jù)參考圖像對訓練、測試集進行分割,以確保內(nèi)容的獨立性。為消除數(shù)據(jù)集抽樣偏差的影響,重復(fù)上述過程10次,以SRCC和PLCC的中位數(shù)作為最終結(jié)果。

3.3實驗對比結(jié)果

將本文所提方法與7種最先進的NRIQA方法進行了性能比較。不同方法在6個數(shù)據(jù)集上的性能比較如表2所示。由表2中的結(jié)果可知,相較于現(xiàn)有算法,本文所提方法在4個真實失真的數(shù)據(jù)集(BID、LIVEC、KonIQ-lOK和SPAQ)上的性能都有所提升,在2個合成失真數(shù)據(jù)集LIVE和KADID上取得了與現(xiàn)有方法相當?shù)男阅?。以?個數(shù)據(jù)集涵蓋了各種各樣的圖像內(nèi)容和失真類型,因此要在這些數(shù)據(jù)集上都能取得優(yōu)異的性能是非常具有挑戰(zhàn)性的。與現(xiàn)有的模型相比,CoMS能更準確且全面地評價失真圖像的質(zhì)量分數(shù)。值得注意的是,本文所提方法在BID數(shù)據(jù)集上的性能實現(xiàn)了顯著的提升,相較于TreS的SRCC值提高了約3%。對于合成失真數(shù)據(jù)集,即使CoMS沒有添加額外的合成失真處理模塊,也依然能夠取得優(yōu)異的性能。雖然在LIVE數(shù)據(jù)集上,CoMS的性能略低于DEIQT,但是在最具挑戰(zhàn)性的KADID數(shù)據(jù)集上,CoMS的表現(xiàn)十分出色。以上結(jié)果表明,本文所提方法在應(yīng)對NRIQA任務(wù)時的有效性,尤其是在針對真實失真圖像的評價方面。

3.4模型大小和性能之間關(guān)系的對比分析

為了評估不同NRIQA方法的計算成本與預(yù)測性能之間的關(guān)系,本文對比了5種NRIQA方法的模型參數(shù)量以及在LIVEC數(shù)據(jù)集上的SRCC、PLCC值。模型的參數(shù)量及LIVEC數(shù)據(jù)集上的實驗結(jié)果對比如表3所示。由表3中的數(shù)據(jù)可知,本文所提方法的參數(shù)量僅有25.17M,遠小于MANIQA和TreS的參數(shù)量,與網(wǎng)絡(luò)規(guī)模最小的DEIQT十分接近。不僅如此,本文所提方法也達到了最優(yōu)異的性能,在同等級的參數(shù)量下,其性能超越了DEIQT。以上結(jié)果表明,本文所提方法在模型參數(shù)量與性能之間達到了較好的平衡,能以較小的計算成本獲得更準確的預(yù)測結(jié)果。

3.5模型泛化性能對比分析

不同數(shù)據(jù)集的數(shù)據(jù)分布可能不同,因此在這些數(shù)據(jù)集上訓練的模型可能只適用于特定場景。本文通過跨數(shù)據(jù)集交叉驗證實驗來評估所提方法的泛化能力,其中在評估模型泛化能力時,模型先在單一數(shù)據(jù)集上進行訓練,然后在其他數(shù)據(jù)集上也進行了測試,測試過程不進行任何微調(diào)或參數(shù)適應(yīng)。真實失真數(shù)據(jù)集交叉驗證實驗結(jié)果見表4。由表4中的數(shù)據(jù)可知,CoMS在所有交叉測試數(shù)據(jù)集上均達到了最優(yōu)異的性能,表明CoMS模型具有很強的特征提取能力,相較于其他方法其在不同場景中的預(yù)測結(jié)果更加可靠。

3.6消融實驗

為深入探究本文所提方法中網(wǎng)絡(luò)的不同組成部分和損失函數(shù)的影響,本文針對各個模塊進行了消融實驗。消融實驗同樣重復(fù)10次,以SRCC和PLCC的中位數(shù)為結(jié)果。在BID和LIVEC數(shù)據(jù)集上的實驗結(jié)果如表5所示。其中,SAM代表網(wǎng)絡(luò)僅由前兩個階段的卷積調(diào)制模塊組成;SAM+SA代表網(wǎng)絡(luò)由4個階段組成(后兩個階段為普通的自注意力模塊);SAM+DSAFF代表將網(wǎng)絡(luò)中的自注意力替換為雙支路自注意力特征融合模塊;SAM+DSAFF+FLA表示在第三階段使用DSAFF模塊,在第四階段使用FLA代替雙支路白注意力捕獲全局特征。

由表5中的數(shù)據(jù)可知,模型僅有SAM模塊時的表現(xiàn)并不好,而在后兩個階段添加捕獲全局特征的模塊后,其精度得到顯著提升。這充分說明了圖像質(zhì)量評價不能僅依靠局部特征,還需要結(jié)合局部特征與全局特征的信息。只有當模型同時具備捕獲局部特征和全局特征的能力時,才能夠準確地感知圖像質(zhì)量。網(wǎng)絡(luò)使用DSAFF模塊代替自注意力模塊后,在BID和LIVEC數(shù)據(jù)集上的SRCC值分別提升了0.015和0.021,說明補充通道信息能有效增強網(wǎng)絡(luò)的表征能力。此外,將第四階段的DSAFF模塊用FLA模塊代替之后,模型的參數(shù)量減少了約5.73%,并且在一定程度上提升了模型的性能,所提出的損失函數(shù)也能提升網(wǎng)絡(luò)的預(yù)測精度。

4結(jié)論(Conclusion)

本文提出了一種基于卷積調(diào)制和注意力機制的NRIQA模型。它既能捕獲圖像的局部特征,又具備卓越的全局特征建模能力。所提出的雙支路自注意力特征融合模塊,能夠充分利用特征的空間信息和通道信息獲得更精確的質(zhì)量特征表示,特征對齊損失能夠有效引導(dǎo)局部特征向全局特征過渡,并且在第四階段使用線性注意力代替雙支路自注意力可以降低模型的參數(shù)量。實驗表明,本文所提方法具有訓練效率高、參數(shù)量小、泛化性能強等優(yōu)點,并且預(yù)測結(jié)果比較可靠。

主站蜘蛛池模板: 99视频精品全国免费品| 亚洲区欧美区| 永久免费AⅤ无码网站在线观看| 色综合五月| 婷婷六月综合| 在线一级毛片| 亚洲第一中文字幕| 欧美精品高清| 色综合综合网| 激情网址在线观看| 1级黄色毛片| 老司国产精品视频| 久久中文无码精品| 91青青草视频在线观看的| 中文字幕丝袜一区二区| 亚洲—日韩aV在线| 国产成熟女人性满足视频| 高清无码一本到东京热| 夜精品a一区二区三区| 六月婷婷激情综合| 国产三区二区| 99人妻碰碰碰久久久久禁片 | 国产人人射| 国产91av在线| 久久综合五月婷婷| 亚洲欧美极品| 国产凹凸一区在线观看视频| 免费jjzz在在线播放国产| 2021天堂在线亚洲精品专区| 女人18毛片水真多国产| 91青青视频| 国产成人福利在线视老湿机| 精品国产一二三区| 国产一区二区三区在线观看视频| 国产亚洲精品在天天在线麻豆| 亚洲国产亚洲综合在线尤物| 色婷婷在线播放| 久久黄色影院| 2022国产无码在线| 日韩无码视频专区| 亚洲美女久久| 亚洲一区二区三区国产精品| 国产精品三级专区| 毛片卡一卡二| 国产成人乱无码视频| 欧美综合区自拍亚洲综合天堂| 国产99精品久久| 亚洲综合九九| 激情视频综合网| 精品人妻一区无码视频| 极品私人尤物在线精品首页| 国产亚洲精品无码专| 国产在线日本| 日本精品视频| 九九热在线视频| 国产清纯在线一区二区WWW| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩最新中文字幕| 99九九成人免费视频精品| 伊人久久婷婷五月综合97色| 国产丰满大乳无码免费播放 | 欲色天天综合网| 日韩毛片免费观看| 亚洲中文字幕久久精品无码一区| 成年人福利视频| 911亚洲精品| 中文字幕佐山爱一区二区免费| 国产69精品久久久久妇女| 国产香蕉97碰碰视频VA碰碰看| 日本伊人色综合网| 国产精品白浆无码流出在线看| 国产情精品嫩草影院88av| 手机看片1024久久精品你懂的| 国产一区二区三区在线无码| 国产产在线精品亚洲aavv| 欧美日韩精品在线播放| 亚洲av无码牛牛影视在线二区| 中文字幕啪啪| 亚洲无码不卡网| 最新亚洲人成无码网站欣赏网| 成人在线综合| 黄色网站不卡无码|