






摘要:為改善空間特征整合與時間動態(tài)重建協(xié)同性,實現(xiàn)局部細節(jié)與全局結(jié)構(gòu)的高效平衡,解決超分辨率算法生物機制映射不足問題,文章受視網(wǎng)膜多級處理機制啟發(fā),提出RetinaDualNet(Retina-Inspired Dual-Pathway Synergy Network)超分辨率重建網(wǎng)絡(luò),構(gòu)建三級生物映射網(wǎng)絡(luò),包括光適應(yīng)編碼層、雙通路整合層和重建層。實驗結(jié)果顯示,該網(wǎng)絡(luò)在Urban100任務(wù)上性能衰減低,在BSD100任務(wù)中SSIM提升。研究表明,視網(wǎng)膜啟發(fā)的雙通路協(xié)同機制可提升超分辨率任務(wù)特征整合效率,異構(gòu)模塊設(shè)計證實生物可解釋設(shè)計的有效性。
關(guān)鍵詞:超分辨率重建;CNN-Transformer異構(gòu)模塊;雙通路時空協(xié)同;視網(wǎng)膜啟發(fā)
中圖分類號:TP391
文獻標(biāo)志碼:A
0 引言
單圖像超分辨率(Single Image Super-resolution Reconstruction, SISR)旨在從低分辨率(Low Resolution, LR)圖像中恢復(fù)高分辨率(High Resolution, HR)細節(jié),在多個領(lǐng)域具有重要應(yīng)用價值?;谏疃葘W(xué)習(xí)的SRCNN[1]、VDSR[2]等模型通過卷積網(wǎng)絡(luò)實現(xiàn)端到端重建,而RCAN[3]、DRCN[4]通過注意力機制與遞歸結(jié)構(gòu)優(yōu)化特征提取,但仍存在全局建模不足的問題。Transformer 在 SwinIR[5]、AC[6]混合架構(gòu)等SR模型中展現(xiàn)了全局建模優(yōu)勢,但其高計算復(fù)雜度制約了實際應(yīng)用。
針對輕量化SR模型設(shè)計中局部與全局特征協(xié)同不足的挑戰(zhàn),本文受視網(wǎng)膜多尺度信息處理機制啟發(fā),提出RetinaDualNet網(wǎng)絡(luò),光適應(yīng)編碼層PAEL通過多尺度卷積與動態(tài)補償機制,模擬感光細胞的場景適應(yīng)能力;雙通路時空協(xié)同架構(gòu)通過跨尺度特征融合單元SFFU融合深層結(jié)構(gòu)特征。SFFU包含層級遞歸蒸餾模塊HRDFB與雙流調(diào)制自注意力塊DSMSAB,分別模擬雙極細胞OFF通路的局部梯度增強和ON通路的全局關(guān)聯(lián)建模。
1 RetinaDualNet 網(wǎng)絡(luò)設(shè)計
本文提出的超分辨率重建網(wǎng)絡(luò) RetinaDualNet總體框架模擬視網(wǎng)膜層級化信息處理機制,其核心模塊與視網(wǎng)膜細胞功能形成精確映射[7],如圖1所示。光適應(yīng)編碼層PAEL模擬感光細胞的動態(tài)光電響應(yīng)特性,實現(xiàn)寬域光強的魯棒編碼;雙通路整合層DPIL由時空融合單元SFFU實現(xiàn)異構(gòu)特征互補,由層級遞歸蒸餾模塊HRDFB和雙流調(diào)制自注意力塊DSMSAB構(gòu)成,分別模擬視網(wǎng)膜OFF/ON雙極細胞的局部梯度增強與全局關(guān)聯(lián)建模。
1.1 光適應(yīng)編碼層
光適應(yīng)編碼層(Photo-Adaptive Encoding Layer, PAEL)模擬視網(wǎng)膜感光細胞[17]的多尺度動態(tài)響應(yīng)特性,其設(shè)計融合視桿細胞的暗視覺敏感性和視錐細胞的明視覺適應(yīng)性。如圖2所示,該模塊由壓縮-擴展深度卷積CEDConv和暗電流補償構(gòu)成,通過生物啟發(fā)式計算實現(xiàn)光照魯棒性特征提取。
CEDConv級聯(lián)標(biāo)準(zhǔn)卷積和分組卷積模擬視網(wǎng)膜雙通路響應(yīng)機制?;谝暰W(wǎng)膜感光細胞的暗電流動態(tài)調(diào)節(jié)特性,使用1×1卷積層和Sigmoid函數(shù)實現(xiàn)自適應(yīng)門控機制實現(xiàn)特征空間的基線噪聲抑制。其過程可表示為:
XPAEL=HPAEL(ILR)(1)
式(1)中,ILR表示低分辨率圖像,HPAEL表示PAEL模塊,XPAEL表示PAEL模塊輸出。
1.2 雙通路特征整合層
在視網(wǎng)膜的信息傳遞體系中,雙極細胞作為感光細胞與神經(jīng)節(jié)細胞間的關(guān)鍵樞紐[18],通過其獨特的信號調(diào)制實現(xiàn)視覺信息的特征編碼。其中,給光型雙極細胞(ON)的功能機制與 Transformer 架構(gòu)存在功能相似性,類似于自注意力機制中的全局關(guān)聯(lián)計算,為雙流調(diào)制自注意塊DSMSAB的設(shè)計提供了仿生學(xué)依據(jù);撤光型雙極細胞(OFF)的工作機制與CNN的局部特征提取具有可比性,其層級式的信號傳遞模式啟發(fā)了層級遞歸蒸餾融合塊HRDFB的設(shè)計。
結(jié)合視網(wǎng)膜ON/OFF雙極細胞的異構(gòu)處理機制[21],共同構(gòu)建時空特征融合單元SFFU動態(tài)耦合,實現(xiàn)局部細節(jié)保持與全局結(jié)構(gòu)約束的平衡,如圖3所示。其過程可表示為:
XSFFU=HSFFU(XPAEL)(2)
式(2),中HSFFU表示SFFU模塊,XSFFU表示SFFU模塊輸出。
1.3 層級遞歸蒸餾融合塊
層級遞歸蒸餾融合塊(Hierarchical Recursive Distillation Fusion Block, HRDFB)通過遞進式蒸餾特征提取架構(gòu),創(chuàng)新性地模擬視網(wǎng)膜OFF雙極細胞實現(xiàn)對局部梯度信息的層級化處理和細節(jié)增強。HRDFB的結(jié)構(gòu)如圖4所示。
該模塊串聯(lián)4個HCRB為核心,感受野從初始3×3逐級擴展至9×9,每個HCRB由分組卷積和深度可分離卷積構(gòu)成,用于解耦不同空間頻率特征和挖掘深層特征??鐚犹卣髡麴s機制通過通道維度的漸進式壓縮實現(xiàn),使用1×1卷積將四級特征跨層拼接后壓縮回原始通道維度,形成具有多尺度梯度敏感性的融合特征。其過程可表示為:
XHRDFB=HHRDFB(XPAEL)(3)
式(3)中,HHRDFB表示HRDFB模塊,XHRDFB表示HRDFB模塊輸出。
1.4 雙流調(diào)制自注意塊
雙流調(diào)制自注意塊(Dual-Stream Modulation Self Attention Block,DSMSAB)的設(shè)計受視網(wǎng)膜ON雙極細胞動態(tài)特征響應(yīng)特性的啟發(fā),如圖5所示。
ON雙極細胞能夠整合視網(wǎng)膜上不同位置的光照強度增加信號,通過其樹突野的空間極性響應(yīng)特性,
在視覺通路中優(yōu)先編碼局部亮度增強信號,該生物學(xué)特性在模塊中體現(xiàn)為滑動窗口注意力SPA引導(dǎo)的多尺度特征交互機制HFTA。DSMSAB的前饋網(wǎng)絡(luò)MDTA采用雙流門控調(diào)制架構(gòu),通過通道解耦與空間特征交互實現(xiàn)動態(tài)特征優(yōu)化。其過程可表示為:
XDSMSAB=HDSMSAB(XPAEL)(4)
式(4)中,HDSMSAB表示DSMSAB模塊,XDSMSAB表示DSMSAB模塊輸出。
2 實驗與結(jié)果分析
本實驗選取DIV2K作為訓(xùn)練集,另選 Set5、Set14、BSD100和Urban100作為測試集全面評估模型性能。圖像超分辨率重建測試在Y通道上進行。使用峰值信噪比PSNR和結(jié)構(gòu)相似性SSIM來評估模型重建圖像的性能。
為全面驗證RetinaDualNet的跨尺度重建能力,與前沿超分方法ESRT[8]、IMDN[9]以及IFIN[10]進行對比。重建性能客觀指標(biāo)如表1所示。
如表1所示,RetinaDualNet在跨尺度超分任務(wù)中展現(xiàn)出顯著優(yōu)勢。在不同放大任務(wù)中,本方法僅擁有 619 K參數(shù)量,在對比的多個輕量化模型中取得顯著領(lǐng)先。在紋理敏感的BSD100數(shù)據(jù)集上,SSIM為0.7401,超越所有對比模型,驗證了 HRDFB 模塊的多尺度梯度蒸餾有效性?,F(xiàn)有方法在跨尺度任務(wù)中呈現(xiàn)性能衰減,在Urban100(×2到×4)數(shù)據(jù)集上,ESRT的PSNR下降6.60 dB,而RetinaDualNet 僅下降5.94 dB,降幅減少10.0%,證明SFFU時空融合機制的跨尺度穩(wěn)定性。此外,RetinaDualNet在結(jié)構(gòu)性場景,如Urban100數(shù)據(jù)集上的SSIM指標(biāo)為0.7900顯著優(yōu)于次優(yōu)模型IFIN,表明雙通路協(xié)同機制更適應(yīng)復(fù)雜邊緣重建需求,獲得更好的重建質(zhì)量。
為直觀評估各算法在高倍率(×4)超分任務(wù)中的細節(jié)重建能力,本實驗選取BSD100 數(shù)據(jù)集中的橋體紋理樣本,用于測試結(jié)構(gòu)邊緣銳度恢復(fù);選取Urban100數(shù)據(jù)集中的建筑結(jié)構(gòu)樣本,以評估偽影抑制能力;選取Urban100數(shù)據(jù)集中墻面結(jié)構(gòu)樣本,用于檢測高頻紋理保留度。
視覺對比實驗清晰顯示了RetinaDualNet在復(fù)雜場景重建中的顯著優(yōu)勢,如圖 6 所示。在圖 6(a)中,ESRT將原本直線的橋面紋理重建為斜線,IFIN重建線條出現(xiàn)斷點,影響了圖像重建的準(zhǔn)確性。而RetinaDualNet 通過HRDFB模塊的多尺度梯度蒸餾,完整保留了橋面線條的連續(xù)性與間隙的幾何一致性。對于圖 6(b)中ESRT和IFIN重建建筑線條出現(xiàn)交叉,RetinaDualNet則通過DSMSAB模塊的全局關(guān)聯(lián)約束,實現(xiàn)了建筑線條的亞像素級對齊,顯著優(yōu)于對比模型。在圖 6(c)中,所有算法對于磚墻紋理出現(xiàn)模糊化傾向,細節(jié)層次丟失,RetinaDualNet借助SFFU的動態(tài)特征融合機制,能較好地重建高頻紋理豐富度。實驗表明,雙通路協(xié)同設(shè)計中,HRDFB提取的梯度特征和DSMSAB建模的全局關(guān)聯(lián)特征能提升重建圖像的結(jié)構(gòu)保持與細節(jié)恢復(fù)。
3 結(jié)語
本文提出基于視網(wǎng)膜層級化信息處理機制的雙通路協(xié)同超分辨率網(wǎng)絡(luò) RetinaDualNet,模擬細胞功能構(gòu)建有生物可解釋性的深度網(wǎng)絡(luò)架構(gòu)。實驗顯示,光適應(yīng)編碼層PAEL提升了寬域光強場景特征編碼魯棒性,雙通路特征整合層DPIL通過HRDFB與DSMSAB的異構(gòu)特征建模,實現(xiàn)局部與全局協(xié)同優(yōu)化,時空特征融合單元SFFU有效平衡了雙通路特征貢獻。在跨尺度超分任務(wù)中,該模型以619 K參數(shù)量在多個基準(zhǔn)數(shù)據(jù)集獲最優(yōu)性能,體現(xiàn)了視網(wǎng)膜啟發(fā)雙通路機制的優(yōu)勢。
參考文獻
[1]DONG C,LOY C C,HE K,et al.Image super-resolution using deep convolutional networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016(2):295-307.
[2]KIM J,LEE J K,LEE K M.Accurate image super-resolution using very deep convolutional networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,June 27-30,2016,Las Vegas,Nevada,USA.New York:IEEE,2016:1646-1654.
[3]ZHANG Y,LI K,LI K,et al.Image super-resolution using very deep residual channel attention networks[C]//Proceedings of the European Conference on Computer Vision,September 8-14,2018,Munich,Germany.Berlin:Springer International Publishing,2018:286-301.
[4]KIM J,LEE J K,LEE K M.Deeply-recursive convolutional network for image super-resolution[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2016:1637-1645.
[5]LIANG J,CAO J,SUN G,et al.SwinIR:Image restoration using swin transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,October 11-17,2021,Montreal,Canada.New York:IEEE,2021:1833-1844.
[6]YOO J,KIM T,LEE S,et al.Enriched CNN-Transformer feature aggregation networks for super-resolution[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV),2023,Montreal.Canada:IEEE,2022:4945-4954.
[7]BADEN T,BERENS P,F(xiàn)RANKE K,et al.The functional diversity of retinal ganglion cells in the mouse[J].Nature,2016(7586):345-350.
[8]LU Z,LI J,LIU H,et al.Transformer for single image super-resolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,June 19-24,2022,New Orleans,Louisiana,USA.New York:IEEE,2022:457-466.
[9]HUI Z,GAO X,YANG Y,et al.Lightweight image super-resolution with information multi-distillation network[C]//Proceedings of the 27th ACM International Conference on Multimedia.New York:ACM,2019:2024-2032.
[10]WANG L,LI X,TIAN W,et al.Lightweight interactive feature inference network for single-image super-resolution[J].Scientific Reports,2024(1):11589-11601.
(編輯 王雪芬)
Retina-inspired dual-pathway synergy network for super-resolution reconstruction
LIU Junjun
(Institute of Electrical and Information Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract:To improve the synergy between spatial feature integration and temporal dynamic reconstruction, achieve an efficient balance between local details and global structure, and address the insufficient mapping of biological mechanisms in super-resolution algorithms. Inspired by the multi-level processing mechanism of the retina, this paper proposes the RetinaDualNet super-resolution reconstruction network and constructs a three-level biological mapping network, including a light-adaptation coding layer, a dual-path integration layer, and a reconstruction layer. Experiments show that this network has a low performance degradation in the Urban100 task and an improvement in SSIM in the BSD100 task. Research indicates that the retina-inspired dual-path mechanism can enhance the feature integration efficiency of super-resolution tasks, and the design of the heterogeneous module verifies the effectiveness of the bi-interpretable design.
Key words:super-resolution reconstruction; CNN-transformer heterogeneous module; dual-pathway spatiotemporal synergy; retina-inspired