鹿存建,楊進華
(長春理工大學 光電工程學院,長春 130022)
隨著雙目相機[1]和3D 成像設備的迅速發展,雙目圖像超分辨率(Binocular Image Super-Resolution,BISR)在計算機視覺領域引起了廣泛的關注。BISR 旨在從一對低分辨率(Low Resolution,LR)圖像恢復高分辨率(High Resolution,HR)圖像。傳統方法通常針對左視圖和右視圖分別進行單目圖像超分辨率(Single Image Super-Resolution,SISR)處理。近年來,深度學習領域[2]取得了巨大的進展,其中開創性的工作之一的SRCNN(Super-Resolution Convolutional Neural Network)[3],僅通過三層卷積神經網絡就超越了傳統方法。隨后的SISR 方法采用先進的卷積神經網絡(Convolutional Neural Networks,CNN)來提升超分辨率(Super-Resolution,SR)性能。最近,Liang等人[4]基于Swin-transformer 提出了一種圖像恢復方法SwinIR,在SISR 領域實現了最先進的性能。然而,將雙目圖像作為兩個單獨的輸入并不能充分利用跨視圖的信息。相比于僅利用單個視圖內的上下文信息,BISR 能夠利用跨視圖信息,從而獲得更多的紋理細節。Jeon 等人[5]提出了StereoSR 方法,通過聯合訓練兩個級聯子網絡來學習視差先驗,并通過串聯具有不同視差定義的左視圖和右視圖堆疊來整合跨視圖信息。Wang 等人[6]引入了視差注意力機制,有效捕捉了大視差變化下的對應信息,從而改善超分辨率性能。Dai 等人[7]在統一的框架中提出SSRDE-FNet 同時處理雙目圖像超分辨率和視差估計,并以相互促進的方式交互兩個任務。此外,Chu 等人[8]設計了一種基于NAFNet 的骨干網絡NAFSSR,并引入了立體交叉注意模塊(Stereo Cross Attention Module,SCAM)作為視差融合塊。
盡管新提出的BISR 方法在性能方面取得了較大的提升,但對于視圖內和視圖間信息的學習仍有所欠缺。視圖內信息方面,單目視圖內的上下文信息是SR 的基礎,目前的特征提取方法對于提取關注塊的特征相對單一,影響了重建結果的效果。視圖間信息方面,跨視圖信息是BISR 區別于SISR 的關鍵,現有的交叉模塊通常按照橫向極線方向進行視差匹配,忽略了數據集標定引起的縱向誤差,同時對視圖間相似的圖案和紋理缺乏關注。
為了解決上述問題,本文提出了一種基于全局互補注意力的BISR 網絡GCAN(Global Complementary Attention Networks),該網絡在特征提取階段能夠獲取更多的高頻信息,改善視圖內信息的學習。在交叉提取階段,充分利用視圖間的全局信息,對沿橫向極線方向的特征進行互補,從而提高雙目圖像超分辨率的性能。具體而言,本文設計了多注意力提取模塊MAEM(Multi-Attention Extraction Module),該模塊能夠充分探索特征在空間和通道維度上的相關性,提取更多的信息和內容,以便為下一步的圖像重建提供更完善的特征。同時,還設計了全局互補注意力模塊GCAM(Global Complementary Attention Module),用于捕獲來自兩個不同視圖的不同空間層次的特征,并利用全局細節來補充局部細節。GCAN 方法在幾個基準公共數據集上優于iPASSR[6]等BISR 方法。
本節將詳細介紹基于全局互補注意力機制的雙目圖像超分辨率網絡的結構。該網絡結構如圖1 所示,由特征提取模塊(Feature Extraction Module,FEM)、跨視圖交互特征融合模塊(Cross-View Module,CVM)和超分辨率重建模塊(Reconstruction Module,RM)組成。

圖1 全局互補注意力網絡結構
給定、和、作為本文網絡的輸入和輸出。特征提取模塊分為淺層特征提?。⊿hallow Features Extraction,SFE)和深層特征提取(Deep Features Extraction,DFE)。淺層特征提取主要通過一個卷積層來提取LR 輸入圖像的低頻信息:
其中,HSFE(·) 表示一個卷積核為3 × 3 的卷積操作。
其中,F0為左右視圖的淺層特征;,,…,表示由多注意力提取模塊MAEM 提取的深度特征;HCat(·) 表示級聯操作;HConv(·) 表示一個卷積核為1 × 1 的卷積層。最后將所得到的特征送到全局互補注意力模塊GCAM 進行交叉視圖信息提?。?/p>
在重建模塊中,經過GCAM 進行視圖間的交叉信息提取后,與特征提取模塊不同的是,網絡采用四個級聯的殘差密集塊(Residual Dense Block,RDB)作為重建模塊的基本塊。同時利用亞像素卷積(Pixel Shuffle,PS)進行上采樣操作,并將雙三次上采樣(Bicubic Upsampling,BU)的結果作為補充:
MAEM 由多個重復的多注意力提取塊(Multi-Attention Extraction Block,MAEB)組成,用于增強特征的表示能力,構成深度特征提取的基礎組成部分如圖2 上方所示。單個MAEM 可以表示為:

圖2 多注意力提取模塊結構圖
其中,F0為淺層提取特征或上一層MAEM 的輸出結果。網絡中引入了跳過連接,以在訓練過程中繞過豐富的低頻信息,同時充分利用低分辨率(LR)輸入和中間特征的豐富信息。
多注意提取塊MAEB 的結構如圖2 左下所示。在Hu 等人[9]的工作中,注意力模塊在網絡結構設計中起到了關鍵作用,一方面告訴網絡需要關注的特征,另一方面改善感興趣特征的表示能力,將注意力集中在更有信息量的特征上,抑制不必要的特征。為了進一步提高網絡的區分學習能力,受RCAN(Residual Channel Attention Network)[10]和CBAM(Convolutional Block Attention Module)[11]的啟發,設計了一種同時利用空間特征和通道特征相關性的注意力模塊。
通道注意力模塊(Channel Attention Module,CAM)是一種用于利用特征通道之間關系的注意力機制。與空間注意力模塊關注特征的空間內關系不同,通道注意力模塊旨在利用特征的通道間關系。通道注意力圖的計算過程中,首先通過對特征F∈RH×W×C平均池化來聚合特征的空間信息,生成通道向量FC∈R1×1×C。然后將通道特征FC作為輸入來估計通道注意力圖,該過程使用一個縮減比率r來減少通道數,縮減后為R1×1×C/r,可以減少計算量、模型復雜度與參數開銷的同時,保留了關鍵的通道信息。最后得到通道注意力圖MC∈R1×1×C。
空間注意力模塊(Spatial Attention Module,SAM)是一種利用特征的空間關系來生成空間注意力圖的方法。其主要目標是確定更具有信息性的空間位置。實現過程中,模塊需要利用上下文信息來確定強調的空間位置,并且較大的感受野有助于提取更多的上下文信息。本文使用擴張卷積來增加接受場的大小。采用殘差結構可以減少參數量并促進網絡訓練。
具體而言,輸入特征F∈RH×W×C通過投影到具有1 × 1 卷積的較低維度RH×W×C/r中,該特征表示具有較小的通道數。在進行通道壓縮后,本文使用兩個3 × 3 的擴張卷積來有效獲取上下文信息。最后,將這些特征投影到空間注意力圖RH×W×1中,進行1 × 1 卷積操作,得到最終的空間注意力圖MS∈RH×W×1。
給定第m個MAEM 的中間特征圖F∈RH×W×C作為輸入,MAEB 依次推導出通道注意力圖MC∈R1×1×C和空間注意力圖MS∈RH×W×1,MAEB可以表示為:
其中,Res(·)代表殘差塊;?表示逐元素乘法;F′0代表上一模塊的輸出結果。圖2 中展示了通道注意模塊(CAM)和空間注意模塊(SAM)的計算順序,在后文消融實驗章節中將對這一設計選擇進行詳細說明。
現有的雙目圖像超分辨率方法主要依賴于沿著極線的左視圖和右視圖之間的局部特征對應,這將丟失雙目圖像中的全局信息,來自交叉視圖的全局上下文信息也可以用于增強雙目圖像的超分辨率質量,如圖3(a)紅色標注所示。為了充分利用視圖間的信息,本文提出了全局互補注意力模塊(GCAM)并探索沿著極線和全局背景下其他信息的相關性。GCAM 的設計旨在同時考慮全局和局部特征,實現視圖間信息的充分交互和融合,如圖3(b)藍色標注所示。

圖3 視圖間融合方法
本文改進了沿著極線方向的方法iPASSR[6]來進行左右視圖特征的融合,如圖4 左側所示。該方法有助于在雙目圖像中對應的局部特征進行匹配和對齊。受到非局部注意力[12]的啟發,進一步從左右視角的相似區域和紋理出發,對沿極線的單一性進行全局信息的互相補充,如圖4 右側所示。

圖4 全局互補注意力模塊
給定經過深度提取后的特征F∈RH×W×C,首先在極線方向進行糾正,以確保左右視圖在橫向極線上進行匹配。通過層歸一化、殘差塊和1 × 1 卷積層進行預處理,得到特征F′Left∈RW×C、F′Right∈RC×W。值得注意的是,在這一步中省略了縱向維度,并進行了預處理,可以避免訓練過程中可能出現的沖突。然后,通過矩陣運算就可以得到指導左圖的視差注意力圖:
其中,MR→L∈RW×W表示右視圖與左視圖沿著極線的相似性矩陣。類似地,可以對相似性矩陣進行轉置得到ML→R∈RW×W。
同時采用iPASSR 的遮擋方案(Occlusion Scheme,OS)VL和VR來規避左右視圖的遮擋問題,則極線方向的糾正結果為:
其次,為了充分利用來自交叉視圖圖像的全局上下文特征,并尋找相似的紋理和細節來對左視圖進行補充,網絡引入了全局互補注意力機制。該機制能夠有效地建立長距離的依賴關系,并提供對非局部塊的簡化處理,以降低模型的計算復雜度。具體而言,該機制將特征FRight∈RH×W×C通過一個1 × 1 卷積層投影到較低維度的特征空間R(H×W)×1×1上,并對該特征進行歸一化softmax 操作,得到特征的自相關矩陣。該自相關矩陣捕捉了特征之間的相互關系和相似性。
然而,直接利用自相關矩陣可能導致嵌入過多來自橫向視圖圖像的無關信息,而限制了性能的提升。除了跨極線的對應關系外,圖像的某些部分可能與目標區域共享相似的紋理,但是交叉視圖圖像中的大多數其他部分對該區域的超分辨率并沒有貢獻。因此,為了消除那些與目標位置具有較低相似性的特征,以提高模型的準確性,本文引入了一個掩碼來過濾掉交叉視圖中低相似度的特征:
其中掩碼的值只有0 和1,如果值大于閾值,則將其設置為1,否則設置為0,本文按照經驗將閾值設為0.01。通過使用掩碼進行特征過濾,能夠提高模型對關鍵特征的關注度,改善雙目圖像超分辨率的性能。
通過將掩碼應用于自相關矩陣和特征向量FLeft∈RH×W×C,進行矩陣運算,可以得到右圖對左圖有用的互補信息。為了提高模型的泛化能力,本文在兩個1 × 1 卷積層之間添加了層歸一化層作為正則化器,以有利于模型的訓練和推廣能力。通過上述操作得到了包含跨視圖全局信息的全局互補特征,最終獲得交叉提取特征:
根據Wang 等人[6]設計,采用了以下損失函數來幫助網絡充分利用左右圖像之間的對應關系。網絡的總體損失函數定義為:
其中,LSR、分別表示SR 損耗、剩余光度損耗、剩余循環損耗、平滑度損耗和剩余立體一致性損耗。λ表示正則化項的權重,在本文中設置為0.1。
為了進行公平比較,并與先前的工作保持一致,本文采用了與Wang 等人[6]相同的數據集。具體而言,使用了60 張Middlebury 圖像和800 張來自Flickr1024 數據集的圖像作為訓練數據集。對于來自Middlebury 數據集的圖像,對其進行了2 倍的雙三次下采樣,以生成與Flickr1024 數據集的空間分辨率匹配的高分辨率地面真實圖像。對860 張HR 圖像進行了2 倍和4 倍的雙三次下采樣生成低分辨率LR 圖像,并以20 的步幅裁剪30×90 的塊作為輸入樣本。本文所提出的網絡使用Pytorch 框架實現,并在NVIDIA GeForce RTX 3070ti 8g 內存上運行。所有的模型都使用Adam 優化器進行訓練,其中β1= 0.9 和β2= 0.999。批量大小設置為16,初始學習率設置為2 × 10-4,并且學習率每30 個Epochs 減少一半。訓練過程在80 個Epochs 后結束。
本研究選擇多樣性景物、靈活的視差變化和可比較的景深作為測試集的重要條件來評估超分辨率的結果。從不同數據集中選取了測試圖像,包括來自KITTI2012 的20 張圖像、KITTI2015的20 張圖像、Middlebury 的5 張圖像以及Flickr 1024 的112 張圖像。為了進行公平比較,本文按照先前的方法計算了左視圖的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結構相似度(Structural Similarity Index Measure,SSIM)指標。計算過程中,裁剪了左邊界的64 像素,并且這些度量在RGB 顏色空間上計算。此外,本文報告了未進行任何邊界裁剪的雙目圖像對的平均PSNR 和SSIM 指標(Left + Right)/2,用于全面評估重建的雙目超分辨率圖像的質量
本文與幾種先進方法進行比較,包括四種單圖像超分辨率方法(VDSR、EDSR、RDN 和RCAN)以及五種雙目圖像超分辨率方法(StereoSR、PASSRnet、SRResNet+SAM、IMSSRne和iPASSR)。為了公平比較,本研究在相同數據集上進行重新訓練。
表1 列出了不同方法在2 倍和4 倍尺度上的參數量與PSNR/SSIM 結果,黑體為最優結果,下劃線為次優結果。顯然,本文方法在所有數據集和上采樣因子上取得了最佳結果。以Middlebury測試集裁剪的左圖為例,在2 倍尺度下,PSNR 和SSIM 分別比最優方法高出0.34 dB 和0.002 2 dB;在4 倍尺度下,PSNR 和SSIM 分別比最優方法高出0.04 dB 和0.002 2 dB。結果表明,本文所提出的方法能夠有效增強立體圖像的細節和清晰度,并在多個尺度上取得較好性能。

表1 縮放因子為2/4 時在基準測試集下的PSNR/SSIM 指標對比
圖5~8 展示了本文方法與EDSR、RDN、RCAN、StereoSR、PASSRnet、iPASSR 等方法在2 倍和4 倍尺度下的視覺效果可視化圖片。圖5 中本文算法能夠恢復Attentional 文字的具體紋理,其他算法無法捕獲相應的信息。圖6 中本文算法重建出的車牌照更貼近于真實圖片,在線條細節方面優于其他算法。圖7 中其他算法重建的摩托車燈模糊或明顯變形,而本文算法還原了更多的邊緣細節并呈現出清晰度,接近真實圖像。圖8 中其他算法重建的車輪紋理信息丟失嚴重,而本文算法獲得了更好的視覺效果。可視化結果直觀地展示了本文算法在圖像細節和邊緣恢復方面的優勢,證明了其在提高圖像質量和視覺效果方面的重要作用,進一步驗證了本文方法的有效性。

圖5 Flickr1024 在2 倍尺度上的可視化圖片

圖6 KITTI2015 在2 倍尺度上的可視化圖片

圖7 Middlebury 在4 倍尺度上的可視化圖片

圖8 KITTI2012 在4 倍尺度上的可視化圖片
本節用消融實驗驗證所提出方法的有效性。在測試數據集KITTI2012 上進行了4 倍尺度的對比實驗,并僅計算了裁剪左圖的結果。實驗結果如表2 所示。

表2 各模塊在數據集KITTI2012 上的消融實驗
為了驗證雙目圖像相較于單目圖像能夠提供更多信息,使用兩張相同的左圖和雙目圖像進行比較。模型6 相較于模型1 在PSNR 值上提高了0.36 dB,證明了雙目圖像能夠提供比單目圖像更多的信息。模型2、模型3 和模型4 分別比模型6 的PSNR 值降低了0.12 dB、0.12 dB 和0.09 dB,證明了模塊選擇和計算順序的合理性。模型5 采用iPASSR 的biPAM 作為交叉提取模塊,其PSNR 值比模型6 降低了0.07 dB,證明了全局互補注意力模塊進行交叉提取的優越性。消融實驗結果,進一步驗證了本文所提方法的有效性和模塊設計的合理性。
本文提出了一種基于全局互補注意力機制的雙目圖像超分辨率網絡,并設計了多注意力提取模塊和全局互補注意力模塊。通過消融實驗證明,本文所提出的模塊對網絡的性能有明顯的增益。在峰值信噪比和結構相似度兩個客觀評價指標上都獲得了提高,2 倍尺度上,未裁剪雙目圖像的平均結構相似度在Middlebury、KITTI2012、KITTI2015 和Flickr1024 等基準數據集上比iPASSR 等雙目方法分別提高了0.004 7、0.002 4、0.003 2 和0.005 8。實驗結果表明,本文所提出的網絡在雙目圖像超分辨率任務中實現了優秀的重建效果。