郝 祥, 冷雪飛, 李一能
(1. 南京航空航天大學航天學院, 南京 211106;2. 南京航空航天大學導航研究中心, 南京 211106)
導航系統是現代飛行器不可或缺的組成部分,它能為飛行器控制和任務規劃提供必要的數據參數。 目前, 較為成熟的導航方式有慣性導航、 衛星導航、 視覺導航等。 視覺導航作為一種自主導航技術, 具有全天候獨立工作、 低成本、 高精度的優勢, 被廣泛應用于飛行器導航中[1]。 然而, 特殊導航場景下圖像獲取困難成為推進其進一步工程化的技術難點。 隨著成像技術的發展, 飛行器通過搭載多種傳感器, 能在復雜環境下保證圖像的穩定獲取; 同時, 不同成像設備獲得的異源圖像具有更豐富的信息, 能提升飛行器視覺導航系統的適應性和導航精度。 如何從異源圖像中獲得更多有效信息、 摒棄冗余信息、 構建共性特征,成為異源圖像匹配的熱點問題。
異源圖像成像手段各異, 圖像特征各不相同,難以直接采用傳統圖像匹配算法實現異源圖像匹配[2]。 基于深度學習的匹配算法, 能通過神經網絡的學習能力完成圖像匹配, 一定程度上克服了匹配特征差異大的問題。 例如基于CycleGAN-SIFT 的可見光和紅外圖像匹配[3]、 基于Yolov3 神經網絡的快速圖像精匹配算法[4]、 SFcNet[5]、 RF-Net[6]等,該類方法相比于傳統的匹配方法能在異源圖像上構建較多共性特征或者直接通過網絡學習能力輸出圖像匹配結果, 但仍舊存在特征表述不全面、匹配精度差、 泛化能力差的缺點。
針對異源圖像特征差異大、 匹配效果難以達到飛行器視覺導航領域精度和實時性要求的問題,本文提出了一種基于特征融合的異源圖像匹配算法, 將特征融合后的圖像應用于圖像匹配領域,均衡融合了多方面特征, 大大提升了匹配精度。特征提取階段, 采用Resnet-34 網絡改進編碼網絡,在保證提取深度的基礎上減少了網絡參數復雜度;特征恢復階段, 采用稠密連接改進解碼網絡, 提高了中間層特征的利用率; 特征融合階段, 通過添加注意力機制的融合策略, 優化了異源圖像信息占比; 特征匹配階段, 采用改進的尺度不變特征轉換(Scale Invariant Feature Transform, SIFT) 算法, 提升了異源圖像匹配的精度。 實驗結果表明,本文算法相較于常見方法在特征融合評價指標上具有優越性, 在圖像匹配結果中能獲得更多的匹配點、 更高的匹配精度。
應用于飛行器視覺導航領域的傳感器圖像多為可見光圖像、 紅外圖像和合成孔徑雷達(Synthetic Aperture Radar, SAR)圖像, 圖像特征主要是區域強度、 邊緣細節特征。 本文提出的基于深度學習的異源圖像特征融合網絡, 其結構如圖1 所示,主體結構由基于殘差網絡的編碼網絡、 基于注意力機制的融合策略、 基于稠密連接的解碼網絡構成。

圖1 網絡結構示意圖Fig.1 Schematic diagram of network structure
首先通過將源圖像輸入基于殘差網絡的編碼網絡, 獲取對應的圖像特征; 然后通過基于注意力機制的融合策略優化融合占比, 得到融合特征;最終通過基于稠密連接的解碼網絡, 完成圖像的重構, 得到包含融合特征的圖像。
由于異源圖像成像原理不同, 在同一事物的描述上可以通過不同類型的特征實現。 本文通過采用殘差網絡結構和稠密連接構建編碼-解碼網絡,實現多層次特征的提取和融合, 極大程度上保留了利于圖像匹配的有效特征, 減小了圖像特征差異的不利影響。
訓練過程為: 將編碼網絡和解碼網絡直接進行連接; 損失函數作為網絡訓練的約束條件, 計算輸入為源圖像和重構圖像。 在此基礎上, 獲得具有圖像特征提取和特征恢復能力的編碼-解碼網絡。 特征提取功能由基于殘差網絡的編碼網絡實現, 特征恢復功能由基于稠密連接的解碼網絡實現, 編碼-解碼網絡結構如圖2 所示。

圖2 編碼-解碼網絡結構示意圖Fig.2 Schematic diagram of encoding-decoding network structure
在特征提取階段, 本文算法采用Resnet 網絡[7]完成特征提取。 Resnet 網絡通過添加短連接結構,能保證前后層級特征深度一致時不再進行重復計算, 在網絡構成上避免了梯度消失、 減小了參數量。 因此, 解決了飛行器導航系統實時性和圖像特征提取深度不能兼顧的問題。 此外, 異源圖像特征差異大, 因此需要同時兼顧圖像的淺層特征和深層特征。 通過Resnet 網絡的殘差塊分布, 將網絡主體分為步長為3、 4、 6、 3 的四個殘差層,將中間層特征作為恢復關鍵信息使用, 極大程度上保留了異源圖像的多層級信息。
在特征恢復階段, 解碼網絡采用稠密連接的方式, 將多層級特征按照逐級遞減的方式應用于圖像恢復、 優化特征融合比例。 此外, 采用稠密連接分步恢復的方式, 將中間特征和更淺層次特征進行融合, 保證了特征融合過程中深度差別不大、 消除了語義差異。
異源圖像特征描述不同, 難以直接用某種損失函數進行統一度量。 為了增強算法的泛化能力,本文采用了一種基于組合系數的損失函數兼顧圖像的強度變化和結構變化, 函數數值越小, 兩張圖像相似度越高, 其表達式滿足
式(1)中, 組合系數α能夠調整Loss中Loss1和Loss2的比重, 均衡約束圖像的強度變化和結構變化。Loss1通過計算原圖像和編碼-解碼網絡輸出圖像的均方誤差(MSE)來表征圖像相似性, 能反映圖像的像素灰度變化和整體的強度分布。Loss1函數數值越小, 相似度越高, 其函數表達式如下
式(2)中,Iin為訓練源圖像,Iout為編碼-解碼網絡輸出圖像,MSE(·)為均方誤差計算函數。
式(1)中的Loss2主要從亮度、 對比度和結構上判斷圖像的相似程度, 能獲得圖像的結構和邊緣特征的相似度, 對噪聲有較強的抗干擾能力。Loss2函數數值越小, 相似度越高, 其函數表達式如下
式(3)中,msssim(·)為多尺度結構相似性計算函數, 其計算公式如下
式(4)中,M表示不同尺度;μp、μg為圖像的均值;σp、σg為圖像的標準差;σpg為兩張圖像之間的協方差;βm、γm為相應兩項之間的重要性;c1、c2為非零常數, 防止分母為0。
基于組合系數的損失函數能兼顧圖像的強度變化和邊緣紋理變化, 但是組合系數需要通過實驗測得對應的組合系數數值。 本文選取α=10、α=100 和α=1000 進行實驗驗證, 通過融合特征的評價指標進行評測(評價指標的具體含義在本文第4 節中表明), 實驗結果如表1 所示。

表1 α 取不同數值時的特征融合結果Table 1 Feature fusion results when taking different values of α
由表1 可知, 在α=100 時取得最優結果, 因此后續實驗參數按照α=100 設置。
針對異源圖像的特征在融合時權重占比存在差異的問題, 本文提出了一種基于注意力機制的融合策略。 首先通過通道注意力機制和空間注意力機制優化融合策略, 進而優化融合特征中的信息占比, 提高融合特征質量。 整體融合策略示意圖如圖3 所示。

圖3 基于注意力機制的融合策略示意圖Fig.3 Schematic diagram of fusion strategy based on attention mechanism
將編碼-解碼網絡獲得的圖像特征表示為H×W×C維度來說明空間注意力機制和通道注意力機制的工作原理。
空間注意力機制能夠反映圖像特征在H×W維度權重的不同, 能夠在特征融合時使得強度更加突出的像素位置獲得更高的權重, 其流程示意如圖4 所示。

圖4 空間注意力機制示意圖Fig.4 Schematic diagram of spatial attention mechanism
首先, 通過全局平均池化的方式處理特征,獲得H×W維度的特征權重圖; 然后, 將權重圖和特征相乘, 得到權重分配后的H×W×C維度圖像特征; 最后, 將兩張源圖像的特征進行組合, 得到H×W×C維度組合特征fspatial, 組合方式如下
式(5) 中,Sw1為輸入圖像1 的空間注意力權重,Sw2為輸入圖像2 的空間注意力權重,feature1為輸入圖像1 的圖像特征,feature2為輸入圖像2的圖像特征。
通道注意力機制能夠反映圖像特征在C維度上的不同, 能夠將多層特征中信息量更加豐富的層級賦予更高的權重, 通道注意力機制示意如圖5所示。

圖5 通道注意力機制示意圖Fig.5 Schematic diagram of channel attention mechanism
首先, 通過平均池化的方式將特征在通道維度上進行信息統計, 得到信息量S, 其計算公式為
根據信息量數據獲得C維度的權重向量; 然后, 將權重向量和特征通道相乘, 獲取權重分配后的H×W×C維度圖像特征; 最后, 將兩張源圖像的特征進行組合, 獲得H×W×C維度組合特征fchannel, 組合方式如下
式(7) 中,Cw1為輸入圖像1 的通道注意力權重,Cw2為輸入圖像2 的通道注意力權重。
最后, 通過兩種注意力機制處理編碼網絡得到的異源圖像特征, 獲取權重增強的圖像特征,經組合獲得最終融合特征ffus, 組合方式如下
式(8)中,fspatial為經過空間注意力模塊增強的圖像特征,fchannel為經過通道注意力模塊增強的圖像特征。
在上述基于深度學習的異源圖像特征融合網絡的基礎上, 本文研究了改進SIFT 算法實現最終階段的匹配任務。 SIFT 算法在生成特征點方面,即使數量不多的目標物體也能生成數量較為可觀的特征點。 但是由于生成特征點數量巨大, 匹配準確率需要進行一定程度的優化, 才能滿足導航系統的要求。
本文基于改進SIFT 算法的圖像匹配實現流程分為以下三部分:
1)特征檢測: 首先將實測融合圖像和機載參考圖像通過高斯金字塔和高斯差分金字塔實現尺度空間的構建; 然后通過空間極值點檢測尋找連續空間下不發生變化的點作為關鍵點; 之后通過高斯差分金字塔進行空間擬合, 得到極值點的精確位置和尺度, 同時去除在邊緣位置的極值點, 提高關鍵點的穩定性。
2)特征描述: 針對上述特征點計算一定采集區域內的像素梯度和方向分布特征, 通過梯度直方圖表示特征點方向信息。 其中, 直方圖峰值表示關鍵點的主方向, 峰值大于主方向80%的方向作為輔方向。 之后, 確定圖像區域為特定半徑的圓形區域, 包含4 ×4 個子區域。 最后將關鍵點主方向作為所在區域方向, 對每個子區域進行8 個方向的直方圖統計, 獲得128 維描述向量, 完成特征描述子構建。
3)特征匹配: 獲得兩張圖像的描述子之后, 在參考圖像中取得關鍵點描述子, 然后遍歷實測融合圖像中的關鍵點描述子, 找到對應歐氏距離最近的一對關鍵點。 此時若最近距離與次近距離的比值小于預設閾值, 則判定為匹配點。 最后, 利用隨機抽樣一致性(Random Sample Consensus,RANSAC)算法進行匹配后錯誤特征點的剔除, 以提升匹配精度。 剔除過程中, 雖然損失了部分正確匹配結果, 但是對絕大部分正確匹配點沒有影響, 能有效提升匹配的正確率。
本文的實際應用場景為飛行器導航, 攜帶傳感器為多種異源圖像相機, 主要算法流程如圖6所示。

圖6 算法流程圖Fig.6 Flowchart of algorithm
如圖6 所示, 飛行任務中, 首先通過飛行器攜帶的不同傳感器獲得實測異源圖像; 然后將實測異源圖像輸入到本文提出的基于深度學習的異源圖像特征融合網絡中, 在訓練好的編碼-解碼網絡結構和注意力增強的融合策略下得到實測融合圖像; 最后將實測融合圖像和機載數字地圖庫中的參考圖像通過改進的SIFT 算法進行匹配, 得到最終的匹配結果。
本次實驗的網絡結構模型基于Pytorch 搭建和訓練, 模型訓練硬件環境為RTX3060Ti。
為了驗證本文算法在真實航空應用場景中的效果, 選取來自攜帶多光譜相機的無人機采集的RIT-18 數據集[8]制作實驗測試集, 該數據集包含可見光波段圖像、 近紅外波段圖像。 特征融合實驗測試集包含60 對圖像尺寸為512 ×512 的紅外/可見光圖像, 異源圖像匹配實驗測試集包含60 對圖像尺寸為512 ×512 和75 對圖像尺寸為256 ×256的紅外/可見光圖像。
為驗證本文基于深度學習的異源圖像特征融合網絡的有效性, 本文選取了5 種特征融合算法進行比較分析。 其中, 包括3 種傳統特征融合算法: 基于交叉雙邊濾波(CBF) 的融合算法[9]、 基于梯度轉移融合(GTF) 的融合算法[10]、 基于曲波變換(CVT) 的融合算法[11], 2 種基于深度學習的特征融合算法: ZCA-Resnet[12]、 DeepFuse[13]。 對應的實驗參數按照開源代碼的參考文獻進行設置, 融合的客觀評價指標結果在matlab2019a 中計算得到。
(1)主觀評價分析
圖7 為不同特征融合算法對可見光/紅外圖像進行融合后的結果, 圖7(a)和圖7(b)分別為可見光圖像和紅外圖像, 圖7(c) ~圖7(g)為各種對比融合算法的融合特征圖像, 圖7(h)為本文算法獲得的融合特征圖像。

圖7 特征融合實驗測試集的實驗結果Fig.7 Experiment results of the fusion-test dataset
通過觀察融合結果可知, 基于CBF 的融合圖像中含有大量的噪聲, 覆蓋了一些關鍵特征點,在細節提取上也不夠明顯; 基于GTF 的融合圖像整體展現較為模糊, 在邊緣細節上基本沒有保留,但是大面積噪聲較少; 基于CVT 的融合圖像在特征拼接上有明顯的像素塊邊緣, 邊緣對比度低,同時仍舊有少量明顯噪聲; 基于ZCA-Resnet 的融合圖像基本沒有噪聲, 但是整體上特征不夠突出,邊緣細節保留較少; 基于DeepFuse 的融合圖像邊緣特征和視覺效果都較好, 但是在對應的弱對比區域強度信息保留不夠完整、 對比度低; 本文算法的融合圖像對圖像的邊緣紋理區域保留完整、對比度高, 在地面不同區域上區分明顯, 能保留更多的強度信息。 在融合結果對比上, 本文算法取得了最優結果, 視覺效果自然、 圖像對比度高、邊緣結構細節更加突出。
(2)客觀評價分析
為了在客觀的角度上驗證融合特征的質量,本文選取了信息熵(Entropy, EN)、 標準差(Standard Deviation, SD)、 互信息(Mutual Information,MI)、 結構相似性(Structural Similarity, SSIM)和圖像視覺保真度(Visual Information Fidelity, VIF)作為評價指標。 其中, EN 表征了圖像中包含信息的數量, 數值越大表示包含信息量越大; SD 反映了圖像的分布和對比度, 數值越大對比度越高; MI 反映了從原圖中獲得信息的數量, 數值越大表示包含更多來自輸入圖像的信息; SSIM 從亮度和對比度的角度反映了圖像結構上的相似程度, 數值越大相似度性越高; VIF 的數值和主觀視覺評價有高度的相似性, 數值越大表示圖像質量越好、 圖像特征更加自然。
表2 展示了在特征融合實驗測試集上60 對可見光/紅外圖像上特征融合結果客觀評價指標的平均值對比。

表2 在融合實驗測試集上的客觀評價指標Table 2 Objective evaluation indicators on the fusion-test dataset
由表2 可知, 本文的融合特征在EN、 SD、 MI和VIF 上取得了最優值。 EN、 SD 和MI 上取得最優值, 表示融合特征中強度特征保留較好; VIF 上取得最優值, 表示生成的融合圖像更加自然, 也符合圖像的主觀評價標準。 此外, SSIM 上取值與最優值差異不大, 表示本文算法的特征融合結果在對比度和結構相似性上有較好的效果。
綜合評價, 本文提出的基于深度學習的異源圖像特征融合網絡在主觀評價指標和客觀評價指標上取得了較為均衡和優秀的結果。 同時, 針對不同種類的異源圖像數據集都有較好的表現, 也說明了本文融合網絡有較強的泛化能力。
為驗證本文特征提取模塊中殘差網絡結構和注意力模塊的優越性, 設置了以下消融實驗。 其中, 去除殘差模塊時采用基礎卷積模塊完成特征提取, 在其他實驗參數選擇上與本文算法保持一致。 最后選取特征融合實驗測試集進行了實驗驗證, 客觀參數評價指標平均值如表3 所示。 表3中, “√” 表示該實驗包含對應模塊, 否則表示不包含該模塊。

表3 消融實驗在融合實驗測試集上的客觀評價指標Table 3 Objective evaluation indicators of ablation experiments on the fusion-test datasets
由表3 可知, 在去除注意力模塊的情況下, 表示信息熵值的評價指標SD、 MI 有較大下降, 表明該模塊在強度信息的保留上有較好效果。 在去除殘差網絡結構的情況下, 表示信息熵的評價指標EN、 SD、 MI 有較大下降, 表明去除殘差網絡結構模塊后在源圖像信息保留上有較大損失; 表示結構細節和圖像整體效果的評價指標SSIM 和VIF 取得最優值, 表明殘差網絡結構模塊在保留圖像結構細節特征和較為深層的圖像特征上有較好效果。
綜合評價, 剔除任何一個關鍵組件都會導致融合特征質量下降, 只有在同時包含殘差網絡結構和注意力模塊時, 融合特征取得最優評價指標,表明了關鍵組件的有效性。
為了驗證本文算法在實際應用場景中的有效性, 將飛行器搭載異源相機拍攝的基準圖像與實時可見光圖像、 實時紅外圖像、 實時融合特征圖像構建對比實驗, 選取來自RIT-18 數據集中60 對圖像尺寸為512 ×512 和75 對圖像尺寸為256 ×256的紅外/可見光圖像作為實驗測試集。
實驗分別在無干擾情況和旋轉情況下進行,評價指標為正確匹配特征點數量、 匹配正確率、匹配時間。 匹配正確率計算公式為P=C/T,P為匹配正確率,C為正確匹配點對數,T為總匹配點對數。 匹配正確率能反映目標圖像和基準圖像進行匹配時得到的關鍵點位置的對應關系, 正確率越高, 最終導航坐標的解算精度越高。 融合特征的匹配實驗中, 匹配時間包含了實時異源圖像的在線特征融合時間。
無干擾情況下, 基準可見光圖像與目標圖像的匹配結果如圖8 所示。

圖8 無干擾情況下的匹配實驗結果Fig.8 Results of matching experiment without interference
由圖8(a)可知, 由于兩張圖像亮度差異較大,在像素梯度變化上不明顯, 難以形成大量有效的匹配點; 由圖8(b)可知, 由于兩張圖像成像手段不同, 特征差異較大, 難以直接形成有效匹配; 由圖8(c)可知, 由于融合特征包含可見光圖像和紅外圖像的優勢特征, 特征區域獲得了有效增強, 因此具有數量較多的匹配點, 且匹配點分布較為均勻。
在導航場景應用中, 基準圖像和目標圖像經常存在角度差異的情況, 因此所提算法應有一定的抗旋轉能力。 為了驗證所提算法的抗旋轉能力,將基準圖像旋轉15°進行匹配實驗, 匹配結果如圖9 所示。

圖9 旋轉情況下的匹配實驗結果Fig.9 Results of matching experiment under rotating condition
由圖9 可知, 由于待匹配圖像間的角度畸變,容易出現大量的誤匹配點。 圖9(a) 中, 獲得的匹配點基本都是錯誤匹配點, 無法實現有效匹配;圖9(b)中, 匹配點數量較多, 但只存在少量正確匹配點, 匹配精度過低; 圖9(c) 中, 總體特征點數量較多, 基本都是正確匹配點, 且在圖像上分布較為均勻, 對不同的圖像區域都能進行較好的匹配。
以正確匹配點數量、 匹配正確率、 匹配時間作為評價指標, 實驗測試集在無干擾情況下的匹配實驗數據如表4 所示, 在旋轉情況下的匹配實驗數據如表5 所示。

表4 無干擾情況下的匹配實驗數據Table 4 Data of matching experiment without interference

表5 旋轉情況下的匹配實驗數據Table 5 Data of matching experiment under rotating condition
由表4 可知, 無干擾情況下相較于直接進行異源圖像匹配, 本文算法有以下優勢:
1)正確匹配點數量為6835 個, 相較于可見光圖像提升了188.15%, 相較于紅外圖像提升了483.69%。
2)匹配正確率為96.71%, 相較于可見光圖像提升了16.83%, 相較于紅外圖像提升了37.37%。
3)匹配時間上, 本文算法受圖像尺寸影響較大, 在512 ×512 的實驗數據上能保持在1.451 s,在256 ×256 的實驗數據上能保持在0.765 s。 匹配時間基于目前的實驗設備進行計算, 在獲得硬件提升和并行算法應用的情況下, 能滿足導航系統的實時性要求。
由表5 可知, 旋轉情況下相較于直接進行異源圖像匹配, 本文算法有以下優勢:
1)正確匹配點數量為3650 個, 相較于可見光圖像提升了212.50%, 相較于紅外圖像提升了308.73%。
2)匹配正確率為89.40%, 相較于可見光圖像提升了37.64%, 相較于紅外圖像提升了55.10%。另外, 匹配正確率相較于無干擾情況實驗下降較少, 也表明本文算法在匹配任務上具有更好的魯棒性。
3)匹配時間上, 在512 ×512 的實驗數據上能保持在1.380 s, 在256 ×256 的實驗數據上能保持在0.645 s, 與無干擾情況相差不大。 匹配時間基于目前的實驗設備進行計算, 在獲得硬件提升和并行算法應用的情況下, 能滿足導航系統的實時性要求。
綜合評價, 本文算法在異源圖像匹配上具有數量更多的特征點; 匹配正確率無干擾情況下為96.71%, 旋轉情況下為89.40%; 匹配時間在合適圖像尺寸時能滿足導航系統的實時性要求; 相較于傳統匹配算法, 本文算法精度更高、 魯棒性更強。
本文提出了一種基于特征融合的異源圖像匹配算法, 該算法通過基于深度學習的異源圖像特征融合網絡獲得融合特征, 之后通過改進的SIFT算法完成異源圖像匹配。 首先, 通過對編碼-解碼網絡的訓練, 得到能夠完成特征提取和特征恢復的網絡模型; 在編碼結構中采用了殘差網絡, 增強了網絡的深度學習能力, 能夠獲得更深層次的特征; 在解碼過程中采用稠密連接的方式將中間層特征用于圖像恢復, 保留了更多的淺層特征。然后, 采用基于組合系數的損失函數, 實現了同時保留圖像強度信息和結構信息; 此外, 引入包含注意力機制的融合策略來優化信息占比。 之后,采用改進的SIFT 算法實現了基準圖像和融合特征圖像的匹配。 最后, 在公開數據集上對本文算法的融合特征和異源圖像匹配效果進行了實驗驗證。實驗結果表明, 本文算法在多種異源圖像數據集的特征融合上具有優越性, 在可見光/紅外異源圖像匹配上具有特征數量多、 匹配精度高、 魯棒性強的優點。