石添鑫, 曹帆之, 韓開楊, 鄧新蒲, 汪 璞
(國防科技大學(xué)電子科學(xué)學(xué)院, 長沙 410073)
近年來,多模態(tài)遙感圖像匹配引起了廣泛關(guān)注。該研究目的是在2 張或多張由不同的傳感器、不同的視角或不同的時間獲得的圖像中識別同名點(diǎn)。 由于不同傳感器成像機(jī)制、成像條件不同,多模態(tài)圖像之間存在明顯的非線性輻射失真(NRD)和幾何畸變。 因此多模態(tài)圖像之間精確匹配仍然是一個具有挑戰(zhàn)性的問題。 最近研究表明,圖像的結(jié)構(gòu)和形狀特性在不同的模態(tài)之間得以保留。 Ye 等學(xué)者[1]通過捕獲了圖像之間的形狀相似性,提出了一種新的圖像匹配相似度度量(DLSC),且與圖像間強(qiáng)度無關(guān)。 雖然該研究方法在處理圖像間非線性強(qiáng)度差異效果較好,但如果圖像包含很少的形狀或輪廓信息,則DLSC 的性能可能會下降。 基于此,Ye 等學(xué)者[2]又提出一種快速魯棒的傳統(tǒng)匹配框架,在所提框架中,圖像的結(jié)構(gòu)和形狀屬性由像素級特征表示,并將定向相位一致性直方圖作為特征描述子,且獲得了良好的結(jié)果。 但該框架無法處理具有較大旋轉(zhuǎn)和比例差異的圖像。 Li 等學(xué)者[3]發(fā)現(xiàn)相位一致性圖(PC)具有很好的輻射魯棒性,并構(gòu)建最大索引圖來削弱多模態(tài)圖像的NRD 差異,提出了一種具有旋轉(zhuǎn)不變性且對輻射變化不敏感的特征變換方法(RIFT)。 但是RIFT 方法不支持圖像的尺度差異。Xie 等學(xué)者[4]提出了基于log Gabor 濾波的擴(kuò)展相位相關(guān)算法(LGEPC),更好地解決了NRD 以及大尺度差異和旋轉(zhuǎn)變換問題,但該方法配準(zhǔn)精度不太令人滿意。 這些傳統(tǒng)方法均是人工制作的描述子,而這些描述子通常來自圖像的外觀信息,如顏色、紋理和梯度,難以表達(dá)更深層次和更抽象的特征。 此外,人工特征描述符的系數(shù)和最佳的參數(shù)需要大量的手動調(diào)整。 因此深度學(xué)習(xí)的方法漸漸受到人們的關(guān)注。
在圖像匹配的領(lǐng)域,基于深度學(xué)習(xí)的算法吸引了許多關(guān)注[5-7]。 但是在多模態(tài)遙感圖像匹配中,深度學(xué)習(xí)的方法并沒有表現(xiàn)出極大的優(yōu)勢。 一方面,因?yàn)閷D像匹配的任務(wù)重新設(shè)計(jì)為可區(qū)分的端到端過程是具有挑戰(zhàn)的。 另一方面,正如文獻(xiàn)[8]中所述,當(dāng)前用于訓(xùn)練的本地多模態(tài)數(shù)據(jù)集還不夠多樣化,無法學(xué)習(xí)高質(zhì)量且廣泛適用的描述符。 目前該領(lǐng)域只有少量深度學(xué)習(xí)方法是針對多模態(tài)設(shè)計(jì)的,大多僅適用于某一種類型的跨模態(tài),例如可見光與SAR 圖像匹配、紅外與可見光圖像匹配等。 且現(xiàn)有的多模態(tài)匹配深度方法SFcNet[9]、CNet[10]普遍存在提取正確特征點(diǎn)個數(shù)較少的問題。
針對上述問題,本文提出一種基于交叉注意力機(jī)制的多模態(tài)遙感圖像匹配網(wǎng)絡(luò)(PCM)。 具體來說,利用相位一致性具有良好輻射魯棒性,首先構(gòu)建多模態(tài)圖像的相位一致圖(PC 圖),然后利用Fast算法在PC 圖上來獲得更多、更穩(wěn)定的特征點(diǎn),接著通過交叉注意力機(jī)制學(xué)習(xí)多模態(tài)圖像的共有特征,得到特征點(diǎn)的描述子。 最后,計(jì)算描述子之間的余弦距離,選取距離最短的點(diǎn)作為匹配點(diǎn)。 實(shí)驗(yàn)表明該算法在公開多模態(tài)遙感數(shù)據(jù)集上性能優(yōu)異,且在其他領(lǐng)域的多模態(tài)數(shù)據(jù)上仍然有效。
在2017 年,Google 團(tuán)隊(duì)在論文《Attention is all you need》[11]中提出了一個自我注意的結(jié)構(gòu)。 這引起了巨大的反響,使注意機(jī)制成為最近研究的重要主題,該研究在各種NLP 任務(wù)中取得了成功,同時在視覺領(lǐng)域也開始嘗試把自我注意的結(jié)構(gòu)應(yīng)用于各類任務(wù)中,如語義分割、圖像分類、人類姿勢估計(jì)等。注意機(jī)制旨在自動探索有意義的功能,以增強(qiáng)其表示能力并提高最終性能。 自注意力機(jī)制的計(jì)算方式如下:
其中,X表示輸入的數(shù)據(jù),Q,K,V的值都是通過X和超參W相乘得到的。 這里,Q可理解為查詢的變量,K為索引的變量,V為內(nèi)容的變量。
相位一致性(phase congruency,PC)是將圖像傅立葉分量中相位一致的點(diǎn)的集合。 這是一個無量綱的量,其取值范圍被標(biāo)準(zhǔn)化為0~1,因此受圖像亮度或?qū)Ρ榷茸兓挠绊戄^小。 最早關(guān)注到圖像相位信息是Oppenheim 等學(xué)者[12],研究中發(fā)現(xiàn)在信號的傅立葉表示中,在某些情況下如果僅保留相位,信號的許多重要特征就會得到保留。 隨后,Morrone 和Owens[13]發(fā)現(xiàn)能量函數(shù)的極大值出現(xiàn)在相位一致的點(diǎn)上,因此提出了一種利用構(gòu)造局部能量函數(shù)來檢測和定位特征點(diǎn)算法。 Kovesi[14]對該方法做出了改進(jìn),克服了噪聲等問題,使該方法的應(yīng)用得以保證。目前,相位一致圖已經(jīng)廣泛應(yīng)用于圖像邊緣檢測中。
本文利用相位一致性構(gòu)建多模態(tài)圖像的相位一致圖(PC 圖),如圖1 所示。 具體來說,本文使用Log-Gabor 小波在多個尺度和方向上計(jì)算,計(jì)算公式見式(5):

圖1 利用相位一致性構(gòu)建多模態(tài)圖像PC 圖Fig. 1 Construction of multimodal image PC maps using phase coherence
其中,PC(x,y) 表示相位一致性的大小;Wo是頻率分布的權(quán)重因子;Aso(x,y) 為在小波尺度s和方向o上的(x,y) 處的振幅;ε是一個很小值,為了防止分母為零;■.」 運(yùn)算符防止結(jié)果為負(fù)值,即封閉的值為正值時結(jié)果等于其本身,否則為零。ΔΦso(x,y) 是一個敏感的相位偏差函數(shù),定義為:
其中,eso(x,y),rso(x,y) 是將圖像與偶對稱小波和奇對稱Log-Gabor 小波分別進(jìn)行卷積,得到在尺度s和方向o上的響應(yīng)。E(x,y) 是一個局部能量函數(shù),函數(shù)中的2 部分通過信號和一對正交濾波器進(jìn)行卷積來得到,即:
在本節(jié)中,闡述了所提出的多模態(tài)遙感圖像匹配方法。 算法流程如圖2 所示。 由圖2 可看到,本文算法主要由3 個階段組成,包括:特征點(diǎn)檢測、特征描述符獲取和特征點(diǎn)匹配。

圖2 本文算法流程圖Fig. 2 Flow chart of the algorithm in this paper
在圖像匹配的過程中,如何提取重復(fù)率高、分布均勻、且穩(wěn)定的特征點(diǎn)也是近來的研究熱點(diǎn)。 在多模態(tài)圖像匹配中由于存在較大的非線性輻射畸變,在自然圖像上表現(xiàn)較好的特征點(diǎn)檢測方法并不能完全適用。 因此,本文利用相位一致性具有輻射魯棒性,考慮構(gòu)建多模態(tài)圖像的PC 圖。 通過構(gòu)建的PC圖,多模態(tài)圖像之間共有的結(jié)構(gòu)特性被保留下來。接著在PC 圖上進(jìn)行特征點(diǎn)檢測,具體來說,通過1.3節(jié)中式(5)獲得圖像的相位一致圖,接著利用Fast特征提取算法在PC 圖上提取一定數(shù)量的特征點(diǎn)。在PC 圖上利用Fast 算法提取特征點(diǎn)如圖3 所示。需要說明的是,在訓(xùn)練階段本文選取了利用上述方法提取的特征點(diǎn)中,均勻分布的30 個特征點(diǎn)進(jìn)行訓(xùn)練。
通過第一步得到特征點(diǎn)位置后,還要知道特征點(diǎn)的描述符,考慮采用人工設(shè)計(jì)的特征描述子,難以表達(dá)更深層次和更抽象的特征。 并且人工特征描述符的系數(shù)和最佳參數(shù)需要大量的手動調(diào)整。 因此本文利用深度學(xué)習(xí)的方法獲得具有更好特征表達(dá)能力的描述子。 本文算法提出一種基于交叉注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。 由于注意力機(jī)制是一種搜索全局特征的結(jié)構(gòu),需要的計(jì)算量和內(nèi)存都較大,為了減少計(jì)算量和內(nèi)存,考慮首先學(xué)習(xí)半稠密的描述符。 具體網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。 首先,參考圖像與感知圖像經(jīng)過一個卷積核大小為11×11 的大尺度卷積,提取淺層特征,此時特征維數(shù)為64,接著經(jīng)過3 層VGG-Basicblock 提取深度特征,每層網(wǎng)絡(luò)包含2 個卷積層、2 個BN 層、1 個dropout 層,特征維數(shù)擴(kuò)展為128。 然后,再經(jīng)過1 個卷積核大小為15×15 的大尺度卷積,獲得全局特征,最后通過1 個dropout層,丟棄一些無用特征,這樣就得到了大小為原圖大小八分之一的特征圖,特征通道為128 維。 但是由于圖像之間差異較大,因此采用了互注意力機(jī)制,更好地學(xué)習(xí)彼此的共有的特征。 通過上述步驟得到了半稠密描述符,此時的特征圖尺寸為原圖大小的八分之一。 除此之外,還需要得到每個特征點(diǎn)對應(yīng)的描述符,由于得到的特征圖尺寸為原圖大小的八分之一,無法利用特征點(diǎn)的位置直接在特征圖上提取特征。 因此,本文首先對原圖上特征點(diǎn)的坐標(biāo)進(jìn)行歸一化,接著根據(jù)輸入特征圖的尺度按比例恢復(fù)特征點(diǎn)坐標(biāo),見式(10):
其中, (X,Y) 為歸一化后的特征點(diǎn)坐標(biāo); (x,y) 為特征在原圖的坐標(biāo)位置;H,W分別為原圖和特征圖的長寬;h和w分別為特征圖的長寬。 但是這個新的坐標(biāo)位置可能并非為整像素,此時要對其進(jìn)行雙線性插值補(bǔ)齊,然后其余特征通道按照同樣的方式進(jìn)行雙線性插值。 通過上述方法即得到了每個特征點(diǎn)對應(yīng)的描述符。
在訓(xùn)練階段,本文采用有監(jiān)督訓(xùn)練,每對圖像的標(biāo)簽已知。 首先,利用2.1 節(jié)中介紹的特征點(diǎn)檢測的方法獲得參考圖像上的特征點(diǎn)位置(xr,yr), 然后利用圖像標(biāo)簽計(jì)算得到感知圖像上的對應(yīng)點(diǎn)位置(xs,ys),具體見式(3):
其中,H為一個3×3 大小的矩陣,即為圖像的標(biāo)簽。 因此在特征匹配階段,只需要計(jì)算考慮描述子間的損失函數(shù),降低了訓(xùn)練的難度。 本文損失函數(shù)參考SuperPoint[5]研究中給出的損失函數(shù),將損失函數(shù)定義為合頁損失(Hinge-Loss), 具體計(jì)算公式為:
其中,λd為定義的權(quán)重;shwh'w'判斷對應(yīng)點(diǎn)是否匹配;Ph'w'為雙三次插值后特征點(diǎn)坐標(biāo);是對Ph'w'做單應(yīng)性變換H。dhw為預(yù)測點(diǎn)的描述子;為真值點(diǎn)的描述子。 當(dāng)dhw和d'h'w'越相似時,損失函數(shù)越小。 在本文中,設(shè)置λd=250,mp=1,mn=0.2,λ=0.000 1。
本節(jié)中,將本文所提方法與其它主流方法在匹配的性能、計(jì)算復(fù)雜度和推理時間等方面與進(jìn)行比較。 最后,在計(jì)算機(jī)視覺領(lǐng)域以及醫(yī)學(xué)圖像領(lǐng)域驗(yàn)證本算法的泛化性能。
本文的訓(xùn)練集是從Landsat8 衛(wèi)星影像上獲取的不同波段的圖像,對地分辨率為30 m。 訓(xùn)練集包含1 153對大小為256×256 的圖像。 測試數(shù)據(jù)集選用了Jiang 等學(xué)者[15]提出的多模態(tài)圖像匹配數(shù)據(jù)集。 該數(shù)據(jù)集包括3 個不同領(lǐng)域的多模態(tài)數(shù)據(jù):計(jì)算機(jī)視覺領(lǐng)域、醫(yī)學(xué)領(lǐng)域、遙感領(lǐng)域。 本文的對比實(shí)驗(yàn)主要在其中的遙感數(shù)據(jù)上測試。 同時,為了驗(yàn)證該算法的魯棒性,在醫(yī)學(xué)數(shù)據(jù)集中進(jìn)行了泛化性能測試。 實(shí)驗(yàn)設(shè)置在24 GB NVIDIA 3090 上,并進(jìn)行網(wǎng)絡(luò)訓(xùn)練測試。
實(shí)驗(yàn)的性能指標(biāo)主要為匹配精度(ACC)、正確匹配點(diǎn)個數(shù)(NCM)、匹配運(yùn)行時間(RT),其中匹配正確點(diǎn)是指預(yù)測匹配點(diǎn)與真實(shí)匹配點(diǎn)之間距離不超過5 個像素的點(diǎn),而匹配精度是指正確匹配點(diǎn)個數(shù)與算法總匹配點(diǎn)個數(shù)的百分比。
對比實(shí)驗(yàn)選取了4 種對比算法, 分別為RIFT[3],HAPCG[16],3MRS[17],DFM[7],其中DFM 為深度學(xué)習(xí)的方法,但是其在論文中介紹該方法無需進(jìn)行訓(xùn)練。 上述方法均在Jiang 等學(xué)者[15]提出的多模態(tài)圖像匹配數(shù)據(jù)集測試。 為了更好地比較不同算法的性能,所有傳統(tǒng)對比算法與本文算法均未使用誤差點(diǎn)剔除模塊,同時保證初始檢測特征點(diǎn)數(shù)量相同,均設(shè)置為5 000 個。
表1 展示了本算法與現(xiàn)有傳統(tǒng)算法與深度算法在匹配精度上的對比結(jié)果。 可以看出,本算法在光學(xué)圖像與SAR 圖像類型匹配中取得了最高的匹配精度,而同為深度學(xué)習(xí)方法的DFM 算法在地圖圖像與光學(xué)圖像上匹配精度最大,其余3 種傳統(tǒng)方法則是在紅外與光學(xué)圖像上有最好的匹配精度。 本文算法在所有類型上均優(yōu)于傳統(tǒng)算法,但是在某些多模態(tài)類型下的精度并沒有DFM 算法高。 不過通過具體的實(shí)驗(yàn)數(shù)據(jù),5 種方法在多模態(tài)圖像匹配數(shù)據(jù)集的匹配精度對比如圖5 所示,可以發(fā)現(xiàn)DFM 算法在某些圖像上匹配結(jié)果很好,但是在一些難度較大的圖像上匹配精度為0。 因此通過表1 和圖5 可以看出,本文算法不僅具有較好精度,同時也具有很好的穩(wěn)定性。

表1 5 種方法在多模態(tài)數(shù)據(jù)集上的匹配精度(ACC)Tab. 1 Matching accuracy (ACC) of the five methods on the multimodal dataset%
表2 展示了本算法與現(xiàn)有傳統(tǒng)算法及深度算法在匹配正確點(diǎn)個數(shù)上對比結(jié)果。 從表2 可以看出,不管哪種類型數(shù)據(jù),在匹配正確點(diǎn)個數(shù)上本文算法均取得了最好的效果,同時在所有類型數(shù)據(jù)中,可見光與可見光匹配效果最好。

表2 5 種方法在多模態(tài)數(shù)據(jù)集上的匹配正確點(diǎn)個數(shù)(NCM)Tab. 2 Number of correctly matched points (NCM) of the five methods on the multimodal dataset
5 種算法在多模態(tài)數(shù)據(jù)集上的匹配時間對比結(jié)果見表3。 從表3 可以看出,不管哪種類型數(shù)據(jù),本文算法運(yùn)行速度較傳統(tǒng)算法均提高了4 ~10 倍,與深度方法對比也在大部分?jǐn)?shù)據(jù)類型上都有更快的運(yùn)行速度。

表3 5 種方法在多模態(tài)數(shù)據(jù)集上的匹配時間(RT)Tab. 3 Matching times (RT) of the five methods on the multimodal dataset
表4 為該算法在醫(yī)學(xué)多模態(tài)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果。 由表4 可以看出,本文算法即使在醫(yī)學(xué)多模態(tài)圖像上測試,在3 種指標(biāo)下都有不錯的結(jié)果,證明本算法具有較高的魯棒性。

表4 本文算法在醫(yī)學(xué)多模態(tài)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果Tab. 4 Experimental results of this proposed algorithm on medical multimodal data
針對多模態(tài)遙感數(shù)據(jù)匹配的難點(diǎn)問題,圖像間存在非線性輻射差異,本文提出一種基于交叉注意力機(jī)制的多模態(tài)遙感圖像匹配網(wǎng)絡(luò)。 該網(wǎng)絡(luò)利用相位一致性獲得更穩(wěn)定的特征點(diǎn),同時利用交叉注意力機(jī)制學(xué)習(xí)多模態(tài)圖像共有特征,在更容易獲得的多波段遙感小容量數(shù)據(jù)集上進(jìn)行訓(xùn)練。 實(shí)驗(yàn)結(jié)果表明,本文方法在公開數(shù)據(jù)集上匹配性能優(yōu)異,并在其他領(lǐng)域的多模態(tài)數(shù)據(jù)上仍然有效。 但是當(dāng)圖像間有較大的旋轉(zhuǎn)或者尺度差異性能會下降,后續(xù)將考慮對訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),同時優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步提高匹配速度。