周金坤,王先蘭,穆楠,王晨
(1.武漢郵電科學研究院,武漢 430074;2.四川師范大學 計算機科學學院,成都 610101;3.南京烽火天地通信科技有限公司,南京 210019)
無人機(Unmanned Aerial Vehicle,UAV)作為遙感平臺之一,相較于衛星和飛機,具有操作性強、便利性高、云層影響度低、數據采集能力強[1-2]等特點,廣泛應用于各個領域,如植被細分[3]、車輛監測[4]、建筑提取[5]等。然而,當定位系統(如全球定位系統(Global Positioning System,GPS)、北斗等)不可用時,如何有效地進行無人機定位及導航是一項巨大的挑戰。近年來,跨視角地理定位(cross-view geolocalization)在自動駕駛和增強現實的潛在應用,為無人機定位及導航任務提供了新思路。它能夠將無地理標記的圖像與數據庫中有地理標記的圖像進行匹配,進而實現無人機的定位和導航任務[6],如圖1 所示。圖1 中A 表示給定無人機視圖,查詢對應衛星視圖,執行無人機定位任務;B 表示給定衛星視圖,查詢對應無人機視圖,執行無人機導航任務。
作為跨視角地理定位的主要研究方法,跨視角圖像匹配(cross-view image matching)是將不同視角(如地面、無人機、衛星視角)的同場景圖像進行跨視角匹配的一種方法。其早期研究主要基于地面視圖之間的圖像匹配[7-9];然而由于地面圖像存在遮擋嚴重、視野有限、覆蓋范圍小等問題,導致匹配效率過低。相比之下,附帶全球地理位置標記的空中視圖(包括無人機視圖與衛星視圖)具有地面視圖不可取代的優越性,如無遮擋、變化小、覆蓋面廣;因此,將地面視圖與空中視圖進行匹配從而實現地理定位的方式逐漸成為主流[10-13]。此外,由于地面和空中視圖之間視點的劇烈變化,導致嚴重的空間域差(domain gap)問題,使得傳統的手工特征方法如尺度不變特征轉換(Scale-Invariant Feature Transform,SIFT)[14-15]和加速魯棒特 征(Speed Up Robust Feature,SURF)[16]很難提取到復雜且具有辨識力的視點不變特征,跨視角圖像匹配仍具挑戰性。
隨著深度學習在計算機視覺任務中取得較大的成功,大多數跨視角圖像匹配工作開始采用卷積神經網絡(Convolutional Neural Network,CNN)來解決空間域差問題[17-20]。現階段,實現該任務的CNN 方法大體可以分為兩種。
第一種是基于度量學習(Metric Learning)的方法,該方法將跨視角圖像匹配視為圖像檢索領域的子任務,旨在通過網絡學習出兩幅圖像的相似度。Tian等[19]利用建筑物作為地面視圖和衛星視圖之間的橋梁,進行視點圖像匹配,技術上首次提出通過孿生網絡來匹配K個最相似的圖像,并通過對比損失(Contrastive Loss,CL)來度量圖像間的相似度。Hu等[21]基于孿生網絡和網絡局部聚集描述子向量NetVLAD(Net Vector of Local Aggregated Descriptors)[22]提出CVM-Net(Cross-View Matching Network),他們使用三元組損失(Triplet Loss,TL)進行相似度訓練,首次在跨視角地理定位任務實現了穩定的rank1 指標性能。Regmi等[23]基于條件生成對抗網絡(Conditional Generative Adversarial Nets,CGANs)[24]提出了一種圖像生成方法來減小兩個視圖之間的視覺差異,此外他們采用加權軟邊界三元組損失(Weighted Soft Margin triplet loss,WSM)[21]來輔助訓練。該方法可以從相應的地面視圖圖像生成看似合理的空中視圖圖像,然后進行匹配。Cai等[25]采用注意力機制,將空間和通道注意力嵌入特征圖,并使用硬樣本重加權三重損失(hard exemplar reweighting triplet loss)來進行訓練。該類方法通常使用的數據集(如CVUSA(Cross-View USA)[17]、CVACT[26])在目標位置通常只有一個圖像對(每個視圖只有一張圖像)。當相同目標地點的不同視角圖像作為同類來進行跨視角圖像匹配任務時,基于度量學習的第一種方法是行不通的。
第二種是將跨視角地理定位任務當作分類問題來看待,旨在將不同視圖的特征映射到同一特征空間進行分類匹配,一般使用ID 損失(identification loss)進行訓練。Zheng等[6]使用3 個CNN 分支,基于建筑類別標簽在其提出的數據集University-1652[6]上實現了衛星視圖、無人機視圖、地面視圖間的匹配,成功驗證了無人機定位和導航任務的可行性。Ding等[27]將衛星視圖和無人機視圖放在同一支網絡進行分類任務,專注于無人機和衛星視圖的匹配任務。Hu等[28]考慮到相機風格的偏差,采用基于色階的方法來統一圖像風格樣式,此外他們還采用網格劃分的方式來進行局部特征(Local Features,LF)對齊。
然而以上兩種方法將跨視角圖像匹配任務割裂地看成了度量學習任務[19,21,23]或分類任務[6,27-29],依然存在著網絡參數量過大、圖像表征特征單一、訓練難以收斂等缺點;并且,現有大多數方法均只對全局特征(Global Feature,GF)進行表征,忽略了局部特征帶來的上下文信息。
此外,現有跨視角圖像匹配方法主要針對空中視圖(包括衛星視圖)和地面視圖,且目標地點僅具有單個圖像對。這些方法并未考慮到衛星視圖和無人機視圖間的相似性,因此難以應用于衛星視圖和無人機視圖之間的跨視圖圖像匹配任務。
為了解決現有方法所存在的度量任務和分類任務割裂、表征特征粒度不均勻、采樣不平衡等問題。本文提出了一種新的基于多視角多監督網絡(Multi-view and Multisupervision Network,MMNet)的無人機定位方法,來學習跨視角圖像匹配中不同視圖的全局特征和局部特征,從而實現無人機定位和導航任務。MMNet 采用孿生網絡架構,有兩個CNN 分支,分別用于學習衛星視圖和無人機視圖。且每個CNN 具有兩個子分支,分別用于提取全局特征和局部特征。為了充分融合度量學習和分類任務的訓練特性,并學習到兩個視圖間的視點不變特征,采取了多監督方式進行訓練。具體來說,在對全局特征向量進行分類監督的基礎上,進一步對衛星和無人機視圖執行非對稱相似性度量,該任務采用了新提出的重加權正則化三元組損失(Reweighted Regularization Triplet loss,RRT)。最后,使用加權策略來整合全局特征和局部特征,來表征目標地點的多視角圖像,從而實現無人機定位和導航任務。
本文的主要工作為以下5 個方面:
1)提出了MMNet 來解決無人機定位和導航問題,其能夠在統一的網絡架構中,通過加權的方式將衛星和無人機圖像的全局粗粒度信息和局部上下文信息進行多視角聚合,學習到兼具細粒度的視點不變特征,從而更完整地表征目標地點圖像。
2)MMNet 在跨視角圖像匹配領域首次采用RRT 與ID 損失融合的多監督訓練方式來執行相似性度量任務和分類任務,兼具度量學習和分類學習的優點。
3)MMNet 在訓練過程中綜合考慮了上下文模式,充分利用目標建筑周圍的環境,以端到端的方式學習目標場景的上下文信息。
4)提出了多視角平衡采樣(Multi-view-based Balanced Mining,MBM)和重加權正則化策略,MMNet 能夠有效緩解衛星視圖和無人機視圖的訓練樣本失衡問題,在實驗中驗證了其有效性。
5)MMNet 在最新提出的無人機數據集University-1652 上進行了大量實驗驗證,MMNet 相較于現有的跨視角圖像匹配方法在各項指標中均取得了最優性能。
本章主要介紹了所提出的多視角多監督網絡MMNet(如圖2 所示)。首先闡述MMNet 的網絡結構和特征提取方式,然后針對數據集的多視角樣本失衡提出RRT,最后通過多監督方式聯合ID 損失和RRT 訓練出更有區分度的特征,從而實現無人機定位和導航功能。
任務描述為:給定無人機地理定位數據集,x和y分別表示輸入圖像及對應的類別標簽,下標m表示數據源xm的來源平臺,其中m∈{1,2},x1表示衛星視圖,x2表示無人機視圖。標簽y∈[1,C],其中C為類別總數。本文實驗所用數據集為University-1652,訓練集共含有701 棟建筑物,且每棟建筑物包含多張圖像。將701 棟建筑分為701 個索引,每個索引代表一個類別,即標簽y∈[1,701]。對于跨視角圖像匹配,MMNet 通過學習一個映射函數,可以將來自不同平臺的圖像映射到一個共享的特征空間中,同一索引圖像間距離非常近,而不同索引的圖像彼此間距離會被拉開。
所提出的MMNet 基于孿生網絡架構,包含兩個分支(如圖2 中C1 和C2 所示),分別用于衛星視角和無人機視角的圖像匹配。鑒于每個分支權重共享[6],MMNet 可以使用任何預訓練網絡架構(如VGG[30]和ResNet[31])作為骨干網。本文采用了經過微調的ResNet-50[31]作為每個分支的骨干網。ResNet-50 包含5 個模塊:Conv1、Conv2、Conv3、Conv4、Conv5、一個平均池化層和一個全連接層。具體來說,舍棄了平均池化層及后續網絡層,并將Conv5_1 的步長由2 更改為1。
為了訓練MMNet,首先將輸入圖像的尺寸調整為256×256。其中衛星視角和無人機視角分支具有相同的特征提取方式,當圖像經過改進的ResNet-50后,可以從多視角網絡分支提取到維度為2 048 的中間特征圖,用于后續的分類和度量學習。將此層映射記為Fbackbone,多視角特征提取過程可表征為:
其中:fm表示輸入圖像xm的輸出特征圖。每個視角在骨干網后分別設置了全局子分支和局部子分支來學習各視角的全局特征和局部特征。
為了提取細粒度特征,本文在全局分支中采用了一種可自學習的廣義平均(Generalized-Mean,GeM)池化[32],該池化層融合了最大池化和平均池化的優點,能捕獲到特定領域的區分特征。fm在經過GeM 池化后,提取得到全局特征gm∈R1×2048。GeM 池化公式如下:
其中:fk表示特征圖,k表示通道方向上的位置序號,k∈{1,2,…,K};Xk表示特征圖中各個通道層的激活圖,其尺寸為W×H;Pk表示一個可訓練超參數,其在全局分支中初始化為6,并通過反向傳播不斷更新學習。對于上述操作,當Pk→∞時,GeM 池化等價于最大池化;當Pk→1時,GeM 池化等價于平均池化。最終,利用RRT 聯合訓練衛星視圖和無人機視圖的全局特征,將多視角映射到同一個特征空間。
在局部分支中,為了充分利用上下文信息,采用方形環切割策略[29]來切割特征圖fm。觀察到,目標地點通常分布在圖像的中心,而上下文信息輻射性地分布在其周圍。基于這種語義信息分布的假設,方形環劃分的中心可以近似地對準特征圖的中心。如圖3 所示,根據到圖像中心的距離將全局特征fm分為4 個部分,獲得了4 塊環狀的特征圖,(n=1,2,3,4)。上標n代表從中心算起的第n部分。同樣,局部分支也采用GeM 池化操作,將轉換成通道數為2 048 的局部特征,Pk初始化為1。該過程可表征為:
其中:Fslice代表方形環劃分;Gempool代表GeM 池化操作。隨后,MMNet 采用尺寸為1 × 1 的卷積核對進行降維,得到∈R1×512(i=1,2,3,4)。
至此,MMNet 已經獲取了各個分支的局部特征以及全局特征。由于特征是從不同的分支中提取的,可能具有不同的分布,不能直接用于匹配。為了突破這一限制,除了利用RRT 將全局特征映射在一個共享空間外,還建立了一個多視角參數共享的分類模塊。該分類模塊針對局部特征向量和全局特征向量gm分別建立了5 支參數不共享的分類子模塊執行分類任務,來預測各自的標簽y。這5 支分類子模塊結構相同,由以下層構建:全連接層(Fully Connected layer,FC)、批歸一化層(Batch Normalization layer,BN)、棄參層(Dropout layer,Dropout)、分類層(Classification Layer,CL)。此處的CL 也是一個全連接層,后接Softmax 函數可將分類特征向量進行歸一化。
在訓練過程中,利用反向傳播來降低損失,并利用Adam優化器來更新網絡參數。通過同時最小化RRT 和多支特征的ID 損失之和來優化MMNet。在對所提出的MMNet 進行訓練之后,采用加權策略來聚合全局和局部特征進行目標地點圖像表示。
針對數據集University-1652 無人機視角和衛星視角樣本量極其不平衡(無人機視圖與衛星視圖的比例為54∶1)的特點,提出了多視角平衡采樣(MBM)策略。多視角樣本不平衡表示兩個視角之間的樣本量不平衡,而每個視角的類別數和每個類別的樣本數都是平衡的。如果在訓練時,按類別隨機采樣,各視角采樣數相同,則導致樣本量多的視角出現欠采樣問題,同理,樣本量過少的視角易出現過采樣問題,因此網絡會偏向于出現過采樣問題的同視角樣本之間的分類任務學習。如果各視角采樣比例等同于數據集視角間樣本量比例,則會導致網絡傾向于樣本量多的一方的同視角分類任務學習,從而使網絡忽略掉了跨視角視圖間的匹配學習。
本文提出的MBM 策略,根據不同視角總樣本量的比例,進行一個折中的采樣比例設置。根據經驗,初始化時將比例γ設為3。即每次批量采樣,每個目標地點的衛星視圖與無人機視圖的采樣量之比為1∶3。
三元組損失(triplet loss)已被廣泛應用于各種圖像匹配任務,包括人臉識別[33]、行人重識別[34-35]和圖像檢索[36-37]。三元組損失目標是訓練網絡將正樣本拉近錨點,同時將負樣本推開。最簡單的三元組損失為最大邊界三元組損失(maxmargin triplet loss),公式如下:
文獻[21]中為了提高網絡訓練的收斂速度,提出了加權軟邊界三元組損失,該損失設置了一個縮放系數α,公式如下:
其中:正樣本和負樣本有著相同的權重,致使下降梯度的幅度相同。這意味著正、負樣本將會以相同的方式和力度被拉近或推開。在實踐中,無人機視圖相較于衛星視圖更易收集,導致數據集University-1652 中無人機視圖數量要遠高于衛星視圖數量。在前文中提出了用MBM 策略來減輕多視角樣本不平衡的影響。在該策略下,每一個訓練batch 中都會存在比例為γ∶1 的無人機、衛星視圖分布,所以在梯度下降的過程當中,應該采取兩個優化策略:1)以無人機視圖聚類為錨點,將同類別間的衛星視圖聚類,相較于將聚類逐個拉向單個衛星圖錨點會更容易;2)盡可能拉近同類別間的距離,而不是推開負樣本,因為將少數匹配的樣本拉到錨點附近比將所有負樣本推離錨點更容易。基于上述優化策略,采用重加權的方法,調整正負樣本間的不同權重,可以更好地緩解多視角樣本不平衡的問題。
此外,上述三種三元組損失均是采用硬樣本批量采樣策略,即在每個批次中,只選取最遠的正樣本和最近的負樣本組成一個三元組,計算一次三元組損失。該策略僅僅捕獲了少量且具有豐富信息的樣本,卻忽略了大量的常規樣本,同時還破壞了原本特征空間樣本的分布結構。鑒于此,根據每對樣本間的學習難度賦予不同的權重,且不引入任何邊界余量。具體來說,即對于距離越遠的正樣本和距離越近的負樣本對,賦予更高的權重。該策略能夠保持原樣本間的空間結構,降低計算復雜度,更有利于收斂。RRT 函數如下:
其中:(i,j,k)表示每次訓練批次中的三元組;對于每張圖像i,Pi是與之對應的正樣本;Ni是與之相對應的負樣本分別表示正負樣本對之間的距離分別代表每個正負樣本對的正則化權重。如果設置較大的αn,負樣本對的梯度隨著損失優化會快速下降,意味著只能將負樣本對推開小段距離。對于較小的αp,正樣本對的梯度則會緩速下降,會迅速將正樣本按特征空間距離比例拉向錨點。當正樣本數遠少于負樣本時,例如只有一個衛星正樣本的無人機定位任務中,將唯一匹配的正樣本拉近錨點比將所有負樣本推開更容易,因此本文可通過設置一個遠小于αn的αp值來驗證此猜想。
為了提高視角特征以及類間特征的可區分度,本文使用ID 損失聯合學習類間的全局和局部特征,并提出RRT 聯合學習視角間的全局特征。因此,MMNet 不僅能執行分類任務,還能執行相似性度量任務。這種針對性的聯合學習策略能夠同時有效地學習視角間的顯著性特征,提高跨視角圖像匹配任務中特征可區分度。
1.4.1 分類學習
近年,許多計算機視覺任務如人臉識別、目標檢測、行人重識別等都用到了分類的思想,可將該任務看成一個圖像分類任務。本文從分類的角度出發,采用交叉熵(crossentropy)損失聯合學習全局和局部特征,將無人機定位任務視為圖像分類任務來訓練MMNet。兩個視角分支的不同特征分別進入一個參數共享的分類模塊,將所有特征映射到一個共享的特征空間中。通過結合全局特征和4 個局部特征進行分類共享,能夠有效將同地點的輸入圖像聚類。
具體來說,采用MBM 策略,在一個訓練批次中,選擇P類ID 的目標建筑圖像,每類ID 選擇γ幅無人機視圖,1 幅衛星視圖。因此一個批次中,共有P× (γ+1)幅圖像。訓練過程中,MMNet 將降維后的局部特征和全局特征gm作為輸入,通過分類模塊后,輸出列向量為和zm,分別表征和gm。然后,利用Softmax 函數將輸出列向量進行歸一化,并且預測各特征的類別。該過程表征如下:
接下來,將交叉熵損失作為損失函數來計算該批次圖像中的局部特征和全局特征的ID 損失:
其中:LPid和LGid分別表示整個批次的局部特征ID 損失和全局特征ID 損失。
1.4.2 度量學習
三元組損失常用于跨視角地理定位任務,用于執行全局特征的相似性度量任務。本文將新提出的RRT 應用在MMNet 中的全局特征度量學習。RRT 的重加權策略以及相對距離權重正則化策略能夠有效地將同場景的不同視角圖像進行再聚類,提升同類圖像的相似度。在MMNet中,RRT可表征為:
為了計算最終損失,本文使用多監督加權策略將分類損失和度量損失進行線性聚合:
其中:η是權重系數,按訓練經驗設定為0.5。
MMNet 融合了全局和局部特征表示目標地點圖像,可以用降維后的局部特征hn(n∈(1,2,3,4))來表示局部特征:
最后,MMNet 使用加權策略融合全局和局部特征進行圖像表征:
其中:β是控制局部特征重要性的權重系數。
本章首先介紹大型無人機定位數據集University-1652[6],然后描述了實驗設置細節,最后通過對提出的方法進行消融實驗以及整體評估,證明了MBM 策略、RRT、多監督聯合學習對于無人機定位任務的有效性,同時提供了MMNet 與University-1652 現有前沿工作的比較。
2.1.1 數據集
University-1652[6]是一個多視圖多源數據集,包含衛星視圖、無人機視圖和地面視圖數據,其收集了全世界72 所大學的1 652 棟建筑。訓練集包括33 所大學的701 棟建筑,測試集包括其余39 所大學的951 棟建筑。訓練和測試集中沒有重疊的大學。由于一些建筑物沒有足夠的地面圖像來覆蓋這些建筑物的不同方面,因此數據集還提供了一個附加的訓練集,該附加數據集中的圖像是從谷歌地圖中收集的,它們具有與地面圖像相似的視圖。此外,附加的訓練集可以作為地面圖像的補充。該數據集主要用作兩個新任務的研究,分別為無人機定位(無人機→衛星,如圖1 中A 所示)和無人機導航(衛星→無人機,如圖1 中B 所示)。訓練集含有50 218幅圖像,共覆蓋了701 棟建筑。在無人機目標定位任務中,Query 集含有37 855 幅無人機視圖圖像,Gallery 集含有701幅可匹配的衛星視圖圖像和250 幅干擾衛星視圖。在無人機導航任務中,Query 集中有701 幅衛星視圖,Gallery 集含有37 855 幅可匹配的無人機視圖和13 500 幅干擾無人機視圖。
2.1.2 實驗細節
MMNet 的骨干網采用了微調的ResNet-50,在ImageNet數據集上對ResNet-50 進行了預處理。本文實驗中,無論是訓練還是測試,輸入圖像的尺寸均采用256 × 256。在訓練時,使用隨機水平翻轉、隨機裁剪以及隨機旋轉來增加數據的多樣性。本文采用多視角平衡采樣策略,訓練批次設置為32,γ設置為3,即一個批次中隨機選取8 類目標地點圖像,每類圖像包含3 幅無人機視圖和1 幅衛星視圖。在反傳過程當中,本文采用隨機梯度下降法優化參數,momentum設置為0.9,weight_decay為0.000 5。骨干網初始學習率設為0.001,分類模塊學習率為0.01,80 個epoch 后衰減為原來的1/10,經過120 個epoch 完成訓練。對于RRT 中的超參數,按經驗分別設αp=5,αn=20。在測試過程中,利用歐氏距離來度量Query 圖像和Gallery 集中候選圖像之間的相似性。本文在PyTorch 1.7.1 上實現,所有實驗都在一個NVIDIA RTX 2080Ti GPU 上進行。
2.1.3 評價標準
本文實驗使用召回率(Recall@K,R@K)和平均精準率(Average Precision,AP)來評估性能。R@K代表在Top-K的Ranking List 中的正確匹配圖像的比例,較高的R@K表明網絡性能較好。AP 代表了精準率-召回率曲線下的面積。分別在無人機定位和導航任務中使用上述兩個指標作為實驗評價標準。
在University-1652 數據集上進行了廣泛的實驗,通過和4 個具有競爭性的前沿方法進行比較,來評估本文所提出方法的性能。如表1 所示,與本文方法作對比的4 個前沿方法分別為:實例損失(Instance Loss,IL)方法[6]、LCM(cross-view Matching based on Location Classification)方法[27]、SFPN(Salient Feature Partition Network)方法[38]、LPN(Local Pattern Network)方法[29]。MMNet 在無人機定位任務中(無人機視圖→衛星視圖)達到了83.97%的R@1 性能和86.96%的AP 性能,在無人機導航任務中(衛星視圖→無人機視圖)達到了90.15%的R@1 性能和84.69%的AP 性能。
表1 University-1652數據集上本文方法與前沿方法的比較 單位:%Tab.1 Comparison of the proposed method with state-of-the-art methods on University-1652 dataset unit:%
相較于性能次好的LPN 方法,MMNet 在無人機定位任務中的R@1 指標提升了10.59%,在無人機導航任務中AP 指標提升了13.24%,表明MMNet 在University-1652 數據集上的無人機定位和導航任務中都顯著優于現有方法。
對于無人機視角地理定位任務,Gallery 中有951 幅衛星視角圖像。為了使這項匹配任務更具挑戰性,本文從CVUSA 的測試集中收集了8 884 幅衛星圖像添加到University-1652 的Gallery 集中作為干擾物(表1 最后一行)。盡管干擾物會降低整體表現,但表1 中R@1 和AP 并沒有顯著下降,結果仍然具有競爭力。這證明了MMNet 對干擾物的魯棒性。
此外,在圖4 中展示了兩個任務的一些檢索結果。觀察到,無論是在無人機定位還是在無人機導航任務中,MMNet都可以根據內容來檢索合理的圖像;但圖4(a)中第三行展示了一個失敗案例,MMNet 并沒有成功地匹配R@1 圖像。本文發現這項任務仍具挑戰性,由于R@1 圖像與Query 圖像具有非常相似的空間結構特點,兩幅圖像所含中心建筑的外觀尤為相似。
本文在數據集University-1652[6]上評估了MMNet 的各模塊性能,各模塊均采用MBM 策略進行采樣,實驗結果如表2所示。在表2中,全局特征(GF)表示僅利用MMNet 的全局分支提取到的特征,即gm來訓練網絡;局部特征(LF)表示僅利用MMNet 的局部分支提取到的特征,即來訓練網絡;聯合特征(Joint Features,JF)表示聯合全局特征和局部特征來訓練網絡。括號中表示網絡訓練所使用的損失函數,其中:ID 表示損失函數采用ID 損失中的交叉熵損失,用來學習分類任務;RRT 表示采用本文所提出的RRT,用來學習度量任務。
通過表2 可看出,本文采用的各方法模塊如MBM、RRT,多監督聯合學習對整個網絡的性能提升均有貢獻。
表2 University-1652數據集上MMNet不同模塊的比較結果 單位:%Tab.2 Comparison results of different MMNet modules on University-1652 dataset unit:%
2.3.1 多視角平衡采樣策略
為了證明所提出的MBM 策略的有效性,在基線上進行了兩個對比實驗,分別采取文獻[6]中的批量挖掘,以及本文提出的MBM。在批量挖掘中,batch_size 設為32,每個batch采樣16 個類別的目標地點圖像,無人機和衛星視圖各一幅圖像。由于文獻[6]中每類目標地點的無人機視圖與衛星視圖比例均為54∶1,所以會存在明顯無人機視圖欠采樣問題。此外對于度量任務計算RRT 而言,批量挖掘中每個錨點的正樣本均只有一幅,嚴重影響了損失優化的平衡性。理論上,MBM 可以有效緩解采樣中視角圖像數量不平衡問題,在特征空間中可以增強無人機聚類,拉近衛星視圖與無人機視圖的距離。從表3 中數據可以看出,本文提出的MBM 顯著提升了MMNet 在University-1652 數據集上的性能。
表3 MMNet采用不同采樣策略的結果 單位:%Tab.3 Results of different sampling strategies in MMNet unit:%
2.3.2 重加權正則化三元組損失
為了驗證RRT 在University-1652 數據集上的有效性。在文獻[6]提出的基線上(采用批量挖掘策略)對常用的幾種損失如:CL[6]、TL[6]、WSM[21]以及RRT 進行了對比實驗,結果如表4 所列。在RRT中,根據經驗,設αp=5,αn=20,從而達到了最好的性能,AP 值均得到較大提升。為了能夠有效驗證重加權策略,在以上RRT 實驗的基礎上采用MBM 策略,將R@1 和AP 平均提升了2.61 個百分點左右。對于性能提升而言,RRT 采用的重加權策略,以及MBM 策略,均能有效緩解University-1652 數據集的多視角樣本不平衡問題,將無人機圖像聚類的同時,能夠讓同地點衛星圖像更接近于無人機圖像聚類。
表4 RTT與其他度量損失的比較 單位:%Tab.4 Comparison of RRT with other metric losses unit:%
2.3.3 多監督聯合學習
本文所提出的聯合學習主要體現在兩個方面,分別是全局和局部特征之間的聯合學習,以及分類損失和度量損失之間的聯合學習。前者能夠同時關注全局特征的粗粒度感知信息和局部特征的細粒度上下文信息,做到多粒度信息融合。通過對比表2 中的GF(ID)、LF(ID)和JF(ID)方法可看出,局部特征相較于全局特征能夠大幅度提升網絡性能。聯合全局特征和局部特征的網絡能夠在局部特征網絡基礎上兼具粗粒度信息,使網絡相較于局部特征訓練能夠有效地將R@1 和AP 平均提升1.43 個百分點左右。這些數據表明,聯合全局和局部特征聚合了多粒度視點不變特征,學習出更豐富的目標地點信息。
在MMNet中,分類任務能夠將不同視角的同場景目標地點圖像在兩個特征空間分別進行聚類,然后通過映射方式實現跨視角圖像匹配。相對而言,度量任務則是通過將所有圖像映射在一個特征空間,然后拉近不同視角的同場景圖像距離,推開異類圖像,從而實現跨視角圖像匹配任務。簡而言之,分類任務專注于同視角間同類場景圖像的聚類任務,度量任務專注于不同視角的同場景圖像匹配任務。對比表2 中GF(ID)、GF(RRT)、JF(ID)和MMNet 方法的數據,可以看出MMNet 在融合了交叉熵損失和RRT后,顯著提升了網絡性能,其中在無人機定位任務的R@1 和導航任務的AP指標上分別提高了4.32 和5.58 個百分點。
2.3.4 超參數分析
為了評估β在式(16)中的影響,單獨改變β值在MMNet測試中做了單一變量實驗,結果如圖5 所示,可以看到當β=1時,R@1 和AP 的性能達到最高值。
本文基于孿生網絡架構提出了一種新的深度學習網絡MMNet,用于跨視角圖像匹配。MMNet 有效融合了多視角全局和局部特征,學習到兼具粗粒度感知和細粒度上下文的目標地點信息;同時MMNet 聯合了分類損失和度量損失進行多監督訓練,能夠有效互補分類和度量任務中的固有缺陷。對于全局特征,在采用分類損失的基礎上,提出了重加權正則化三元組損失,有效緩解了分類損失對于跨視角視圖映射較弱的問題。對于局部特征,采用方形環分割策略,將全局特征劃分成多個環形部分,從卷積圖中學習潛在的上下文信息,并為局部特征執行分類任務。對于University-1652 數據集,本文所提出的多視角平衡采樣策略,能夠有效緩解該數據集無人機視圖和衛星視圖樣本數量不平衡問題。此外,基于多監督訓練方式有效提升了無人機定位和導航任務的跨視角圖像匹配性能。在目前流行的無人機數據集上證實了所提出的MMNet 的有效性,相較于現有的前沿方法,顯著了提高了無人機定位和導航任務的準確性。
下一步工作將會考慮衛星視圖和無人機視圖之間的視角轉換,讓網絡自動學習多視角間的視點不變特征的基礎上,訓練出針對空間域差的自適應視角轉換方法。