任超鋒, 蒲禹池, 張福強
(長安大學地質工程與測繪學院,西安 710054)
無人機(unmanned aerial vehicle, UAV)低空攝影測量具有現勢性強、分辨率高、采集方式靈活、傳感器多樣化等優點,近年來在應急測繪[1]、城市三維重建[2]、滑坡地形重建[3]、文物三維重建[4]等領域得到了越來越廣泛的應用。然而,由于低空UAV一般搭載非量測相機,且受平臺不穩定性及傳感器多樣化等諸多因素影響,獲取的影像尺度不一致,且數據量龐大,為影像匹配帶來極大挑戰。此外,近年來新興的仿地飛行、環繞飛行、貼近飛行等數據獲取方式,更使傳統的影像匹配方法難以滿足需求。
影像匹配作為三維自動重建的基礎環節,其效率與穩健性對重建結果起著決定性作用。尤其針對復雜地形條件下的三維重建,能夠獲取的有效匹配像對越多,影像連接成功的概率也越高。總體上可將其分為2個環節: ①提取匹配像對,即從大數據量的遙感影像中按照一定方法提取具有重疊區的一對影像; ②按照影像匹配算法對提取的像對進行雙像匹配提取匹配像對,獲取同名點列表。近年來,針對多角度、大傾角的無人機影像,文獻[5-7]在尺度不變特征變換(scale-invariant feature transform,SIFT)[8]和仿射尺度不變特征變換(affine-scale-invariant feature transform, ASIFT)[9]算法基礎上提出了相應的匹配策略,同時借助圖形處理器(graphics processing unit, GPU)[10]并行運算,這一類方法均可快速完成像對的同名點匹配。然而,如何從大量影像中提取匹配像對的研究還處于比較初級的研究階段。
在UAV影像匹配像對提取方面,文獻[11-12]采用窮舉遍歷策略,對影像集中任意兩兩影像進行匹配。該類方法可靠性最高,但存在大量盲目的無效運算,效率太低; 文獻[13]利用影像初始地理位置信息,計算當前影像與其相鄰影像的空間距離,進而采用固定閾值范圍內的像對進行匹配; 文獻[14]則通過動態搜索的方法確定閾值,提高了匹配的可靠度,但當測區內存在多層次、不同分辨率的UAV影像時,其獲取的搜索閾值無法保證為全局最優值; 文獻[7,15-16]則利用影像的定位定向系統(positioning and orientation system, POS)測量數據、傳感器結構設計參數及內方位元素、測區地形信息等先驗知識,計算每張影像的腳印圖,進而利用腳印圖的拓撲關系,判定像對是否具有重疊區。由于該類方法計算量小,且對常規數據獲取方式具有較好的適應性,因此是目前低空UAV影像匹配像對提取的主要方法。然而,從原理可知,該類方法高度依賴先驗知識的準確性,因此,當測區地形信息不確定(如滑坡、山谷、獨立地物等)、或者傳感器設計參數無法準確得知時(如多鏡頭傾斜相機、組合傾擺相機),該類方法便無法準確計算出像對的相關性。文獻[17]則從影像內容信息出發,利用提取的特征信息構建視覺詞袋(bag of visual words, BoW)模型,進而利用影像檢索方式確定待匹配像對; 文獻[18]在生成BoW模型過程中,計算海明嵌(hamming embedding, HE)來提升影像檢索的準確度; 文獻[19]則提出了一種霍夫投票算法加速影像檢索過程。由于這類方法一般面向的都是無序、無地理信息的網絡圖像數據,其檢索結果與影像是否具有重疊區沒有明確關系,且計算量過大,難以直接使用。
針對上述問題,本文提出一種顧及影像地理空間信息的BoW模型方法來確定待匹配像對,對地形條件、影像獲取方式、傳感器類型均無限制條件,進而減少影像匹配過程中的冗余計算,以解決UAV影像匹配像對的高效、準確提取問題。
本文提出的UAV影像匹配像對提取方法流程為: ①按照文獻[8]和[10]所述方法,依次完成測區所有影像的SIFT特征提取; ②為了提高影像檢索效率,對提取的SIFT特征進行降維,降低生成視覺詞匯樹的運算量; ③采用文獻[20]方法,利用降維后的特征向量構建視覺詞匯樹; ④檢索所有影像,并計算詞匯樹內單詞的檢索權重; ⑤在詞匯樹內,查詢與當前影像最相似的影像列表,并計算其與查詢列表內影像的空間距離指數,綜合相似指數與空間距離指數對檢索列表進行排序,最后利用綜合指數計算查詢深度閾值,將閾值之前的查詢影像與當前影像組合形成匹配像對。具體方法流程如圖1所示。

圖1 顧及地理空間信息的UAV影像匹配像對提取方法流程
SIFT算法以其尺度、旋轉不變性并能克服一定程度仿射變形和光照變化得以在影像匹配領域得到廣泛使用[7],但原始的SIFT特征包含128維特征向量,若將其直接用于影像檢索,會產生大量的高維度運算,造成影像檢索效率過低。因此,本文采用主成分分析(principal component analysis, PCA)方法對高維度的SIFT特征向量進行降維。
將構建視覺詞匯樹的m個SIFT特征組成矩陣Xm×128,按照PCA原理對其進行奇異值分解 (singular value decomposition, SVD),即
(1)
式中:U和V分別為m階和128階正交矩陣;Wm×128為r個降序排列的特征值σi(i=1,2,…,r)構成的m×128矩形對角矩陣。

(2)
將降維后的SIFT特征進行聚類,聚類的過程即為構建視覺詞匯樹過程。聚類之后,每一個聚類中心表示為一個視覺單詞,一幅影像可以表示為多個視覺單詞的無序集合,此時,UAV影像之間的相似性判定即可轉變為視覺單詞之間的相似性判定。
本文采用文獻[20]的方法構建層次詞匯樹,同時采用詞頻逆文檔頻率(term frequency-inverse document frequency, TF-IDF)評價某一個視覺單詞對于視覺詞匯樹中某一影像的重要程度,其定義為:
(3)
式中:ft為詞頻;fid為逆文檔頻率;nip為影像p中出現視覺單詞i的數量;np為影像p中出現的所有視覺單詞數量;N為影像總體數量;ni為包含視覺單詞i的影像數量。
詞頻ft表達了某個視覺單詞在影像中的出現頻率,而逆文檔頻率fid則表達了該視覺單詞在其他影像上的重復頻率,兩者組合之后可將視覺單詞的重要性隨著它在影像文件中出現的頻率呈正比增加,同時也會隨著它在視覺詞典中出現的頻率呈反比下降。
當視覺詞匯樹創建完成后,依次檢索數據集中每一幅影像中視覺單詞的出現頻率。檢索完成之后,即可計算其TF-IDF因子。此時,每一幅影像均可表示為一組帶不同權重的視覺單詞組合。評價2幅影像是否相似,即可通過計算2幅影像的單詞向量點積完成,公式為:
(4)

相似因子只是評價2幅影像所含視覺單詞的相似性,在大部分情況下,具有相似內容的影像一般也具有重疊區。然而,當地表類型比較單一時(如大片田地、灌木、裸露山地),相似的區域并非一定具有重疊區。此時,若將影像之間的空間距離作為影響因素參與評價,則可大大提高兩者之間的相關性。圖2為反距離權重因子示意圖。

圖2 反距離權重因子
如圖2所示,當前影像Ii與查詢影像Ij之間空間距離越近,則其存在重疊區的可能性越高。因此,本文計算當前影像與相似影像列表之間的反距離權重因子,用以評價兩者之間的空間相關性,公式為:
(5)

(6)
查詢深度是指以綜合權重因子為依據,在影像集合中查詢出與當前影像相似性最高的前Q張影像,組成待匹配像對,如圖3所示。

圖3 查詢深度閾值
圖3中,查詢影像Ii與查詢深度Q共組成Q對像對進行匹配。實際處理過程中,Q值過小會造成漏檢,而Q值過大則會引入大量無效匹配像對,降低匹配效率。因此,本文采用查詢深度閾值的方式對查詢深度進行分割,僅將閾值前的影像與查詢影像組成匹配像對進入匹配環節。閾值計算公式為:
(7)
式(7)以類間方差最大為原則,將Q內的影像分為前景與背景2部分。式中:N1為屬于閾值t之前的影像數量;w1和w2分別為前景和背景的影像頻率;μ1為閾值t之前影像的綜合因子平均值;μ2為閾值t之后的影像綜合因子平均值;g表示前景影像與背景影像之間的類間方差。在查詢深度內,類間方差最大對應的位置即為查詢閾值t*,公式為:
(8)
為驗證本文方法在多采集方式、多傳感器類型、多地形條件下提取匹配像對的可行性、精度與效率,共收集了5組實驗數據進行實驗。數據集的詳細信息如表1所示。

表1 試驗無人機數據集
基于Windows10 64位操作系統,采用VC++2015開發了海量UAV影像自動空三處理軟件MRI,用于測試本文方法的適應性。硬件平臺為Dell Precision 3630工作站,CPU i7-8700K 3.7 GHz,內存64 G DDR4,硬盤512 G SSD,顯卡為英偉達 Titan XP 12 G。
為了評價低維特征對影像檢索效率及精度造成的影響,對表1中5組影像提取的原始128維特征向量進行降維,分別降至96維、64維、32維,并按照文獻[19]方法對影像進行檢索。檢索過程中,生成詞匯樹的聚類中心數量統一設置為影像數量的200倍,檢索深度統一設置為100,構建詞匯樹的影像從數據集中隨機提取,其數量設置為數據集影像數量的20%,且最大影像數量不超過500幅。評價檢索方法精度時,首先采用窮舉法完成5組影像匹配,然后以其匹配結果為基準,評價其他檢索方法的查詢精度。
評價影像查詢精度通常采用查準率和查全率(圖4)。查準率通過計算查詢深度內正確的查詢影像與查詢深度的比值構成,它反映了查詢過程中正確像對的比例,查準率越低,意味著匹配環節引入錯誤匹配像對數量越高,相應的匹配耗時也越高。查全率則通過計算查詢深度內正確的查詢影像與窮舉法匹配中得到的所有正確影像數量比值構成,它反映了當前特征條件下,能提取到的匹配像對的完整度,查全率越低,意味著稀疏重建時的可靠性越低,容易丟片。因此,查準率與查全率之間相互制約,在查全率相當的前提下,查準率越高,則算法的效率越高。除了計算128維、96維、64維、32維特征的檢索精度外,按照本文方法分別計算32維和64維的綜合檢索因子檢索精度,分別用32G和64G表述。從圖4(a)中可知,總體上,影像查詢的查準率隨著特征維度降低而遞減,當特征維度降到32維時,其影像查準率明顯降低。反觀圖4(b),此時的查全率卻最高。其原因主要是32維的影像特征丟失了過多的細節信息,使特征之間的可分性降低,在引入大量錯誤匹配像對基礎上,也將大量弱連接的像對引入匹配環節。雖然提升了整體的查全率,但后續的匹配環節效率太低。因此,綜合考慮效率與精度,將特征降低至64維進行影像檢索是合適的。


(a) 查準率 (b) 查全率
表1中的5個測試數據集,數據A和B為正射類型,數據C,D,E可歸為傾斜類型。正射類型中,隨著特征維度降低,其查準率和查全率均緩慢降低,而本文的綜合查詢因子方法在相同特征維度條件下,均獲得了最高的查準率和查全率。為了分析綜合查詢因子的計算過程,從數據集B中提取一張影像在64維和64G模式下的查詢因子曲線進行說明,其結果如圖5所示。

圖5 相似因子與綜合因子曲線
圖5中,相似因子曲線在前端具有明顯差異,后端則趨于平坦,不具有明顯的可分性。而且,在常規相似因子曲線中,查詢曲線后端還包含大量正確的檢索影像。而采用本文綜合因子的曲線,正確的檢索影像大部分集中在查詢曲線的前端。
圖6即為圖5的部分查詢影像,其中圖6(a)為當前查詢影像,圖6(b)為采用64維傳統相似因子的查詢影像,在曲線中索引位置為21,按照傳統相似因子判定依據,圖6(a)和(b)將會組成待匹配像對進入匹配環節。然而,從影像內容分析,雖然兩者之間存在大量相似的林木區域,但卻不具有重疊區,因此,內容相似的影像并非一定具有重疊區。通過計算綜合查詢因子,圖6(b)所代表的影像已不在綜合查詢曲線內,而原本不在傳統查詢曲線內的圖6(c)影像進入了綜合查詢曲線。因此,綜合查詢因子不僅可以有效剔除錯誤像對,還能將遺漏的部分影像納入影像匹配環節。此外,通過式(7)計算得到的查詢閾值,將大量錯誤的影像剔除匹配環節,進一步提高了查詢過程的查準率。


(a) 當前查詢影像(b) 采用64維傳統相似因子的查詢影像(c) 遺漏的待匹配影像
與正射類型數據不同,圖4中的傾斜影像數據C,D和E呈現超高的查準率和超低的查全率,且查全率隨著特征維度降低不降反升。通過分析實驗數據發現,其原因主要在于數據類型的差異。通常情況下,正射攝影方式獲取的UAV數據,其影像重疊度一般不超過50,即一個地物點可在50張影像上成像。而傾斜影像不同,其影像重疊度一般超過200。此時,將Q設置為100將使查詢出的大部分影像都為正確的匹配影像,即查詢結果表現為超高的查準率。而大量的正確匹配像對由于查詢深度限制并未提取出來,從而造成了超低的查全率。
表2中依次設置Q為100,200和300時,對數據C,D,E的查詢精度進行統計,隨著查詢深度的增加,傾斜類型數據的查準率逐漸降低,而查全率得到大幅提升,并且本文方法均取得最高的查準率和查全率。因此,針對傾斜類型的查詢深度設置應不小于200。

表2 不同查詢深度的查準率和查全率
查詢過程中會產生很多重復查詢像對,而最終進入匹配環節的則是剔除重復像對之后的像對列表。因此,為了綜合評價本文方法效率,特將匹配像對提取耗時歸入影像匹配環節。此外,為便于比較分析,分別實現了基于腳印圖的影像檢索[7]、基于128維傳統影像檢索[17]以及本文顧及地理空間信息的64維特征影像檢索3種匹配像對提取方法,針對傾斜影像數據C,D,E,其查詢深度統一設置為200,稀疏重建采用增量式重建,統計結果如表3所示。采用本文方法進行稀疏重建的結果如圖7所示。

表3 稀疏重建的效率、完整性及精度


(a) 數據A(b) 數據B


(c) 數據C(d) 數據D

(e) 數據E
為了綜合評價不同方法之間的匹配效率,本文將構建詞匯樹、構建索引、影像檢索及雙像匹配耗時相加,統稱為匹配時間。從表3中可知,針對正射影像數據A和B而言,傳統的腳印圖法匹配效率最高。而128維特征檢索方法效率最低,且穩定性也不足。比如數據A中,相較于其他2種方式,128維特征的稀疏重建結果丟失了10幅影像,而丟失的影像基本都處于影像紋理匱乏的測區邊緣區域,說明單純依靠紋理特征的相似性判定像對是否具有重疊區并不嚴密。而針對傾斜類型的數據C,D,E而言,本文方法的效率、穩定性最高。如圖7(c)所示,數據C由于地形條件限制,其航線設計比較混亂,且包含了正射、貼近2種攝影方式。傳統的腳印圖方法沒法準確估算貼近攝影方式的腳印圖,所以最終獲取的稀疏重建結果丟片比較嚴重,且主要集中在測區右上角,即貼近方式獲取的影像區域,而128維、64G檢索方法則成功將大部分貼近方式獲取的影像連接成功。此外,本文的64G模式獲得了最完整的稀疏重建結果。當數據量增多時,本文方法的匹配效率優勢更加明顯。與腳印圖方法相比,數據C,D,E的匹配效率分別提升了15.16%,23.27%,45.25%,而與傳統128維檢索方法相比,其匹配效率分別提升了39.66%,61.00%,51.73%。
綜上所述,本文方法的優勢可歸納為以下3點: 第一,適應性最高。不需要傳感器的先驗知識,對場地類型及數據獲取方式也無限制。第二,通過綜合查詢因子,提高了匹配效率及精度,尤其適合海量UAV數據的匹配像對提取。第三,檢索深度與影像類型相關。正射類型的影像數據,查詢深度設置為100即可,傾斜類型的數據,查詢深度應不小于200。結合處理效率、重建結果的完整性、算法的適應性等結果對比,本文提出的顧及地理空間信息的UAV影像匹配像對提取方法更具優勢。
本文針對UAV影像匹配像對的提取問題,將高維度的特征降維至低維特征,同時引入影像之間的空間信息構建綜合查詢因子,并通過計算檢索閾值,舍棄檢索深度內的無效匹配像對,獲得了較高的效率及全面的重建結果。
利用5種不同類型的數據進行實驗與分析,結果表明,與前人已提出的腳印圖法相比,前2種常規類型的單相機正射影像數據匹配效率并未提高,而后3種多相機傾斜影像數據匹配效率分別提升了15.16%,23.27%和45.25%。與傳統128維檢索方法相比,5種數據的效率分別提升了46.29%,38.66%,39.66%,61.00%和51.73%。此外,本文方法僅需影像的空間位置信息,更適合數據量較大的傾斜影像,具有更好的適應性。
本文方法還需改進的地方在于,遺漏了少量正確的待匹配像對,其對三維重建結果的影響還需進一步評定。