李 昂 阮曉鋼,2 黃 靜,2* 朱曉慶,2
1(北京工業(yè)大學(xué)信息學(xué)部 北京 100124) 2(計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100124)
目前,閉環(huán)檢測(cè)已經(jīng)成為了移動(dòng)機(jī)器人導(dǎo)航領(lǐng)域的關(guān)鍵問(wèn)題和研究熱點(diǎn),是視覺(jué)同時(shí)定位與地圖構(gòu)建(SLAM)的重要環(huán)節(jié)。視覺(jué)SLAM主要由視覺(jué)里程計(jì)、后端圖優(yōu)化、閉環(huán)檢測(cè)和建圖四個(gè)部分組成[1]。其中閉環(huán)檢測(cè)也稱為位置識(shí)別,指機(jī)器人在導(dǎo)航過(guò)程中使用視覺(jué)傳感器提供的圖像來(lái)識(shí)別是否經(jīng)過(guò)了先前到達(dá)的位置[2]。假設(shè)在當(dāng)前時(shí)刻和較早時(shí)刻相機(jī)捕獲了兩幅圖像,那么閉合檢測(cè)的任務(wù)就是根據(jù)這兩幅圖像的相似性來(lái)判斷這兩個(gè)時(shí)刻的位置是否相同。正確的閉環(huán)檢測(cè)可以為后端優(yōu)化的姿態(tài)圖中增加邊緣約束,進(jìn)一步優(yōu)化機(jī)器人的運(yùn)動(dòng)估計(jì),消除視覺(jué)里程計(jì)產(chǎn)生的累計(jì)位姿誤差,而錯(cuò)誤的閉環(huán)檢測(cè)會(huì)導(dǎo)致地圖繪制失敗。因此,一個(gè)好的閉環(huán)檢測(cè)算法對(duì)于構(gòu)建全局一致性地圖乃至整個(gè)SLAM系統(tǒng)都至關(guān)重要。
近年來(lái),學(xué)者們?cè)陂]環(huán)檢測(cè)方面做了大量的研究。經(jīng)典的閉環(huán)檢測(cè)算法大致可以分為兩類:詞袋模型(BoW)算法[2]和全局描述子算法。BoW從圖像中提取局部特征,然后聚類形成不同的單詞,最終用單詞向量的形式來(lái)描述圖像,將閉環(huán)檢測(cè)轉(zhuǎn)化成了圖像單詞向量的相似性度量問(wèn)題。詞袋模型算法的關(guān)鍵在于如何選擇最優(yōu)的局部特征,目前多采用傳統(tǒng)的SIFT[3]、SURF[4]和ORB[5]等特征作為圖像的表達(dá)。而全局描述子算法的主要思想是直接計(jì)算整幅圖像的描述子,從而表達(dá)圖像的整體屬性。GIST是一種非常有效的常規(guī)圖像描述子,它能夠以緊湊的方式去捕捉不同類型場(chǎng)景的基本結(jié)構(gòu)。在此基礎(chǔ)上,Liu等[6]使用GIST提取圖像的全局特征,并采用PCA對(duì)描述子進(jìn)行降維,提高了閉環(huán)檢測(cè)的計(jì)算效率和圖像描述子的識(shí)別能力。但以上兩種方法各有優(yōu)缺點(diǎn)。Furgale等[7]證明了BoW相較于全局描述子能更好地應(yīng)對(duì)相機(jī)視角變化,而Milfold等[8]和Naseer等[9]提出全局描述子方法在光照變化的情況下更魯棒。McManus等[10]將這兩種方法結(jié)合起來(lái),提出了一種使用場(chǎng)景標(biāo)簽的無(wú)監(jiān)督系統(tǒng),該系統(tǒng)可以為不同的視覺(jué)元素產(chǎn)生廣域檢測(cè)器,提高了閉環(huán)檢測(cè)的準(zhǔn)確性。然而,這些方法所使用的都是低層特征,是人為設(shè)計(jì)的,它們對(duì)光照、天氣等因素的影響很敏感,缺乏必要的魯棒性。
隨著大規(guī)模數(shù)據(jù)集的公開(如Imagenet)以及各種硬件的升級(jí)(如GPU),深度學(xué)習(xí)[11-12]得到了迅速發(fā)展。深度學(xué)習(xí)能夠通過(guò)多層神經(jīng)網(wǎng)絡(luò)對(duì)輸入的圖像提取抽象的高層特征,從而更好地應(yīng)對(duì)環(huán)境的變化[13],這種優(yōu)勢(shì)使其在圖像分類和圖像檢索中得到了廣泛應(yīng)用。考慮到閉環(huán)檢測(cè)問(wèn)題與圖像檢索十分相似,學(xué)者們開始嘗試將深度學(xué)習(xí)應(yīng)用于閉環(huán)檢測(cè)。Gao等[14]利用自編碼器提取圖像特征并采用相似性度量矩陣對(duì)閉環(huán)進(jìn)行檢測(cè),但忽略了圖像的空間特性。何元烈等[15]設(shè)計(jì)了一種快速、精簡(jiǎn)的卷積神經(jīng)網(wǎng)絡(luò)(FLCNN),在保證閉環(huán)檢測(cè)準(zhǔn)確率的情況下提高了算法的計(jì)算效率。Xia等[16]利用PCANet對(duì)圖像進(jìn)行特征提取,證明了該網(wǎng)絡(luò)提取的特征優(yōu)于傳統(tǒng)的手工設(shè)計(jì)特征,但限制了輸入圖像的尺寸。Hou等[17]利用PlaceCNN進(jìn)行閉環(huán)檢測(cè),該方法即使在光照變化時(shí)也具有較高的檢測(cè)精度,但算法運(yùn)算時(shí)間較長(zhǎng)。
為了進(jìn)一步提高閉環(huán)檢測(cè)算法的準(zhǔn)確率和魯棒性,本文采用了融合VGG16與VLAD的網(wǎng)絡(luò)結(jié)構(gòu)VGG-NetVLAD。該網(wǎng)絡(luò)采用了基于VLAD[18]思想的NetVLAD池化層,充分考慮了圖像的局部空間特性,以提高閉環(huán)檢測(cè)的準(zhǔn)確性和魯棒性。不同于典型的CNN,VGG-NetVLAD訓(xùn)練數(shù)據(jù)的標(biāo)簽僅為各自的地理位置,能夠進(jìn)行弱監(jiān)督學(xué)習(xí)。
局部聚合描述符向量(VLAD)是一種常用于實(shí)例檢索和圖像分類的描述子池化方法,可以捕獲局部特征在圖像中聚合的統(tǒng)計(jì)信息。詞袋模型保存了圖像中不同種類單詞的數(shù)量信息,而VLAD儲(chǔ)存的是每個(gè)單詞與對(duì)應(yīng)聚類中心的殘差和。
假設(shè)VLAD算法的輸入為單幅圖像的N個(gè)D維特征向量xi,參數(shù)為K個(gè)聚類中心ck,則VLAD會(huì)輸出一個(gè)K×D維的圖像特征向量,將其寫成矩陣的形式,并記作V,計(jì)算公式如下:
(1)
式中:xi(j)和ck(j)分別代表第i個(gè)特征向量和第k個(gè)聚類中心的第j個(gè)元素;ak(xi)表示第i個(gè)特征向量對(duì)應(yīng)第k個(gè)聚類中心的權(quán)重,當(dāng)該特征屬于這個(gè)聚類中心時(shí),權(quán)重為1,否則為0。由此看出,矩陣V的第k個(gè)D維列向量代表所有特征向量對(duì)應(yīng)第k個(gè)聚類中心的殘差和(xi-ck)。因此,VLAD方法提取的圖像特征表達(dá)了聚類中心周圍的特征分布,包含了一定的語(yǔ)義信息。
在VLAD中權(quán)重ak(xi)只有兩種取值,并且特征向量在不同聚類中心的權(quán)重之和為1,是一個(gè)離散函數(shù),所以無(wú)法通過(guò)反向傳播進(jìn)行訓(xùn)練。為了將VLAD的思想引入到CNN,本文采用了Arandjelovic等[19]提出的NetVLAD池化層。它采用了一種近似的方式,將ak(xi)軟分配到多個(gè)聚類中心,使其可微:
(2)

將式(2)中的平方項(xiàng)展開,分子分母同時(shí)約掉e-α‖xi‖2,得到如下的軟分配(soft-assignment)形式:
(3)
式中:wk′=2αck;bk=-α‖ck‖2,將式(3)代入式(1)最終得到NetVLAD層輸出的特征向量:
(4)

圖1 NetVLAD相對(duì)于VLAD的自適應(yīng)性
圖1中圓圈和三角形分別代表兩個(gè)不同圖像的特征描述符,被分配到同一個(gè)集群,聚類中心為ck。當(dāng)采用余弦距離計(jì)算圖像相似度時(shí),在VLAD編碼下,由于VLAD的特征向量進(jìn)行了L2歸一化,所以相似性得分等價(jià)于兩幅圖像殘差向量(xi-ck)的點(diǎn)積,聚類中心ck位于“×”處是為了均勻分布所有的殘差。而在NetVLAD編碼下,如果兩幅圖像并不相似,它會(huì)學(xué)習(xí)到一個(gè)更優(yōu)的聚類中心“☆”,使得殘差向量間的點(diǎn)積更小,從而得到更加準(zhǔn)確的相似度。
為了使卷積神經(jīng)網(wǎng)絡(luò)提取到的圖像特征更適用于閉環(huán)檢測(cè),本文對(duì)VGG16網(wǎng)絡(luò)進(jìn)行了裁剪,去掉了最后一個(gè)卷積層(conv5_3)之后的池化層和全連接層,包括ReLU激活函數(shù),并將NetVLAD層連接到卷積層conv5_3之后,作為新的池化層。將圖像輸入到VGG-NetVLAD網(wǎng)絡(luò)中,提取Layer_5層的特征作為池化層NetVLAD的輸入。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 融合VGG16與VLAD的網(wǎng)絡(luò)模型

為了獲得VGG-NetVLAD的最優(yōu)參數(shù),便于進(jìn)行閉環(huán)檢測(cè),使用Pittsburgh(Pitts250k)數(shù)據(jù)集[19]進(jìn)行訓(xùn)練。它包含了250 000幅從Google街景下載的數(shù)據(jù)庫(kù)圖像和24 000幅與數(shù)據(jù)庫(kù)拍攝時(shí)間不同(間隔為幾年)的測(cè)試圖像,可用于地點(diǎn)識(shí)別。將Pitts250k平均分為三部分用于訓(xùn)練、驗(yàn)證和測(cè)試,每部分包含83 000幅數(shù)據(jù)庫(kù)圖像和8 000幅查詢圖像。通過(guò)對(duì)拍攝于不同季節(jié)但地點(diǎn)相同的圖像進(jìn)行描述,能夠使算法學(xué)習(xí)到更優(yōu)的特征表達(dá),以準(zhǔn)確地識(shí)別圖像所處的位置。

(5)

(6)
在三元組的基礎(chǔ)上,定義弱監(jiān)督排序損失函數(shù)的形式為:
(7)
式中:l為hinge loss函數(shù),l(x)=max(x,0);m為一個(gè)附加常數(shù);Lθ代表了所有負(fù)樣本圖像的損失之和,對(duì)于每一個(gè)負(fù)樣本圖像,當(dāng)其與查詢圖像的距離大于查詢與最佳匹配圖像的距離與m之和,則損失為0,否則其損失值與m成正比。
VGG-NetVLAD在反向傳播過(guò)程中,使用隨機(jī)梯度下降法對(duì)參數(shù)進(jìn)行優(yōu)化,設(shè)置每個(gè)訓(xùn)練批次的樣本數(shù)量為4個(gè)三元組,K值設(shè)為64,初始學(xué)習(xí)速率設(shè)為0.000 1,m設(shè)為0.1,沖量系數(shù)設(shè)為0.9,每迭代5次學(xué)習(xí)速率減半,共迭代30次。用訓(xùn)練好的VGG-NetVLAD模型在Pitts250k數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示:當(dāng)準(zhǔn)確率為100%時(shí),該算法可以達(dá)到85%的召回率。
閉環(huán)檢測(cè)的任務(wù)是識(shí)別當(dāng)前時(shí)刻位置是否曾經(jīng)到達(dá)過(guò),算法流程可分為圖像特征提取與相似性度量?jī)蓚€(gè)步驟,具體流程如圖3所示。本文將在Pittsburgh數(shù)據(jù)集上訓(xùn)練好的VGG-NetVLAD模型作為圖像的特征提取器,將提取到的特征用于閉環(huán)檢測(cè)。

圖3 閉環(huán)檢測(cè)算法流程
圖像的原始尺寸為640×480,為了減小算法的計(jì)算復(fù)雜度,將圖像大小縮小為224×224,并進(jìn)行減均值處理后輸入到網(wǎng)絡(luò)中。從圖4所示的特征圖可以看出,VGG-NetVLD中池化層NetVLAD輸出的特征圖更加關(guān)注靜態(tài)的建筑物,而不是汽車這種有利于圖像分類的物體,因此更適合應(yīng)用于閉環(huán)檢測(cè)。因此,將NetVLAD層提取的特征作為圖像的最終表述,每個(gè)圖像的特征向量的維度為4 096。

圖4 兩種算法生成的特征圖
假設(shè)當(dāng)前圖像為In,之前某一時(shí)刻圖像為IP,分別輸入到VGG-NetVLAD模型中得到特征向量vn和vp。為了計(jì)算兩圖像的相似程度,采用向量間的余弦距離作為度量標(biāo)準(zhǔn),余弦相似度計(jì)算公式如下:
(8)
式中:S為圖像In與IP的相似性得分,也是特征向量vn和vp夾角的余弦值。在閉環(huán)檢測(cè)時(shí),對(duì)數(shù)據(jù)中所有圖像兩兩分別進(jìn)行相似性比較,最終得到一個(gè)相似性矩陣,矩陣中第i行第j列的值代表圖像Ii與圖像Ij的相似性得分。設(shè)定相似性閾值,當(dāng)圖像間的相似性得分超過(guò)閾值時(shí),認(rèn)為兩圖像為同一地點(diǎn),產(chǎn)生了閉環(huán),否則就判定不是閉環(huán)。
在進(jìn)行閉環(huán)檢測(cè)時(shí),輸入的圖像是由相機(jī)在連續(xù)時(shí)間內(nèi)拍攝的,因此相鄰圖像的內(nèi)容重復(fù)性很高,容易被檢測(cè)成同一位置,但實(shí)際的運(yùn)動(dòng)軌跡并未形成閉環(huán)。為了避免產(chǎn)生大量的錯(cuò)誤結(jié)果,需考慮圖像相似度對(duì)比的時(shí)間閾值,對(duì)于當(dāng)前圖像,不考慮與其拍攝的間隔時(shí)間小于閾值的圖像進(jìn)行比較。由于難以獲取每個(gè)圖像具體的拍攝時(shí)間,所以采取設(shè)定圖像比較范圍的方式,假設(shè)當(dāng)前檢測(cè)的圖像為It,在時(shí)間閾值內(nèi)與It相鄰的圖像數(shù)量為d,則圖像It的相似性比較范圍為第1幀至第t-d幀。
為了驗(yàn)證基于VGG-NetVLAD的閉環(huán)檢測(cè)算法的性能,與其他閉環(huán)檢測(cè)算法進(jìn)行對(duì)比,其中包括經(jīng)典的BoW方法(在訓(xùn)練詞典時(shí)提取ORB特征),以及三種基于深度學(xué)習(xí)的方法:自編碼器(Autoencoder)、Inception和VGG16[22],均通過(guò)ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練。評(píng)價(jià)算法的性能指標(biāo)為準(zhǔn)確性和計(jì)算時(shí)間。實(shí)驗(yàn)采用的環(huán)境為:Ubuntu16.04,Tensorflow。計(jì)算機(jī)配置為:內(nèi)存32 GB,一塊GTX1080顯卡,處理器為Intel Xeon E5-2603 V3。
閉環(huán)檢測(cè)實(shí)驗(yàn)在NewCollege和City Center兩個(gè)數(shù)據(jù)集上進(jìn)行,它們是由牛津大學(xué)發(fā)布,應(yīng)用最廣泛的閉環(huán)檢測(cè)驗(yàn)證數(shù)據(jù)集。NewCollege數(shù)據(jù)集主要為自然物體的圖像序列,如公園里的花草樹木,而CityCenter數(shù)據(jù)集則主要為城市環(huán)境的圖像序列,如在街道上行走的人和車。這兩個(gè)數(shù)據(jù)集的共同點(diǎn)是在同一個(gè)地點(diǎn)存在左右兩個(gè)不同視角的圖像,其獲取方式為:在移動(dòng)機(jī)器人的云臺(tái)上放置左右兩個(gè)相機(jī),當(dāng)機(jī)器人每移動(dòng)1.5 m時(shí)采集一次圖像。表1為兩個(gè)數(shù)據(jù)集的詳細(xì)信息,圖5為數(shù)據(jù)集的部分示例圖。

表1 數(shù)據(jù)集詳細(xì)信息

(a) New College left (b) New College right

(c) City Center left (d) City Centerright圖5 數(shù)據(jù)集部分示例圖
數(shù)據(jù)集沒(méi)有將左右兩個(gè)相機(jī)拍攝的圖片進(jìn)行劃分,而是分別以奇偶序號(hào)命名。兩個(gè)數(shù)據(jù)集都提供了圖像對(duì)是否形成閉環(huán)的真實(shí)標(biāo)注,分別儲(chǔ)存為2 146×2 146、2 474×2 474的二維矩陣形式。當(dāng)圖像i和圖像j為同一地點(diǎn)時(shí)(形成閉環(huán)區(qū)域),矩陣中(i,j)處的數(shù)值為1,否則為0。由圖5可以看出,左右兩個(gè)相機(jī)在同一地點(diǎn)拍攝的兩幅圖像完全不同,而真實(shí)的標(biāo)注數(shù)據(jù)將很多同一地點(diǎn)拍攝但場(chǎng)景完全不同的圖像對(duì)(i,j)也歸類為閉環(huán)區(qū)域,這種情況下僅僅通過(guò)比較圖像間的相似性很難獲得與真實(shí)標(biāo)注數(shù)據(jù)一樣的結(jié)果。為了解決上述問(wèn)題,首先對(duì)兩個(gè)數(shù)據(jù)集各自進(jìn)行歸類,將數(shù)據(jù)集中左相機(jī)采集的圖像和右相機(jī)采集的圖像分為兩部分,對(duì)標(biāo)注數(shù)據(jù)也采取相同的操作,然后再分別進(jìn)行4組閉環(huán)檢測(cè)實(shí)驗(yàn)。參照文獻(xiàn)[23]中d值的設(shè)置方式,將分類后New College兩個(gè)數(shù)據(jù)集的d值設(shè)為50,City Center兩個(gè)數(shù)據(jù)集的d值設(shè)為400。
在四組實(shí)驗(yàn)中,分別按照3.1節(jié)和3.2節(jié)的方法提取輸入圖像的特征向量,以余弦距離作為度量標(biāo)準(zhǔn)計(jì)算每對(duì)圖像間的相似性得分,最終生成整個(gè)數(shù)據(jù)集的相似度矩陣。圖6對(duì)四組實(shí)驗(yàn)的相似度矩陣進(jìn)行了可視化,左側(cè)為真實(shí)標(biāo)注數(shù)據(jù)的熱力圖,右側(cè)為基于VGG-NetVLAD方法生成的熱力圖。圖中顏色越亮的地方代表圖像的相似度越高,顏色越暗的地方圖像相似度越低,其中對(duì)角線的值為圖像對(duì)(i,i)的相似性得分,因此對(duì)角線的顏色最亮。可以看出,基于VGG-NetVLAD的閉環(huán)檢測(cè)方法可以檢測(cè)出大部分的真實(shí)閉環(huán)區(qū)域,并且與非閉環(huán)區(qū)域有一定的區(qū)分度。

(a) New College left
為了驗(yàn)證算法的準(zhǔn)確性,將算法的預(yù)測(cè)值與真實(shí)值進(jìn)行比較,分為4種結(jié)果,如表2所示。

表2 閉環(huán)檢測(cè)的結(jié)果分類
準(zhǔn)確性指標(biāo)主要為準(zhǔn)確率(pression)和召回率(recall),準(zhǔn)確率代表算法預(yù)測(cè)出的所有閉環(huán)中正確閉環(huán)所占的比例;而召回率則代表算法預(yù)測(cè)出的正確閉環(huán)占所有真實(shí)閉環(huán)的比例。分別統(tǒng)計(jì)表2中TP、FP、FN的預(yù)測(cè)個(gè)數(shù),根據(jù)式(9)-式(10)可以計(jì)算準(zhǔn)確率P和召回率R。通過(guò)不斷改變閾值大小,獲得不同的預(yù)測(cè)結(jié)果,最終繪制準(zhǔn)確率-召回率曲線。
(9)
(10)
實(shí)驗(yàn)的準(zhǔn)確率-召回率比較結(jié)果如圖7所示。當(dāng)召回率接近0時(shí),五種算法的準(zhǔn)確率都等于1。隨著閾值的減小,算法能夠檢測(cè)到更多的閉環(huán)數(shù)量,因此召回率不斷上升,但同時(shí)算法的準(zhǔn)確率隨之下降。從圖7(a)、圖7(c)和圖7(d)可以看出,當(dāng)召回率分別小于0.43、0.24和0.17時(shí),VGG16(fc6層的輸出)的準(zhǔn)確率均低于傳統(tǒng)的BoW,而VGG-NetVLAD要優(yōu)于其他四種算法。在圖7中,當(dāng)準(zhǔn)確率為100%時(shí),VGG-NetVLAD的召回率依次達(dá)到0.284、0.247、0.258和0.274,在保證高準(zhǔn)確率的情況下提高了召回率,有效地增加了檢測(cè)出真實(shí)閉環(huán)的數(shù)量。

(a) New College left
另一個(gè)衡量算法準(zhǔn)確性的指標(biāo)為平均準(zhǔn)確率:
(11)
式中:N代表數(shù)據(jù)集中圖像的總個(gè)數(shù);P(k)表示檢測(cè)到K個(gè)閉環(huán)區(qū)域時(shí)的準(zhǔn)確率;Δr(k)表示當(dāng)調(diào)整閾值時(shí),檢測(cè)到的閉環(huán)區(qū)域從K個(gè)增加到K+1時(shí)召回率的變化值。不同閉環(huán)檢測(cè)算法在四組實(shí)驗(yàn)下的平均準(zhǔn)確率如表3所示,結(jié)果顯示無(wú)論是在New College left、New College right數(shù)據(jù)集還是City Center left、City Center right數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),VGG-NetVLAD的平均準(zhǔn)確率均高于BoW、VGG16和其他兩種深度學(xué)習(xí)方法。由于VGG-NetVLAD使用的訓(xùn)練數(shù)據(jù)集為Pitts250k,其獲取的場(chǎng)景中人、汽車和道路出現(xiàn)的次數(shù)更多,所以算法在CityCenter數(shù)據(jù)集下的平均準(zhǔn)確率相對(duì)更高。

表3 不同數(shù)據(jù)集上算法的平均準(zhǔn)確率 %
除了對(duì)算法的準(zhǔn)確性進(jìn)行比較,還通過(guò)計(jì)算不同算法的特征提取時(shí)間來(lái)衡量算法的實(shí)時(shí)性。實(shí)驗(yàn)在New College數(shù)據(jù)集上計(jì)算提取單幅圖像特征的平均時(shí)間,基于深度學(xué)習(xí)算法的提取過(guò)程均在GPU下實(shí)現(xiàn)。從表4的時(shí)間性能比較可以看出,本文模型在特征提取時(shí)間上要遠(yuǎn)小于傳統(tǒng)的BoW,但由于VGG-NetVLAD需要對(duì)特征進(jìn)行降維,略高于VGG16,但大體上滿足了閉環(huán)檢測(cè)的實(shí)時(shí)性的需求。

表4 時(shí)間性能比較
本文提出了一種融合VGG16與NetVLAD池化層的閉環(huán)檢測(cè)方法。NetVLAD層將VLAD的思想引入到了卷積神經(jīng)網(wǎng)絡(luò),其參數(shù)可以通過(guò)端到端的學(xué)習(xí)獲得。本文使用Pittsburgh數(shù)據(jù)集作為網(wǎng)絡(luò)的訓(xùn)練集,并采用弱監(jiān)督排序損失函數(shù)訓(xùn)練網(wǎng)絡(luò),將訓(xùn)練好的網(wǎng)絡(luò)作為圖像的特征提取器,在New College和City Center數(shù)據(jù)集上進(jìn)行閉環(huán)檢測(cè)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文的閉環(huán)檢測(cè)算法與傳統(tǒng)的BoW以及其他三種深度學(xué)習(xí)方法相比,在保證高召回率的情況下提升了準(zhǔn)確率,同時(shí)基本滿足了閉環(huán)檢測(cè)的實(shí)時(shí)性。下一步研究會(huì)著重考慮機(jī)器人在移動(dòng)過(guò)程中視角變化、光照變化對(duì)閉環(huán)檢測(cè)的影響,對(duì)算法進(jìn)行改進(jìn)以達(dá)到更好的魯棒性。