999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的局部實(shí)例搜索

2020-11-14 11:31:44朱周華
關(guān)鍵詞:排序特征方法

朱周華,高 凡

(西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710054)

0 引 言

信息時(shí)代,數(shù)字圖像和視頻數(shù)據(jù)日益增多,人們對(duì)于圖像檢索的需求也隨之增大。傳統(tǒng)的基于內(nèi)容的圖像檢索(CBIR)都是定義在圖像級(jí)別的檢索,查詢圖片背景都比較單一,沒(méi)有干擾信息,因此可以提取整個(gè)圖片的特征進(jìn)行檢索。但是,現(xiàn)實(shí)生活中的查詢圖片都是帶有場(chǎng)景的,查詢目標(biāo)僅占了整幅圖的一部分,直接將查詢圖與數(shù)據(jù)庫(kù)中的整幅圖像進(jìn)行匹配,準(zhǔn)確率必然會(huì)很低。因此,考慮使用局部特征進(jìn)行實(shí)例搜索。

實(shí)例搜索是指給定一個(gè)樣例,在視頻或圖像庫(kù)中找到包含這個(gè)樣例的視頻片段或者圖片,即找到任意場(chǎng)景下的目標(biāo)對(duì)象。早期,實(shí)例搜索大多采用詞袋模型(bag-of-words,BoW)對(duì)圖像的特征進(jìn)行編碼,其中大部分都采用尺度不變特征變換(SIFT)[1]來(lái)描述局部特征。Zhu等人[2]首先使用SIFT提取查詢圖片和視頻關(guān)鍵幀的視覺(jué)特征,接著采用詞袋算法對(duì)特征進(jìn)行編碼得到一維向量,最后根據(jù)向量之間的相似性,返回一個(gè)排好序的視頻列表,文中借鑒了傳統(tǒng)視覺(jué)檢索的一些方法,但是沒(méi)有很好地結(jié)合實(shí)例搜索的特點(diǎn)。2014年有學(xué)者[3]提出采用比BoW性能更好的空間Fisher向量[4]和局部特征聚合描述符(VLAD)[5]來(lái)描述SIFT特征的空間關(guān)系,從而進(jìn)行實(shí)例檢索。

隨著深度學(xué)習(xí)的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)特征被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)的各個(gè)領(lǐng)域,如圖像分類[6-7]、語(yǔ)音識(shí)別[8]等,均取得了不錯(cuò)的效果,因此有學(xué)者也將其引入到圖像檢索領(lǐng)域。起初,研究者們利用神經(jīng)網(wǎng)絡(luò)的全連接層特征進(jìn)行圖像檢索[9],后來(lái)很多研究者開(kāi)始轉(zhuǎn)向卷積層特征的研究[10],并且證明卷積層特征的性能更好。

Eva等人[11]采用詞袋模型對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNNs)提取的特征進(jìn)行編碼,然后分別進(jìn)行初次搜索,局部重排,擴(kuò)展查詢,從而實(shí)現(xiàn)實(shí)例檢索。

實(shí)例檢索需采用局部特征實(shí)現(xiàn),因此許多生成區(qū)域信息的方法相繼出現(xiàn),最簡(jiǎn)單的是滑動(dòng)窗口,之后有學(xué)者提出使用Selective Search生成物體候選框[12-13],但是這些方法將生成候選區(qū)域和特征提取分開(kāi)進(jìn)行。Faster R-CNN[14]是一個(gè)端到端的網(wǎng)絡(luò),它可以同時(shí)提取卷積層特征和生成候選區(qū)域。文獻(xiàn)[15]提出將微調(diào)之后的目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN應(yīng)用到實(shí)例檢索中,使用區(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN)生成候選區(qū)域,從而得到查詢圖區(qū)域特征與數(shù)據(jù)庫(kù)圖像區(qū)域特征,特征匹配之后排序得到檢索結(jié)果,在兩個(gè)建筑物數(shù)據(jù)集上取得了不錯(cuò)的效果。何濤在其論文中[16]針對(duì)Faster R-CNN網(wǎng)絡(luò)效率較低的問(wèn)題提出了端到端的深度區(qū)域哈希網(wǎng)絡(luò)(DRH),使用VGG16作為特征提取器,滑動(dòng)窗口和RPN網(wǎng)絡(luò)得到候選區(qū)域,并將兩種方法進(jìn)行對(duì)比,整個(gè)網(wǎng)絡(luò)最后階段對(duì)特征進(jìn)行哈希編碼并計(jì)算漢明距離進(jìn)行排序,從而得到檢索結(jié)果,文中為了排除不同場(chǎng)景、不同光照和拍照角度產(chǎn)生的干擾,使用局部信息進(jìn)行檢索。以上兩篇文獻(xiàn)盡管均使用局部信息進(jìn)行檢索,但都是為了排除干擾信息將查詢圖中的目標(biāo)標(biāo)記出來(lái),查詢圖依然是整幅圖像。

實(shí)際搜索圖像時(shí)某些圖片會(huì)有殘缺,此時(shí)就無(wú)法通過(guò)標(biāo)記目標(biāo)進(jìn)行檢索,因此實(shí)例檢索除了常見(jiàn)的利用局部特征進(jìn)行整幅圖像的檢索之外,局部圖像的檢索亦有著非常重要的現(xiàn)實(shí)意義。現(xiàn)有的檢索方法的檢索效果不是很理想,因此文中針對(duì)以上兩個(gè)問(wèn)題首先改進(jìn)整幅圖像的檢索并提高其檢索性能,之后利用圖像的部分信息(例如建筑物的頂部、嫌疑人的部分特征等)檢索得到整幅圖像,實(shí)現(xiàn)局部圖像的檢索。同時(shí),考慮到實(shí)際檢索時(shí),輸入均為一幅圖像,輸出為一組圖像,因此,文中在局部實(shí)例檢索的基礎(chǔ)之上加入在線檢索功能,可以實(shí)現(xiàn)局部圖像的實(shí)時(shí)搜索。因此,主要有以下兩大方面的貢獻(xiàn)和創(chuàng)新:

(1)基于深度學(xué)習(xí)的實(shí)例搜索。一方面,通過(guò)微調(diào)策略提高了實(shí)例搜索的精確度;另一方面,針對(duì)候選框得分(scores)和余弦距(cosine)兩種相似性度量方法存在的不足,提出將兩種方法相結(jié)合,以獲得更好的檢索效果。

(2)基于深度學(xué)習(xí)的局部實(shí)例搜索。由于局部圖像的檢索具有重大的現(xiàn)實(shí)意義,將全局實(shí)例搜索算法應(yīng)用在局部實(shí)例檢索任務(wù)中,即利用殘缺圖片信息搜索得到整幅圖像,并加入在線檢索功能,輸入局部查詢圖,便可以得到查詢結(jié)果和所屬建筑物的名字。

1 相關(guān)理論

1.1 基于Faster R-CNN的區(qū)域特征提取

如圖1所示,F(xiàn)aster R-CNN由卷積層(Conv layers),RPN網(wǎng)絡(luò),RoI pooling,分類和回歸四部分構(gòu)成。

圖1 Faster R-CNN結(jié)構(gòu)

卷積層用于提取圖像特征,可以選擇不同結(jié)構(gòu)的網(wǎng)絡(luò),輸入為整張圖片,輸出為提取的特征稱為feature maps。文中采用VGG16[7]的中間卷積層作為特征提取器。

RPN網(wǎng)絡(luò)用于推薦候選區(qū)域,這個(gè)網(wǎng)絡(luò)是用來(lái)代替之前的selective search[13]的,輸入為圖片,輸出為多個(gè)矩形區(qū)域以及對(duì)應(yīng)每個(gè)矩形區(qū)域含有物體的概率。首先將一個(gè)3*3的滑窗在feature maps上滑動(dòng),每個(gè)窗口中心點(diǎn)映射到原圖并生成9種矩形框(9 anchor boxes),之后進(jìn)入兩個(gè)同級(jí)的1*1卷積,一個(gè)分支通過(guò)softmax進(jìn)行二分類,判斷anchor boxes屬于foreground還是background。另一分支計(jì)算anchor boxes的bounding box regression的偏移量。Proposal層結(jié)合兩個(gè)分支的輸出信息去冗余后保留N個(gè)候選框,稱為proposals。

傳統(tǒng)的CNN網(wǎng)絡(luò),輸入圖像尺寸必須是固定大小的,但是Faster R-CNN的輸入是任意大小的,RoI pooling作用是根據(jù)候選區(qū)域坐標(biāo)在特征圖上映射得到區(qū)域特征并將其pooling成固定大小的輸出,即對(duì)每個(gè)proposal提取固定尺寸的特征圖。

分類和回歸模塊,一方面通過(guò)全連接層和softmax層確定每個(gè)proposal的類別,另一方面回歸更加精確的目標(biāo)檢測(cè)框,輸出候選區(qū)域在圖像中的精確坐標(biāo)。

1.2 微調(diào)Faster R-CNN

微調(diào),即用預(yù)訓(xùn)練模型重新訓(xùn)練自己的數(shù)據(jù),現(xiàn)有的VGG16 FasterR-CNN預(yù)訓(xùn)練模型主要是基于VOC2007數(shù)據(jù)集中20類常見(jiàn)的物體預(yù)訓(xùn)練得到的。文中的數(shù)據(jù)集是建筑物,與VOC2007圖片相似度和特征都相差較大,如果依然采用預(yù)訓(xùn)練模型,效果必然不好,再加上從頭開(kāi)始訓(xùn)練,需要大量的數(shù)據(jù)、時(shí)間和計(jì)算資源。而文中所選用的數(shù)據(jù)集較小,因此需要進(jìn)行微調(diào),這樣不僅可以節(jié)省大量時(shí)間和計(jì)算資源,同時(shí)還可以得到一個(gè)較好的模型。微調(diào)主要分為以下三個(gè)步驟:

(1)數(shù)據(jù)預(yù)處理。

首先需要對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗,主要去除無(wú)效值和糾正錯(cuò)誤數(shù)據(jù),提高數(shù)據(jù)質(zhì)量。其次,由于文中的數(shù)據(jù)集較小且每類樣本分布不均衡,因此選擇性地對(duì)每類圖片作圖像增強(qiáng)處理,其中圖像增強(qiáng)方法包括水平翻轉(zhuǎn),增加高斯噪聲,模糊處理,改變圖像對(duì)比度。最后將每幅圖片中的目標(biāo)樣例標(biāo)記出來(lái)。

(2)建立訓(xùn)練集和測(cè)試集。

一般是按一定的比例進(jìn)行分配,但是文中選用的數(shù)據(jù)集存在樣本不均衡的問(wèn)題,有些類別特別多,有些類別特別少。由于是將所有圖片全部放入同一個(gè)文件夾,然后依次讀取樣本分配訓(xùn)練集和測(cè)試集,如果按比例分配,小類樣本參與訓(xùn)練的機(jī)會(huì)就會(huì)比大類少,訓(xùn)練出來(lái)的模型將會(huì)偏向于大類,使得大類性能好,小類性能差。平衡采樣策略就是把樣本按類別分組,每個(gè)類別生成一個(gè)樣本列表,制作訓(xùn)練集時(shí)從各個(gè)類別所對(duì)應(yīng)的樣本列表中隨機(jī)選擇樣本,這樣可以保證每個(gè)類別參與訓(xùn)練的機(jī)會(huì)比較均衡。

(3)修改相關(guān)網(wǎng)絡(luò)參數(shù),進(jìn)行訓(xùn)練。

主要修改網(wǎng)絡(luò)文件中的類別數(shù)和類名,然后不斷調(diào)節(jié)超參數(shù),使性能達(dá)到最好。

1.3 實(shí)例搜索

實(shí)例檢索一般經(jīng)過(guò)初次搜索,局部重排,擴(kuò)展查詢?nèi)糠滞瓿伞?/p>

初次搜索首先提取查詢圖和數(shù)據(jù)庫(kù)所有圖像的全局特征,然后計(jì)算特征之間的相似度,最后經(jīng)過(guò)排序得到初步的檢索結(jié)果。文中提取VGG16網(wǎng)絡(luò)的最后一個(gè)卷積層(Conv5_3)特征。

局部重排是將初次搜索得到的前K幅圖片作為新的數(shù)據(jù)庫(kù)進(jìn)行重排,基本思路是提取查詢圖和數(shù)據(jù)庫(kù)的區(qū)域特征并進(jìn)行匹配,根據(jù)匹配結(jié)果進(jìn)行排序從而得到查詢結(jié)果。這里查詢圖和數(shù)據(jù)庫(kù)的區(qū)域特征提取方法不同,其中,查詢圖的區(qū)域特征是用groundtruth給定的邊界框?qū)φ鶊D像特征進(jìn)行裁剪得到的,而數(shù)據(jù)庫(kù)的區(qū)域特征是經(jīng)過(guò)RPN網(wǎng)絡(luò)和RoI pooling池化得到的特征(pool5)。

擴(kuò)展查詢(query expansion,QE)是取出局部重排返回的前K個(gè)結(jié)果,對(duì)其特征求和取平均作為新的查詢圖,再做一次檢索,屬于重排的一種。

2 實(shí) 驗(yàn)

2.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

(1)實(shí)驗(yàn)環(huán)境。

文中所有實(shí)驗(yàn)均在NVIDIA GeForce RTX 2080上進(jìn)行,所用系統(tǒng)為Ubuntu 18.04,使用的深度學(xué)習(xí)框架為Caffe,編程語(yǔ)言為Python。

(2)數(shù)據(jù)集介紹。

在兩個(gè)公開(kāi)的建筑物數(shù)據(jù)集Oxford[17]和Paris[18]上進(jìn)行實(shí)驗(yàn)。其中Oxford包含5 063張圖片,Paris包含6 412張圖片,但是有20張被損壞,因此有6 392張圖片可用。兩個(gè)數(shù)據(jù)集都來(lái)自Flickr,共有11類建筑物,同一種建筑物有5張查詢圖,因此每個(gè)數(shù)據(jù)集總共有55張查詢圖,除此之外,兩個(gè)數(shù)據(jù)集相同類別建筑物的場(chǎng)景、拍照角度和光照都有所不同,而且有很多本來(lái)不是同一種建筑物但是從表面看上去卻非常相似的圖片。

(3)評(píng)價(jià)指標(biāo)。

平均精度均值(mean average precision,mAP)是一個(gè)反映了圖像檢索整體性能的指標(biāo),如式(1)和(2)所示。

(1)

(2)

其中,N表示返回結(jié)果總個(gè)數(shù),P(k)表示返回結(jié)果中第k個(gè)位置的查準(zhǔn)率,rel(k)表示返回結(jié)果中第k個(gè)位置的圖片是否與查詢圖相關(guān),相關(guān)為1,不相關(guān)為0。MAP是多次查詢后,對(duì)每次檢索的平均精度AP值求和取平均。這里對(duì)是否相關(guān)做進(jìn)一步解釋:兩個(gè)數(shù)據(jù)集的groundtruth有三類,分別是good,ok和junk,如果檢索結(jié)果在good和ok中,則判為與查詢圖相關(guān),如果在junk中,則判為不相關(guān)。

2.2 基于深度學(xué)習(xí)的實(shí)例檢索

2.2.1 方 法

先嘗試使用VGG16 Faster R-CNN預(yù)訓(xùn)練模型進(jìn)行檢索,在兩個(gè)數(shù)據(jù)集上MAP值僅0.5左右,接著文中使用微調(diào)策略,只凍結(jié)了前兩個(gè)卷積層,更新了之后所有的網(wǎng)絡(luò)層權(quán)值,通過(guò)不斷調(diào)參,訓(xùn)練一個(gè)精度盡可能高的模型。其中,微調(diào)過(guò)程中分別采用數(shù)據(jù)增強(qiáng)和平衡采樣技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理。具體地,對(duì)于Oxford數(shù)據(jù)集,建筑物radcliffe_camera的數(shù)量高達(dá)221張,而建筑物pitt_rivers僅有6張,其他9類樣本數(shù)量在7至78之間不等,數(shù)量差距相當(dāng)大,因此,選擇性地對(duì)數(shù)量小的6類樣本通過(guò)上面提到的方法進(jìn)行數(shù)據(jù)增強(qiáng),使小類樣本數(shù)量增大。對(duì)其進(jìn)行數(shù)據(jù)增強(qiáng)之后,雖然樣本數(shù)量差距縮小,但是依然存在不均衡的問(wèn)題,如果將所有樣本放入一個(gè)文件夾中,按比例分配訓(xùn)練集和測(cè)試集,則依然會(huì)導(dǎo)致訓(xùn)練出來(lái)的模型小類性能差的問(wèn)題。因此,將每類樣本生成一個(gè)列表,再?gòu)拿總€(gè)列表中隨機(jī)選取一定數(shù)量的樣本作為該類的訓(xùn)練樣本。

除此之外,文獻(xiàn)[15]在局部重排部分使用了兩種特征匹配方法,一種是直接利用候選框?qū)?yīng)得分(scores)進(jìn)行排序。數(shù)據(jù)庫(kù)中每幅圖片經(jīng)過(guò)Proposal layer會(huì)得到300個(gè)區(qū)域提議(proposal)的坐標(biāo)和對(duì)應(yīng)得分,找到查詢圖對(duì)應(yīng)類的最高得分作為查詢圖和數(shù)據(jù)庫(kù)每幅圖片的相似度,再?gòu)母叩降瓦M(jìn)行排序就可以得到檢索結(jié)果。另一種是利用余弦距(cosine)進(jìn)行排序。數(shù)據(jù)庫(kù)中的每幅圖片經(jīng)過(guò)RoI pooling可以得到300個(gè)特征向量,計(jì)算查詢圖與數(shù)據(jù)庫(kù)中每幅圖片的300個(gè)區(qū)域特征的余弦距,最小距離對(duì)應(yīng)的候選框即就是和查詢圖最相似的區(qū)域提議,然后把所有的最小距離再?gòu)男〉酱筮M(jìn)行排序,就可以得到相似度排序。第一種方法雖然得到的邊界框(bounding box regression)定位較準(zhǔn),mAP值也很高,但是視覺(jué)相似度并不是很高。而且根據(jù)候選框得分進(jìn)行排序,每類建筑物的得分和排序都是一定的,因此每次相同類別的不同查詢返回結(jié)果都是相同的,不會(huì)根據(jù)查詢圖片的不同而返回不同的排序。第二種方法得到的檢索結(jié)果,圖像相似度很高,但是邊界框定位不是很準(zhǔn)確。文中將兩種方法結(jié)合(scores+cosine),利用余弦距計(jì)算相似度并排序,選擇得分最高的候選框進(jìn)行目標(biāo)定位,這樣既解決了視覺(jué)相似度不夠的問(wèn)題,也解決了相同類別的不同查詢返回結(jié)果相同的問(wèn)題,同時(shí)又解決了目標(biāo)定位不準(zhǔn)的問(wèn)題。

2.2.2 參數(shù)設(shè)置

本節(jié)主要討論擴(kuò)展查詢中的參數(shù)k對(duì)實(shí)驗(yàn)結(jié)果的影響,并選取一個(gè)最優(yōu)值作為本實(shí)驗(yàn)的默認(rèn)值。在特征匹配方法選用余弦距的情況下,在兩個(gè)數(shù)據(jù)集上分別測(cè)試了k等于3、4、5、6、7時(shí)的mAP值,實(shí)驗(yàn)結(jié)果如表1所示。

表1 不同k值對(duì)mAP值的影響

從表1綜合來(lái)看,文中選用6作為k的默認(rèn)值。

2.2.3 結(jié)果與分析

表2是文中與其他文獻(xiàn)mAP值的對(duì)比,最后兩項(xiàng)是文中三種方法的實(shí)驗(yàn)結(jié)果。可以看出,相比于其他文獻(xiàn),文中方法的檢索性能得到很大的提升,比目前最好的方法分別高出6.1%和4%,說(shuō)明文中方法優(yōu)于其他檢索方法。文中方法與文獻(xiàn)[15]所采用方法類似,但結(jié)果卻得到了很大的改善,通過(guò)分析認(rèn)為,雖然所用數(shù)據(jù)集都相同,但是生成的訓(xùn)練集和測(cè)試集完全不同,而且文中采用數(shù)據(jù)增強(qiáng)方法,使得樣本的數(shù)量增加了3~4倍,使用平衡采樣的方法保證小類樣本可以得到和大類樣本同樣的訓(xùn)練機(jī)會(huì)。除此之外,網(wǎng)絡(luò)超參數(shù)對(duì)于模型的影響非常大,因此文中對(duì)參數(shù)進(jìn)行調(diào)優(yōu),使得訓(xùn)練出來(lái)的模型更好。

表2 文中方法與其他方法的mAP值對(duì)比

圖2是兩組對(duì)比圖,圖(a)和圖(b)是對(duì)建筑物all_souls和louvre分別用候選框得分和余弦距進(jìn)行排序的結(jié)果,其中,左邊1列是查詢圖,右邊5列是查詢返回結(jié)果,表示與查詢相關(guān)(下同)。圖3是all_souls的兩個(gè)不同查詢用得分進(jìn)行排序得到的檢索結(jié)果。圖4是將兩種匹配方法結(jié)合得到的檢索結(jié)果。

從圖2可以看出利用候選框得分排序得到的結(jié)果目標(biāo)定位較準(zhǔn)確,但是返回結(jié)果的背景、光照、拍照角度、顏色、對(duì)比度和樣例大小與查詢圖相差很大,而利用余弦距排序得到的結(jié)果候選框定位不是很準(zhǔn),但從背景、樣例大小等視覺(jué)角度來(lái)看相似度較高。圖3中all_souls的兩個(gè)不同查詢圖返回結(jié)果中不僅圖片一樣,而且順序也相同。因此可以看出兩種方法各有缺陷。

圖2 不同建筑物的同一個(gè)查詢分別利用得分和余弦距得到的排序

圖3 建筑物all_souls的兩個(gè)不同查詢根據(jù)得分得到的排序

圖4是將兩種方法結(jié)合得到的返回結(jié)果,與圖2相比視覺(jué)相似度提高了,目標(biāo)定位也更準(zhǔn)確了,與圖3相比,同一個(gè)建筑物的兩個(gè)不同查詢返回結(jié)果也會(huì)根據(jù)查詢圖片的不同而改變,且從表2最后一行可以看出該方法比使用候選框得分在Oxford上得到的mAP值高0.009,與使用余弦距得到的mAP值相同。因此認(rèn)為,以上提出的特征匹配方法得到的返回結(jié)果在不降低mAP值的基礎(chǔ)上提高了檢索的準(zhǔn)確率。

圖4 綜合得分和余弦距兩種方法得到的檢索結(jié)果

2.3 基于深度學(xué)習(xí)的局部實(shí)例檢索

2.3.1 方 法

本節(jié)局部圖像的檢索是建立在2.2節(jié)基礎(chǔ)之上的,正是由于整幅圖像檢索采用候選區(qū)域特征實(shí)現(xiàn),局部圖像的檢索才得以實(shí)現(xiàn)。

較之于整幅圖像的檢索,局部圖像的檢索具有同樣重大的現(xiàn)實(shí)意義。生活中常會(huì)因?yàn)槟硞€(gè)原因使圖片變得殘缺,且難以識(shí)別,那么此時(shí)就需要使用局部圖像檢索得到原始圖像的完整信息。比如,通過(guò)某建筑物的頂部搜索得到整幅圖像從而識(shí)別該建筑物。或者可以應(yīng)用在刑偵工作中,當(dāng)攝像機(jī)捕獲到的是某犯罪嫌疑人的部分特征時(shí),可以通過(guò)已有的部分特征在圖像庫(kù)或者其他攝像頭下搜索得到該嫌疑人的完整信息。

由于目前沒(méi)有一個(gè)現(xiàn)成的殘缺圖像庫(kù),因此本節(jié)利用截圖工具對(duì)整幅圖像作裁剪處理以模擬殘缺圖像,即從圖像庫(kù)選取不同實(shí)例通過(guò)裁剪得到不同大小,不同背景,不同角度,不同顏色的局部查詢圖。由于圖像庫(kù)圖像都是整幅圖像,在尺寸和包含的信息方面與局部查詢圖相差很大,因此局部檢索最大的難點(diǎn)在于如何處理局部圖像。2.2節(jié)會(huì)對(duì)輸入圖片統(tǒng)一進(jìn)行縮放,那么局部查詢圖片輸入后,先進(jìn)行放大,則會(huì)導(dǎo)致原始輸入圖像失真,提取特征后再對(duì)其進(jìn)行裁剪又會(huì)進(jìn)一步丟失大部分圖像信息,因此根本無(wú)法得到正確的檢索結(jié)果。文中對(duì)其進(jìn)行以下處理:即輸入查詢圖后,先將局部查詢填充至與數(shù)據(jù)庫(kù)圖像相同大小(圖像庫(kù)的圖像基本都是1 024*768或者768*1 024大小的),這樣對(duì)圖像進(jìn)行統(tǒng)一縮放,提取特征,按比例裁剪之后,得到的正是局部圖像的特征,再與圖像庫(kù)匹配,則會(huì)輸出正確的排序結(jié)果。本節(jié)輸入為建筑物的局部圖像,輸出為局部查詢所屬的建筑物圖像,并且會(huì)標(biāo)記出局部查詢?cè)谒鶎俳ㄖ镏械奈恢谩?/p>

目前,很多文獻(xiàn)(如[15])都比較注重算法的研究,基本都采用離線的形式實(shí)現(xiàn)圖像檢索,不僅離線建立特征庫(kù),查詢圖也是成批輸入到網(wǎng)絡(luò)中進(jìn)行離線檢索,得到的結(jié)果也是成批保存起來(lái),可是實(shí)際應(yīng)用中,一般都是將查詢圖逐幅輸入進(jìn)行實(shí)時(shí)檢索,因此文中在前文基礎(chǔ)之上,加入了在線檢索功能,最后實(shí)現(xiàn)在線局部實(shí)例檢索。

2.3.2 結(jié)果與分析

如圖5是通過(guò)裁剪建筑物radcliffe_camera和triomphe的原圖,得到的5個(gè)不同查詢圖,分別選取一幅進(jìn)行檢索,得到了完整的建筑物,且標(biāo)記出了局部查詢圖像在整個(gè)建筑物中的位置,如圖6所示。最終mAP值分別為0.880和0.857。從檢索結(jié)果可以看出返回結(jié)果的視覺(jué)相似度極高,目標(biāo)定位準(zhǔn)確,且mAP值高于其他文獻(xiàn)中整幅圖像的檢索準(zhǔn)確率。因此,可以證明文中提出的全局搜索算法在局部圖像檢索任務(wù)中亦能取得很好的效果。

圖5 兩種建筑物的五個(gè)局部查詢圖

圖6 兩組局部查詢的檢索結(jié)果

在此之前,只有文獻(xiàn)[19]為了證明行人重識(shí)別系統(tǒng)的普適性,使用CaffeNet和VGG16兩個(gè)網(wǎng)絡(luò)模型在Oxford數(shù)據(jù)集上對(duì)局部建筑物圖像進(jìn)行了測(cè)試,得到的mAP值分別為0.662和0.764,遠(yuǎn)低于文中的準(zhǔn)確率。因此提出的局部實(shí)例搜索的性能良好。

在線檢索功能按照輸入圖片,可得到查詢結(jié)果和查詢建筑物的名字,且文中在沒(méi)有使用任何編碼算法的情況下,在兩個(gè)數(shù)據(jù)集上檢索一幅圖的平均耗時(shí)分別為5.7 s和7 s,經(jīng)檢測(cè),90%的時(shí)間都耗費(fèi)在利用特征向量計(jì)算相似度部分。如圖7所示,分別是bodleian和eiffel的檢索結(jié)果和總耗時(shí)。

圖7 在線檢索結(jié)果

3 結(jié)束語(yǔ)

為了進(jìn)一步提高實(shí)例檢索性能,針對(duì)以往的利用候選框得分和余弦距進(jìn)行特征匹配的不足,提出將兩種方法結(jié)合,即利用余弦距計(jì)算相似度并排序,選擇得分最高的候選框進(jìn)行目標(biāo)定位。并使用微調(diào)策略重新訓(xùn)練預(yù)訓(xùn)練模型從而使其適用于文中的實(shí)例檢索。相比于其他方法,文中采用的方法在性能方面有明顯的提升。在此基礎(chǔ)之上,利用殘缺圖像搜索得到整幅圖像,性能高于其他文獻(xiàn)整幅圖像的檢索,且僅比文中整幅圖像檢索低0.032,實(shí)驗(yàn)結(jié)果證明提出的全局搜索算法同樣適用于局部圖像檢索任務(wù)。之后加入在線檢索功能,在沒(méi)有任何編碼的情況下檢索一幅圖像平均耗時(shí)僅需5.7 s~7 s。在未來(lái)的工作中,可以進(jìn)一步加入編碼模塊,以提高檢索速度,并且可以在更大的數(shù)據(jù)集上進(jìn)行測(cè)試。

猜你喜歡
排序特征方法
排序不等式
恐怖排序
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 色综合天天操| 成人免费视频一区| 2022国产无码在线| 怡红院美国分院一区二区| 亚洲成人高清在线观看| 亚洲 欧美 日韩综合一区| 亚洲天堂在线免费| 国产欧美日韩在线一区| 亚洲综合一区国产精品| 日本精品一在线观看视频| a级毛片毛片免费观看久潮| 青青草原国产av福利网站| 四虎永久在线精品国产免费| 国产在线麻豆波多野结衣| 97av视频在线观看| 久久亚洲中文字幕精品一区| 伊人激情久久综合中文字幕| 91久久偷偷做嫩草影院| 四虎成人精品在永久免费| 亚洲第一黄片大全| 国产免费黄| 亚洲中文字幕久久无码精品A| 国产亚洲欧美日韩在线一区二区三区 | 亚洲香蕉在线| 最新日本中文字幕| 久久婷婷五月综合色一区二区| 99视频在线免费看| 激情网址在线观看| 日韩在线播放欧美字幕| 国产精品九九视频| 亚洲欧美在线综合一区二区三区| 久青草免费在线视频| 亚洲国产天堂在线观看| 久久国产热| 久爱午夜精品免费视频| 亚洲国产欧美国产综合久久| 亚洲天堂久久新| 欧美色图第一页| 91精品福利自产拍在线观看| 男女猛烈无遮挡午夜视频| 黄色网在线| 日本a级免费| 91蝌蚪视频在线观看| 亚洲欧美在线看片AI| 欧美精品成人| 中文字幕中文字字幕码一二区| 欧美视频在线播放观看免费福利资源 | 全午夜免费一级毛片| 99热国产这里只有精品无卡顿"| 91亚洲影院| 亚洲无码免费黄色网址| 免费网站成人亚洲| 在线无码九区| 欧美日韩成人在线观看| 国产乱码精品一区二区三区中文 | 99久久精品久久久久久婷婷| 欧美一区二区三区不卡免费| 婷婷六月综合| 亚洲国内精品自在自线官| 狠狠色综合久久狠狠色综合| 亚洲免费毛片| 成年av福利永久免费观看| 国产成人精品高清不卡在线| 最新午夜男女福利片视频| 国产高清精品在线91| 国产一二三区在线| 成人第一页| 亚洲欧美另类日本| 亚洲二区视频| 日韩精品亚洲一区中文字幕| 亚洲欧美另类日本| 香蕉视频在线精品| 久久精品一卡日本电影| 在线观看91香蕉国产免费| 在线毛片网站| 亚洲天天更新| 热99精品视频| 欧美国产在线看| 日本人妻丰满熟妇区| 成年免费在线观看| 亚洲日本在线免费观看| 亚洲永久视频|