999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像檢索研究

2016-12-20 13:39:02王新龍
長治學院學報 2016年5期
關鍵詞:深度特征方法

王新龍

(長治學院計算機系,山西長治046011)

基于深度學習的圖像檢索研究

王新龍

(長治學院計算機系,山西長治046011)

文章針對魯棒和具有區分能力的局部描述子等圖像檢索算法的不足,使用多層深度網絡模型中不同層的響應值作為圖像的特征表達,利用深度學習模型進行圖像檢索研究。并針對基于局部描述子檢索方法中提出的改進算法進行研究。

圖像檢索;深度學習;魯棒;局部描述子

1 引言

基于內容的圖像檢索任務指的是給定一張查詢圖像,算法自動從圖像中抽取有表達能力的圖像的特征表達,如顏色、紋理等[1],并依據該特征表達計算與數據庫中的圖像的特征的相似性,并將相似的圖像返回給用戶的任務。圖像檢索是計算機視覺和多媒體領域一個非常重要的研究問題,因為它是很多實際應用的算法基礎,比如購物網站中基于照片的商品檢索[1]、公安部門基于照片的罪犯定位以及在增強現實眼鏡中需要的檢索系統等。

圖像檢索依據其提取的圖像特征的類型將其分為兩類。第一類工作從圖像中提取全局的特征來表達一張圖像,如用于描述顏色的顏色直方圖特征、用于描述紋理的小波特征和用于描述形狀的形狀上下文特征等。這類方法因為捕獲的是顏色、紋理或形狀在整張圖像中的分布特性,因此對于局部位移等變換比較魯棒。然而因為這種表達喪失了特征之間的空間位置關系,因此喪失了一定的區分能力,從而導致這類方法在現有的較大規模的數據集上表現較差。

另外一類方法[2][3]從圖像中提取局部特征,如SIFT[4],用以捕獲局部區域的顏色或梯度等外觀信息作為圖像表達。該類方法首先在圖像中檢測一組關鍵點,關鍵點的個數從幾百到幾千個不等。然后算法在每一個關鍵點周圍的一個小區域內(區域的大小可能和物體的尺度相關)提取顏色或梯度分布等特征描述子。因此一張圖像被表達成一組局部特征描述子的集合。在圖像檢索階段,該類方法或者通過將該組局部描述子編碼成一個全局描述子或者通過圖像對之間的兩組局部描述子的匹配完成相似性計算。局部描述子通常具有較強的判別能力,但是在面對圖像間存在較大的類內差異時不夠魯棒。

此外,上面討論的方法大都缺乏高層語義信息,僅僅通過計算圖像底層特征的相似性來完成圖像檢索,從而使其適用性受到限制,比如相似的圖像存在較大的類內變化時。

深度學習[5][6][7]近十年來在計算機視覺領域取得了重要的成功,尤其在圖像分類[5]、物體識別和超分辨率等領域。深度學習的關鍵在于利用大規模的訓練數據集學習區分不同類別的底層和高層特征。研究人員通常認為深度學習網絡的前面若干層(底層)通常捕獲了圖像的底層特征,如梯度、顏色和紋理等;而后面若干層(高層)則捕獲了圖像的語義信息,而忽略了圖像中對于分類不重要的細節信息。這有利于解決類內變化較大情況下的圖像檢索問題。

雖然當前已經有大量的工作采用深度學習的框架解決圖像分類和物體識別任務,但是在圖像檢索領域,這種類似的探討還比較少。文章主要研究不同層次的深度網絡特征在圖像檢索任務上的適用性。具體包括①通過實驗來研究深度網絡的不同層的特征在圖像檢索任務中的性能;②對比當前較為成功的三個深度網絡模型,并給出實際使用經驗;③通過實驗探討將這些經驗轉移到基于深度學習的圖像檢索時的性能。

2 相關理論

依據圖像檢索中使用的圖像特征表達,將現有的工作分成兩個主要類別,分別是基于底層的局部和全局描述子的方法和基于深度學習的高層特征的方法。

2.1基于局部和全局描述子的特征表達

Sivic和Zisserman等人[2]從圖像中提取局部的興趣點并計算SIFT描述子[4],然后利用單詞袋模型(bag-of-words model)將每張圖像中的SIFT描述子編碼成一個統計直方圖作為圖像最終的特征表達。他們采用在文檔檢索領域經常使用的倒排索引表方法完成圖像的快速檢索。Perronnin等人[8]從圖像的一組SIFT描述子中計算一個Fisher Vector特征,然后基于最近鄰的檢索方法完成圖像檢索。類似的,Jegou等人[9]提出了VLAD描述子,該描述子和Fisher Vector類似,都是由一組SIFT描述子推導得到,同樣能夠捕獲SIFT描述子的統計特性。他們同樣采用最近鄰的檢索方法完成圖像檢索。Chen等人[1]從圖像中提取全局的顏色、紋理和形狀特征,并依據單詞袋模型計算一個顏色、紋理和形狀的直方圖特征進行圖像檢索。

2.2基于深度學習的高層特征表達

利用深度學習的方法為圖像學習提供一種包含語義信息的高層特征表達。深度學習指的是一類算法,該類算法通過有監督或無監督地學習很多層次的非線性變換從而使得同類數據間的距離變小,而不同類別數據間的距離加大。換句話說,深度學習通過多個層次的抽象使得差異較大的同類數據具有相似的高層表達,從而做到對于較大類內差異的魯棒性。

Krizhevsky和Hinton等人[10]通過學習多層的深度自編碼模型(auto-encoder)得到圖像的二值表達(Binarized representation),從而進行高效的圖像檢索。通過實驗表明該自編碼模型能夠捕獲圖像中的抽象信息,從而對存在變化的同類圖像得到相似的表達。該方法在比較簡單的數據集上得到了比直接基于像素的匹配更好的結果,但是在較復雜的數據集上,該表達方式還未得到較令人滿意的結果。

最近的一些工作[11]通過實驗證明采用卷積神經網絡(Convolutional Neural Network)中的某些層的特征(比如全連接層的第6-8層)作為圖像的表達可以和傳統的分類方法相結合進行諸如分類、分割等操作。受到這些成功應用的啟發,Lin,Yang, Hsiao和Chen等人[12]在卷積神經網絡的全連接層的倒數第二層加入一個二值化層對網絡進行重新訓練,并將此二值化層的響應值作為圖像的表達進行圖像檢索。該方法在衣服等商品數據集上取得了不錯的結果。

3 實驗

文章主要通過實驗來回答如下幾個問題:①不同的網絡模型對檢索性能的影響。討論不同的卷積神經網絡,比如AlexNet[5],OxfordNet[6]和GoogleNet[7],在圖像檢索數據集上的性能。②使用網絡模型中的不同層(比如全連接層的第6到8層以及不同的卷積層等)對結果的影響。③在基于底層特征的圖像檢索存在很多提升檢索性能的技術,比如對特征進行開平方再歸一化操作等,那么將這些技術應用到基于深度特征時會對性能有何影響?

3.1不同網絡的結構

AlexNet網絡結構參數如表1所示。

表1 AlexNet網絡結構參數

OxfordNet也叫VggNet[6],網絡結構與AlexNet非常相似,同樣包含若干層(8-16)的卷積層,然后連接3層的全連接層。與AlexNet不同的是卷積層的模板更小(都為3),但是網絡深度更深,模型的參數個數更少,這對于避免過適問題具有一定作用。GoogleNet是由Szegedy,Liu,Jia等人[7]在2014年設計的包含22層的卷積神經網絡。該網絡最大的特點就是通過優化計算資源的利用率,在不增加網絡參數的前提下將網絡的寬度和深度增加,從而增強了其表達能力。

3.2實驗數據集

在常用的Oxford Buildings數據集[4]上對所提出的方法進行實驗驗證。該數據集包含了牛津大學的11個地標建筑一共5062個圖像,這些圖像是由牛津大學的研究人員在Flickr網站上收集的。每個地標建筑包含5個查詢圖像,因此一共55個查詢圖像。通過計算查詢圖像的平均準確率來對所提出的方法進行量化評價。

3.3網絡不同層之間的檢索性能比較

針對三種不同的網絡結構(AlexNet,OxfordNet和GoogleNet),分別分析使用網絡的不同層作為圖像的特征表達時對圖像檢索精度的影響。

圖1 OxfordNet不同層的檢索結果

圖1顯示了OxfordNet的不同層在Oxford Buildings數據集上的檢索結果。可以看到fc6層(全連接層6)的檢索精度是最高的。而fc7,fc8和prob層的檢索精度逐漸下降,這主要是因為這三層逐漸捕獲到越來越抽象的圖像特征,比如圖像中物體的類別信息,而抽象的表達會忽略圖像中包含的細節,從而喪失了檢索精度。Pool5層表示在第五層卷基層后進行特征各維最大匯總(max pooling)操作后得到的特征,該層能夠捕獲圖像的細節,但是因為缺乏一定的魯棒性,因此結果相比較于fc6差一些。

圖2 AlexNet不同層的檢索結果

圖2顯示了AlexNet的不同層在Oxford Buildings數據集上的檢索結果。可以看到不同層之間的趨勢和OxfordNet上的不同層之間的結果類似,其中fc6取得了最好的結果,而fc7,fc8和prob層的檢索準確度逐漸下降。

圖3 GoogleNet不同層的檢索結果

圖3顯示了GoogleNet的不同層在Oxford Buildings數據集上的檢索結果。和OxfordNet和AlexNet不同,GoogleNet的匯總層(pooling)的結果比全連接層(fc)的結果要好。特別地,在pool5層的結果最好,準確率在46%左右。

3.4不同網絡結構對結果的影響

AlexNet,OxfordNet和GoogleNet是當前最常使用的網絡結構,其網絡深度也逐漸加深,分別是8層、19層和22層。對比圖1、圖2和圖3,可以看到檢索的精度隨著網絡深度的增加也在逐漸提高,分別是40%,45%和46%。這說明了網絡深度對于檢索性能的影響是比較顯著的。

3.5特征的預處理和后處理對結果的影響

在基于底層特征的圖像檢索中,研究人員為了避免某維特征的量級(magnitude)過大從而控制了整體的距離度量,通常會采用首先對特征進行開方,然后再對特征進行歸一化的操作。基于該操作對于深度特征的影響進行評價。圖1、圖2和圖3中的紅色曲線表示對相應的特征進行開方操作后得到的檢索準確率,可以看到,該操作在大多數情況下能夠比較顯著的提高檢索準確率。

4 結論

以AlexNet、OxfordNet和GoogleNet為研究對象,研究深度學習得到的圖像特征在圖像檢索任務中的性能。具體地,對比了深度學習網絡中不同層的結果,通過實驗證明fc6層對于類內差異具有一定的魯棒性,并且又能捕獲一定的圖像細節,因此比較適用于圖像檢索。此外,還對比了不同的網絡的性能,并通過實驗表明隨著網絡層數的增加,檢索性能也逐漸得到提升。最后,通過實驗驗證了對特征進行開方操作能夠進一步提升檢索的性能。

[1]ZhangChen,Lingyu-Duan,ChunyuWang, Tiejun Huang,Wen Gao.Generating vocabulary forglobalfeaturerepresentationtowards commerce image retrieval[C].IEEE ICIP 2011: 105-108.

[2]Josef Sivic,Andrew Zisserman.Video Google:A text retrieval approach to object matching in videos[C].IEEE ICCV,2003:1470-1477.

[3]James Philbin,Ondrej Chum,Michael Isard,Josef Sivic,Andrew Zisserman.Object retrieval with large vocabularies and fast spatial matching[C]. IEEE CVPR,2007:1-8.

[4]DavidLowe.Objectrecognitionfromlocal scale-invariant features[C].IEEE ICCV,1999: 1150-1157.

[5]Alex Krizhevsky,Ilya Sutskever,Geoffrey Hinton. Imagenet classification with deep convolutional neural networks[C].NIPS,2012:1097-1105.

[6]Karen Simonyan,Andrew Zisserman.Very deep convolutionalnetworksforlarge-scaleimage recognition[C].Arxiv:1409.1556,2014.

[7]Christian Szegedy,Liu Wei,Jia Yangqing,Pierre Sermanet,ScottReed,DragomirAnguelov, Dumitru Erhan,Vincent Vanhoucke,Andrew Rabinovich.Going deeper with convolutions[C]. Arxiv:1409.4842 2014.

[8]Florent Perronnin,Jorge Sanchez,Thomas Mensink. Improving the fisher kernel for large-scale image classification[C].IEEE ECCV,2010:143-156.

[9]Herve Jegou,Matthijs Douze,Cordelia Schmid, Patrick Perez.Aggregating local descriptors into a compact image representation[C].IEEE CVPR, 2010:3304-3311.

[10]Alex Krizhevsky,Geoffrey Hinton.Using very deepautoencodersforcontent-basedimage retrieval[C].ESANN,2011.

[11]Jeff Donahue,Jia Yangqing,Oriol Vinyals,Judy Hoffman,ZhangNing,EricTzeng,Trevor Darrel.Decaf:A deep convolutional activation feature for generic visual recognition[C].Arixv: 1310.1531 2013.

[12]Lin Kevin,Yang Huei-Fang,Hsiao Jen-Hao, Chen Chu-Song.Deep learning of binary codes for fast image retrieval[C].CVPRW,2015: 27-35.

(責任編輯張劍妹)

TB553

A

1673-2014(2016)05-0033-04

2016—04—21

王新龍(1964—),男,山西沁水人,副教授,主要從事數據庫技術、信息技術教學研究。

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲精品视频免费观看| 国产免费网址| 亚洲最大综合网| 在线看免费无码av天堂的| 国产精品无码久久久久AV| 午夜日本永久乱码免费播放片| 少妇精品久久久一区二区三区| 成人午夜亚洲影视在线观看| 人妻丝袜无码视频| 国产一区在线观看无码| 欧美成人一级| 欧美色视频网站| 亚洲视频a| 久久精品人人做人人爽97| 国产成人免费观看在线视频| 国产69囗曝护士吞精在线视频| 欧美不卡二区| 国产麻豆精品手机在线观看| 园内精品自拍视频在线播放| 亚洲欧洲一区二区三区| 国产真实乱了在线播放| 国产呦视频免费视频在线观看 | 色国产视频| 亚洲乱码在线播放| 国产天天色| 亚洲成A人V欧美综合| 久久semm亚洲国产| 亚洲精品卡2卡3卡4卡5卡区| 久久精品66| 18禁影院亚洲专区| 欧美第九页| 全午夜免费一级毛片| 国产精品自拍露脸视频| 国产三区二区| 精品国产Av电影无码久久久| 国产资源免费观看| 99热最新网址| 国产精品私拍99pans大尺度| 亚洲天堂.com| 在线观看av永久| 欧美精品影院| 无码中文AⅤ在线观看| 免费a级毛片视频| 国产成人精品免费视频大全五级| 国产区91| 欧美日韩国产高清一区二区三区| 欧美精品亚洲精品日韩专区| 国产精品99一区不卡| 波多野结衣久久精品| 国产av一码二码三码无码| 国产成人综合在线观看| 国产视频资源在线观看| 国产一级α片| 自偷自拍三级全三级视频| 欧美性天天| 亚洲精品国产综合99| 91麻豆精品国产91久久久久| 人妻丰满熟妇av五码区| 亚洲欧美自拍一区| 亚洲欧美成aⅴ人在线观看| 97人人模人人爽人人喊小说| 91丨九色丨首页在线播放| 免费观看男人免费桶女人视频| 国产一区二区丝袜高跟鞋| 久久美女精品国产精品亚洲| 中文字幕免费播放| 欧美日韩一区二区在线播放| 在线观看国产精品第一区免费 | 91小视频在线播放| 国产成人成人一区二区| 国产午夜人做人免费视频| 九九热视频精品在线| 草草线在成年免费视频2| 在线欧美a| 日本a级免费| 亚洲精品第五页| 国产午夜在线观看视频| 毛片免费在线视频| 毛片一区二区在线看| 日韩av无码精品专区| 国产免费一级精品视频| 欧美日韩v|