999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合抽象層級變換和卷積神經網絡的手繪圖像檢索方法

2016-12-20 10:42:52劉玉杰龐蕓萍李宗民
浙江大學學報(理學版) 2016年6期
關鍵詞:深度特征方法

劉玉杰, 龐蕓萍, 李宗民*, 李 華

(1. 中國石油大學 計算機與通信工程學院, 山東 青島 266580;2. 中國科學院計算技術研究所 智能信息處理重點實驗室, 北京 100190)

表1 各描述子的mAP值對比表

?

融合抽象層級變換和卷積神經網絡的手繪圖像檢索方法

劉玉杰1, 龐蕓萍1, 李宗民1*, 李 華2

(1. 中國石油大學 計算機與通信工程學院, 山東 青島 266580;2. 中國科學院計算技術研究所 智能信息處理重點實驗室, 北京 100190)

針對人工設計的描述子(HOG、SIFT等)在基于手繪的圖像檢索(Sketch Based Image Retrieval,SBIR)領域的局限性,提出了一種融合抽象層級變換和卷積神經網絡構建聯合深度特征描述子的手繪圖像檢索方法.首先,提取常規圖像的邊緣概率圖,在此基礎上進行不同抽象層級的圖像變換,將抽象層級變換圖像輸入到深度神經網絡并提取不同隱層的輸出向量,最后,聯合不同隱層的輸出向量作為手繪圖像檢索的特征描述子(即聯合深度特征描述子).在Flickr15k數據庫上對本方法進行了實驗驗證,結果表明:融合抽象層級變換和聯合深度特征描述子的檢索效果相較HOG、SIFT等傳統方法有顯著提高.本方法從圖像預處理和特征描述子構建2個方面,對SBIR問題進行了改進,具有更高的準確率.

手繪檢索;卷積神經網絡;邊緣概率檢測;抽象層級變換;聯合深度特征

1 相關工作

如何在海量的圖像數據庫中實現快速有效的信息檢索是機器視覺領域的研究熱點之一.早期的學者提出了基于文本的圖像檢索方式,需要對圖像數據庫進行人工標注,由于受標注者的主觀影響,人工標注的有效性有待考究.大數據時代,圖像資源呈指數級增長,人工標注耗費巨大.20世紀90年代,學者提出了基于內容的圖像檢索(Content Based Image Retrieval,CBIR)方法,通過提取圖像底層特征標注圖像,以此取代人工標注,CBIR在檢索過程中對輸入的圖像要求比較嚴格,而人們通常是因為找不到合適的圖才選擇CBIR去搜索圖像,所以CBIR默認輸入圖像滿足合適的屬性要求此假設前提有點牽強,這一限制也在一定程度上阻礙了CBIR技術的發展.手繪是人的本能之一,亦是一種特殊形式的“文字”,人類文明誕生時的甲骨文、楔形文字等都是某種形式的“手繪圖”,其本身融合了文本和圖像內容兩方面的優勢.手繪既能避免文字的難以描述性又能克服圖像內容的難以獲取性,所以以手繪為輸入進行圖像檢索的技術(Sketch Based Image Retrieval,SBIR)有很高的研究價值和廣闊的應用前景[1-3].近幾年,SBIR技術廣泛應用于各個領域,例如:在網購過程中,通過手繪印象中的商品并進行檢索;檢索形狀比較明顯但難以用語言描述的建筑;檢索某種特定的舞蹈動作等.

SBIR技術發展至今仍面臨很多難題:手繪圖像與常規圖像在底層像素表示和高層視覺感知上有很大差異.待檢索的常規圖像比輸入的手繪圖像包含更多有用的細節信息以及干擾的噪音信息(顏色、紋理等),也就是說,手繪圖像與常規圖像分別隸屬于不同的圖像域,這種域差異直接削弱了SIFT、HOG等基于底層圖像特征設計的描述子的有效性.ZHONG等[4]提出了一種域自適應的跨域字典學習方法,通過重構源域與目標域字典的方式,實現圖像的跨域表示.本文消除圖像域差異的方法是將常規圖像轉換為“類手繪”圖像(邊緣圖、輪廓圖等).

Canny邊緣檢測是將常規圖像轉換為邊緣圖最常用的方法之一,其處理結果往往包含很多噪音信息,例如噪點、短線等(見圖1).LIM等[5]提出了一種“Sketch Token”(簡稱ST)邊緣檢測模型,該方法將人工標記的邊緣圖像以邊緣像素點為中心截取固定大小(35×35)的圖像塊,并對這些圖像塊分別提取Daisy描述子,利用K-means將Daisy描述子進行聚類,得到K個“Token”類別,在每個邊緣圖像塊對應的原圖像塊上提取通道特征和自相似特征,利用隨機森林分類器建立這2種特征與“Token”類別之間的概率模型,如圖1所示,ST邊緣模型的檢測結果比較突出圖像的主要邊緣,而由于“Token”類別的限制,ST概率模型生成的邊緣圖與實際邊緣不能完全吻合.MARTIN等[6]提出了一種伯克利邊緣檢測算法,其輸出結果與人工標記的邊緣圖有較強的一致性.該算法首先將圖像轉換為強度空間與Lab空間表示,提取圖像的強度、顏色、紋理特征,將這些特征融合輸入到分類器中訓練邊緣隸屬度.伯克利邊緣檢測算法用到5種分類器,分別是密度估計、分類樹、邏輯回歸、分層的多專家決策以及支持向量機分類器,通過設定合理的閾值范圍可獲得比較平滑的邊緣圖像.

圖1 不同邊緣檢測算法的效果圖Fig.1 Different edge detection methods

手繪圖像本身存在固有的歧義性,如圖2所示,一幅圓形的手繪圖像可以表示多種不同的事物:既可以表示太陽,也可以表示一輪滿月或者一個圓形碟子等,另外,同一事物經由不同的人進行手繪后表達的結果不同.不同人的手繪能力也有很大的差異.從圖3可以看出,同樣是鬧鐘,有的人描繪得很粗略(見圖3(d),鬧鐘外輪廓和指針),有的人描繪得很詳細(見圖3(a)鬧鐘的外輪廓、指針、刻度、按鈕等),即使對指針這一具體細節的表達方式也有差異(見圖3(b)與(c)).由此可見,手繪圖像本身就存在很大的抽象層次差異;YU等[7]在手繪圖像的分類工作中,通過先下采樣再上采樣的方式將訓練數據進行5個等級的高斯模糊處理來抑制同類手繪圖像之間的抽象層次差異.

圖2 手繪圖像固有的歧義性Fig.2 The ambiguity of the sketch

圖3 手繪圖像的抽象層次差異Fig.3 The different abstractness levels among sketches of one object同一事物的手繪圖“繁簡”程度有差異,對應不同的抽象層次.The same object can be expressed with different abstractness levels. Some users prefer to draw object details but others do not.

尋找描述力強的描述子來表示圖像是SBIR需要解決的核心問題.手繪圖像和邊緣圖像的共同特點是:圖像信息主要集中于圖像邊緣像素部分.所以SBIR的研究方法主要偏向于構建描述邊緣、梯度、方向的特征描述子,例如SIFT[8]、HOG[9]、EHD[10]等.2010年EITZ等[11]提出了基于多種局部特征建立詞包模型的SBIR檢索方法,該方法在HOG、SHOG、Shape Context[12]等局部描述子的基礎上建立詞包模型進行檢索.融合生成的詞包具有更強的描述力,但是也增加了計算復雜度.HU等[2,13]提出了基于方向區域描述子的手繪圖像檢索技術,并于2013年在該工作的基礎上進行改進,提出了基于GF-HOG特征的SBIR檢索算法,同時公開了一組評價SBIR實驗效果的數據集Flickr15K[14].LIM等[5]將ST邊緣提取方法與局部邊緣方向直方圖描述子相結合,提出了基于RST-SHELO的手繪圖像檢索方法,但是該方法在Flickr15K數據集上檢索的mAP(mean Average Precision)也只能達到0.2.

以往方法精度較低的原因有以下幾點:一是Flickr15K數據庫是自然場景類的數據庫,在形狀特征上比較復雜;二是特征的表達力度不夠.傳統的三維模型檢索方法[15]需要針對模型特點人工設計特征,這類方法大多不夠魯棒.基于深度學習[16-19]的特征學習方法最近備受關注,在學術界與工業界都掀起了研究熱潮.與傳統的依據人工構建規則生成特征的方法相比,深度學習利用大量的數據學習特征,能夠表達更豐富的圖像內在信息,這一優勢使其在二維圖像及三維模型[19]特征學習領域得到了廣泛應用.2015年YU等[7]針對手繪圖像分類問題提出了一種多尺度多通道的深度神經網絡框架,通過擴大首層卷積核及重疊池化的方式獲取更多的空間結構信息,該方法在手繪分類問題上的精度達到了74.9%,首次超過了人的識別精度(73.1%)[14].該方法將一幅手繪圖分解組合出6種通道,并將每種通道的手繪輸入轉化為5種尺度,一幅圖像在訓練過程中需要經過30次網絡框架,訓練效率較低.另外,目前最大的手繪分類庫為20 000幅,這個數量級在訓練網絡上是遠遠不夠的,即使通過簡單的平移、旋轉來擴充數據庫,與ImageNet的1 300萬仍相去甚遠,訓練數據的不足直接影響網絡框架的精度.

2 基于抽象層級變換和卷積神經網絡的SBIR方法

針對手繪圖像的抽象層次差異性和手繪圖與常規圖的域差異問題,提出了一種新的SBIR方法,即基于抽象層級變換和卷積神經網絡的手繪圖像檢索方法.常規圖像的處理步驟如下:

Step1 計算常規邊緣概率圖.為了使邊緣概率圖與手繪圖像的抽象層次相對應,本方法將一幅邊緣概率圖按閾值劃分為3個等級的二值邊緣圖.

Step2 將所得的二值邊緣圖輸入到深度神經網絡中并提取不同隱層的輸出向量,聯合不同隱層的輸出向量構建二值邊緣圖的特征描述子(即:聯合深度特征描述子),這樣一幅常規圖像最終由3個聯合深度特征描述子表示,分別對應常規圖像的一個抽象層級.

對于手繪輸入圖像,只需要提取一個聯合深度特征描述子即可,在手繪圖像與常規圖像的相似度匹配計算過程中,本文將手繪圖描述子及與其最相近的一個常規圖描述子之間的距離,定義為二者之間的相似性度量值.為了有效地評價本文的工作,在Flickr15K數據集[11,13]和Eitz[11]數據集上對本文方法進行驗證并與其他方法比較.

2.1 抽象層級變換

為了實現常規圖與手繪圖在圖像域上的統一,本文方法基于文獻[6]人工標注的邊緣圖數據集,利用監督學習的方式訓練邊緣概率檢測器,具體實現方法如下:

Step1 計算通道梯度.將常規圖像轉換到RGB空間、強度空間及Lab空間以保證獲取足夠多的圖像信息.分別提取常規圖像像素點的強度、顏色、局部紋理的通道梯度G(x,y,θ),通道梯度值由以邊緣像素點為圓心的采樣區域的屬性決定,計算步驟如下:

(a)將圖像按角度θ(本文方法選取0°,45°,90°,135° 4個角度)劃分4個方向梯度,以邊緣像素點(x,y)為圓心,以θ為直徑方向,圖像對角線的1/10長度為直徑作圓,由此可得以該直徑為分界線的2個半圓s1和s2;

(b)分別提取半圓s1和s2內的強度、顏色、局部紋理3個直方圖,(x,y)點的通道梯度G(x,y,θ)定義為2個半圓直方圖h1和h2之間的χ2距離:

(1)

Step2 訓練邏輯回歸模型的分類器.根據數據集中人工標注的ground truth定義正負樣本,其中正樣本為ground truth中的邊緣點,負樣本為ground truth中的背景點.以正負樣本的通道梯度為輸入訓練邏輯回歸模型的分類器.

分類器的輸出表示像素點隸屬于邊緣的概率,在此將其定義為邊緣隸屬度.與Canny等底層數據驅動方法相比,直接以人工標注的ground truth為訓練標簽充分利用人工手繪圖像的主觀性,排除了底層干擾信息的影響.邊緣隸屬度概率圖融合了圖像的局部紋理、強度、顏色的分布信息,返回的是像素隸屬邊緣的概率,這種處理方式更符合人的習慣,從圖1也可看出,其結果比Canny邊緣檢測結果更平滑更合理.

Step3 劃分抽象層次,并生成對應的二值邊緣圖.為了使常規圖與手繪圖在圖像域上達到最大一致性,需要將一幅常規圖像的邊緣概率圖轉換為3個不同抽象層級的二值邊緣圖.本文對常規圖庫的邊緣概率圖進行隨機采樣,將所采集樣本中的非零概率聚類生成3個閾值中心t1,t2和t3,以此3個閾值中心的值為標準對邊緣概率圖進行二值化,得到3個二值邊緣圖b1,b2和b3.

圖4 Flickr15K數據庫采樣示例Fig.4 Samples of hand-drawn sketches and the natural images in Flickr15K第1、3行為手繪圖像采樣示例,第2、4行為對應的常規圖像示例.The 1st and 3rd rows show samples of sketches, and the 2nd and 4th rows show samples of natural images.

如圖5所示,高層抽象的二值邊緣圖b1保留了圖像的外圍輪廓及比較明顯的邊緣信息,中層抽象的二值圖像b2在高層的基礎上增加了更具體的細節信息,而低層抽象的二值圖像b3具有更豐富的細節信息,與之對應的是手繪圖中的不同抽象層級(見圖3).

圖5 3個抽象層次的二值邊緣圖Fig.5 The binary edge maps of 3 abstractness levels

2.2 特征提取

通過邊緣概率檢測和抽象層級變換這2個步驟的預處理,常規圖像被轉換為與手繪圖像同域的邊緣圖像,且一幅常規圖像對應的3個抽象層級的二值邊緣圖恰好與手繪輸入的抽象層級相對應.接下來就是提取適于SBIR的、描述力強的特征.上文提到,傳統的人工設計的特征在手繪圖上具有冗余、不魯棒、仿射不變性差等特點,為了充分利用深度學習框架在圖像識別領域的優勢,本文采用典型的深度神經網絡框架“Alex Net”[15]來提取圖像的描述子,“Alex Net”是在ILSVRC 2012 Image Net數據集上訓練得到的網絡,該數據集共包括1 300萬的數據.由Caffe提供的“Alex Net”網絡的top-1誤差率達到了42.6%,是比較可靠的卷積神經網絡之一.

利用深度神經網絡提取特征并檢索的方法,包括以下主要模塊:

(1)以預訓練好的“AlexNet”網絡模型的參數初始化網絡并用手繪數據庫進行微調;

(2)建立手繪圖像檢索所需的特征庫;

(3)提取輸入的手繪圖像的深度特征并進行圖像檢索.

步驟(1)中,為了使深度神經網絡的各項參數更適合于本文的手繪圖像,對其進行了微調.以在ILSVRC 2012 Image Net數據集上訓練得到的網絡的各層參數為初始化值,隨機選取TU-Berlin手繪數據庫中的100類對已有的網絡進行訓練,實現微調參數的效果,本方法隨機選取100類每類包含80幅圖像,共8 000幅.利用手繪圖微調令現有的網絡達到適應手繪圖像域的最佳狀態,同時又降低了重新訓練網絡的開銷.得到微調好的網絡之后,就是利用該網絡提取手繪圖像的特征描述子,以構建檢索特征庫.特征描述子通常是一維向量,可以理解為圖像的編碼表示.之前有研究者認為,卷積神經網絡中的各層輸出實際上是對圖像的一種特殊的編碼表示,且隨著網絡層數的增加,網絡各隱層的輸出特征越抽象則越具有代表性,可以作為圖像的特征描述子.本文方法將數據庫中每幅常規圖像對應的3個二值邊緣圖分別輸入到微調好的網絡中,提取網絡6層、7層的輸出向量(記為F6和F7).F6和F7分別是網絡的2層全連接層的輸出向量,如何充分利用這2個特征向量合理表示圖像至關重要,本文采用直接聯接和平均聯合2種聯合方式,分別得到了直接聯接深度描述子(FJ)和平均聯合深度描述子(FA),聯合后的向量作為圖像的特征描述子構建檢索特征庫.定義F6為(x1,x2,…,xn),F7為(y1,y2,…,yn),那么FJ和FA的表達式為

FJ=(x1,x2,…,xn,y1,y2,…,yn),

(2)

(3)

2.3 相似性度量

對于手繪輸入,本文直接提取其聯合深度特征描述子.對常規圖像分2種情況,對于單閾值二值邊緣圖,直接計算二值邊緣圖的特征描述子與手繪輸入圖的特征描述子之間的歐氏距離,作為相似性度量依據.對于基于抽象層級變換的三閾值二值邊緣圖,相似性距離度量

d=min(Ed(Fq,Fe(i))),

(4)

其中,Ed表示求兩向量之間的歐氏距離.Fq表示手繪輸入的聯合描述子F.Fe(i)表示常規圖像第i個抽象層次圖的聯合描述子F.F可取FJ和FA2種形式,其中,d越小表明兩幅圖像越相似.

3 實 驗

3.1 數據集和評價標準

在Flickr15K數據集上進行了評估實驗,Flickr15K數據集中的常規圖像數據包含60類共14 660幅,手繪圖像包含33類,共330幅.Flick15K的部分采樣圖像如圖4所示.由于該數據集屬于自然風景類圖像,在形狀特征上比常規的室內規則物體(例如,桌椅、杯具等)采集的圖像更加復雜,所以該數據集對特征的檢驗更困難.評價過程中采用圖像檢索、分類、識別領域常用的基本指標:PR曲線(Precision-Recall graphic)和mAP(mean Average Precision).其中,

(5)

式中,q為手繪輸入圖像集,Nq為圖像集的數量,Ri為數據庫列表中正樣本的排名編號,Li為檢索列表中正樣本的排名編號,NR為正樣本的數量.具體的實驗評價及細節分析參見3.2.

3.2 實驗評價

在Windows下用Caffe框架實現微調,利用Caffe的MATLAB接口實現特征的提取和后續的檢索.為驗證本文方法的有效性,從常規圖像邊緣檢測和特征提取2個方面在Flickr15K數據庫上進行了一系列的對比實驗.其中,在邊緣檢測方法上,對比了單閾值的邊緣圖與3層閾值的邊緣圖檢測方法;在特征提取方面,將本文所用網絡中涉及的全連接層描述子Fcnn、直接聯接深度描述子FJ及平均聯合深度描述子FA與幾種傳統經典的描述子進行了對比.

圖6 不同方法的PR曲線對比圖Fig.6 PR curves of three features with different strategies其中,FA為未劃分抽象層下的平均聯合深度描述子的檢索曲線,Fcnn為未劃分抽象層下的全連接層描述子的檢索曲線,FJ為未劃分抽象層下的直接聯接深度描述子的檢索曲線,FA+level為劃分抽象層下的平均聯合深度描述子的檢索曲線.FA is fusion of averaging two fully connected vectors. Fcnn in the plot means the first fully connected feature vector. FJ is fusion of two fully connected vectors by connecting directly. FA+level in the plot means the combination of leveled abstractness and FA features.

3.2.1 抽象層次變換對手繪檢測的影響

在構建檢索特征庫的過程中,每幅常規圖像對應3個抽象層級的特征描述子,本文對抽象層級變換的有效性進行了證明,實驗結果如圖6所示,可以看出,抽象層級變換后的檢索PR曲線(FA+level)高于普通二值化的邊緣變換后的檢索曲線(FA).這一結果也進一步證明了在不限制用戶對手繪輸入要求的前提下,手繪圖像的抽象屬性具有層次性的特點.本文方法并沒有對帶有抽象層次差異的手繪圖像做特別處理,而是對數據庫中的常規圖像進行層次劃分,使其保持與手繪輸入的一致性.

圖7 圖像檢索結果Fig.7 The example results of our approach第1列為手繪輸入圖像,第2~10列為按相似性得分排列的檢索結果;圖中×代表檢索結果,圓圈代表在形狀上很相似但檢索錯誤的檢索結果.The first column is the sketch query and the fellow second to tenth columns are the retrieval results of our approach. The×marks indicated the wrong results, and the circle marks indicated the wrong results with similar shapes.

3.2.2 特征評價

以特征向量之間的歐氏距離作為相似性度量方式,并將所用網絡中涉及的全連接層描述子Fcnn、直接聯接深度描述子FJ及平均聯合深度描述子FA與HOG[9]、SIFT[8]、RST-HELO[3]3種傳統的人工設計的特征進行了對比,其中HOG、SIFT在Flickr15K數據集上的表達力較弱,其mAP值均小于0.1,在這幾種常見的傳統描述子中,RST-HELO的效果相對較好,但其mAP值也只能達到0.200 2.從表1中可以看出,Fcnn在SBIR問題上的表現優于傳統的圖像描述子.而FJ及FA融合了深度神經網絡的兩層特征輸出,二者的表達效果均優于其他,且平均聯合方式的FA的表達力最高.圖7展示了本文方法在SBIR檢索的top-9返回結果.從圖7可以看出,本文方法在top-9的精度比較高,尤其是對于一些形狀特征比較簡單明了的圖像,檢索top-9精度幾乎可以達到100%(圖7中的第1、2行),另外,對于一些結構比較復雜但形狀特性明顯的圖像也有很好的檢索精度(如圖7第5行).但是本文方法也有部分誤檢的情況,造成誤檢的原因可能有以下幾點:

表1 各描述子的mAP值對比表

Table 1 The mAP of different descriptors

1)待檢索圖像庫預處理后的歧義性.例如圖7第10行“Tower Bridge”的檢索結果的第3個返回圖為“sailing”.該“sailing”圖為“海平面上的兩艘帆船”,將原圖轉換為邊緣概率圖之后,其形狀特征與“Tower Bridge”有很強的相似性,進而導致誤檢.

2)手繪輸入本身固有的歧義性.在手繪檢索中,因本文所輸入的手繪圖像比較簡單,缺少細節,因此其表達的形狀可能造成歧義,同一形狀可表示不同事物,例如圖7第3行“Temple of Heaven Beijing”的檢索列表中,第4個返回圖為“Wild Goose Pagoda”類的圖,該返回圖與手繪輸入的“Temple of Heaven Beijing”在形狀輪廓上極其相似,只是建筑的層數略有不同,若在構建特征的過程中忽略了層數這一特點,則容易導致誤檢.

以上兩點說明,深度特征描述子對圖像局部特征的提取比較靈敏,但是對全局結構的表達尚有不足.

4 結 論

隨著觸屏設備的廣泛普及,手繪圖的獲取越來越方便,基于手繪圖像的檢索問題得到了越來越多的關注.針對SBIR技術中的手繪圖像與常規圖像之間的域差異及手繪圖本身的抽象層次差異,提出了一種基于抽象層次變換和卷積神經網絡的手繪圖像檢索方法.利用手繪圖像分類庫對深度學習框架“Alex Net”進行微調,其次將手繪圖像與二值邊緣圖像輸入到深度神經網絡中,提取其隱層的輸出向量,通過聯合特征向量的方式構建圖像的特征描述子.在Flickr15K上進行了驗證,證明相同評價標準下本文方法的檢索精度高于其他算法.經進一步分析發現,對于手繪這種特殊的具有結構特性的圖像形式,深度神經網絡對其全局結構特征描述略有不足,下一步工作將主要研究手繪圖或類手繪圖的結構特征的提取.

[1] CHEN T, CHENG M M, TAN P, et al. Sketch2 Photo: Internet image montage[J]. ACM Transactions on Graphics,2009,28(5):89-97.

[2] HU R, WANG T, COLLOMOSSE J. A bag-of-regions approach to sketch-based image retrieval[C]// 18th IEEE International Conference on Image Processing. Brussels:IEEE,2011:3661-3664.

[3] SAAVEDRA J M, BUSTOS B. An Improved Histogram of Edge Local Orientations for Sketch-Based Image Retrieval[M]// Pattern Recognition. Berlin: Springer, 2010:432-441.

[4] ZHONG Z, MIN L Z. Unsupervised domain adaption dictionary learning for visual recognition[J]. Computer Science, 2015. arxiv:1506.01125.

[5] LIM J J, ZITNICK C L, DOLLR P. Sketch tokens: A learned mid-level representation for contour and object detection[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE Computer Society Press, 2013:3158-3165.

[6] MARTIN D, FOWLKES C, MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2004,26(5):530-549.

[7] YU Q, YANG Y, SONG Y Z, et al. Sketch-a-net that beats humans[C]//Proceedings of the British Machine Vision Conference. Wales: British Machine Vision Association, 2015.

[8] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004,60(60):91-110.

[9] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press,2005(1):886-893.

[10] PARK D K, JEON Y S, WON C S. Efficient use of local edge histogram descriptor[C]//Proceedings of the 2000 ACM Workshops on Multimedia. New York: ACM, 2000:51-54.

[11] EITZ M, HILDEBRAND K, BOUBEKEUR T, et al. Sketch-based image retrieval: Benchmark and bag-of-features descriptors[J]. IEEE Transactions on Visualization and Computer Graphics, 2011,17(11):1624-1636.

[12] BELONGIE S J, MALIK J, PUZICHA J. Shape matching and object recognition using shape contexts[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010,24(4):509-522.

[13] HU R, COLLOMOSSE J. A performance evaluation of gradient field HOG descriptor for sketch based image retrieval[J]. Computer Vision & Image Understanding, 2013,117(7):790-806.

[14] EITZ M, HAYS J, ALEXA M. How do humans sketch objects?[J]. ACM Transactions on Graphics, 2012,31(4):Article No.44.

[15] KUANG Z, LI Z, JIANG X, et al. Retrieval of non-rigid 3D shapes from multiple aspects[J]. Computer-Aided Design,2015,58:13-23.

[16] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012:1097-1105.

[17] DENG J, DONG W, SOCHER R, et al. Imagenet: A large-scale hierarchical image database[C] //IEEE Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society Press, 2009:248-255.

[18] JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C] //Proceedings of the ACM International Conference on Multimedia. New York: ACM Press,2014:675-678.

[19] WANG Y, XIE Z, XU K, et al. An efficient and effective convolutional auto-encoder extreme learning machine network for 3d feature learning[J]. Neurocomputing, 2016,174:988-998.

LIU Yujie1, PANG Yunping1, LI Zongmin1, LI Hua2

(1.CollegeofComputer&CommunicationEngineering,ChinaUniversityofPetroleum,Qingdao266580,ShandongProvince,China; 2.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnologyChineseAcademyofSciences,Beijing100190,China)

Sketch based image retrieval based on abstract-level transform and convolutional neural networks. Journal of Zhejiang University(Science Edition), 2016,43(6):657-663

The traditional methods on sketch based image retrieval (SBIR) is mainly based on the hand-crafted descriptors such as HOG and SIFT. Considering the limitations of the traditional hand-crafted descriptors, we propose a novel approach based on the abstract-level transform and the convolutional neural network(CNN). Our work is realized by the following steps: 1) Extracting the boundary probability images from the database images; 2) Converting the boundary probability images into abstract-level images; 3) Inputting the abstract-level images into the networks and extracting the hidden layers’ output vectors; 4) Combining different hidden layers’ output vectors as the final descriptor for retrieval. We evaluate our proposed retrieval strategy on Flickr15K datasets. The main contributions of our work are the preprocessing based on the boundary probability detector and the abstract-level transform ation, furthermore, proposing an improved combination of deep features. Results show that the proposal achieves significant improvements.

sketch based image retrieval; convolutional neural network; boundary probability detector; abstract-level transform; joint deep features

2016-07-20.

國家自然科學基金資助項目(61379106);山東省自然科學基金資助項目(ZR2013FM036,ZR2015FM011);浙江大學CAD&CG重點實驗室開放基金(A1315).

劉玉杰(1971-),ORCID:http://orcid.org/0000-0002-1838-874X,男,副教授,博士,主要從事計算機圖形圖像處理、多媒體數據分析、多媒體數據庫研究.

*通信作者,ORCID:http://orcid:org/0000-0001-7006-055X,E-mail:lizongmin@upc.edu.cn.

10.3785/j.issn.1008-9497.2016.06.005

TP 391.41

A

1008-9497(2016)06-657-07

猜你喜歡
深度特征方法
深度理解一元一次方程
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 日韩经典精品无码一区二区| 国产成人高清亚洲一区久久| 波多野结衣无码AV在线| 国产欧美日韩一区二区视频在线| 日本成人在线不卡视频| 在线无码私拍| 久久国产精品影院| 国产毛片基地| 国产乱子伦手机在线| 国产女人综合久久精品视| 国产视频欧美| 成人在线亚洲| 伊人色在线视频| 又大又硬又爽免费视频| 香蕉精品在线| 99久久精彩视频| 91精品啪在线观看国产91九色| 激情在线网| 久久久久无码国产精品不卡| 亚洲一区色| 欧美日韩第三页| 久996视频精品免费观看| 欧美日韩激情在线| 国产簧片免费在线播放| 亚洲精品福利网站| 国产成人精品高清在线| 性喷潮久久久久久久久| 國產尤物AV尤物在線觀看| 18黑白丝水手服自慰喷水网站| 中文字幕中文字字幕码一二区| 婷婷六月综合| 国产成a人片在线播放| 国模视频一区二区| 欧美成人亚洲综合精品欧美激情| 国产精品一区在线麻豆| 久久久久久久蜜桃| www.亚洲天堂| 国产毛片不卡| 日韩av手机在线| 日韩二区三区无| 国产a网站| 精品日韩亚洲欧美高清a | 久久综合亚洲色一区二区三区| 国产成人av一区二区三区| 国产成人高精品免费视频| 久久国产精品77777| 免费人欧美成又黄又爽的视频| 亚洲婷婷六月| 在线五月婷婷| 国产精品自拍合集| 国产成人精品优优av| 国产精品无码一区二区桃花视频| 99爱视频精品免视看| 国产亚洲欧美另类一区二区| 国产第八页| 日韩在线影院| 久久性妇女精品免费| 中文字幕在线欧美| 99精品伊人久久久大香线蕉| 中文字幕一区二区视频| 久久精品最新免费国产成人| 特级欧美视频aaaaaa| 亚洲精品国产综合99久久夜夜嗨| 国产色婷婷| 色欲色欲久久综合网| 97国产在线视频| 91在线精品免费免费播放| 999国内精品视频免费| 亚洲综合激情另类专区| 亚洲国产系列| 国产农村妇女精品一二区| 真人免费一级毛片一区二区 | 亚洲男人的天堂在线观看| 国产在线专区| 天天躁日日躁狠狠躁中文字幕| 亚洲最大福利网站| 国产午夜福利片在线观看| 欧美在线天堂| 干中文字幕| 午夜人性色福利无码视频在线观看| 亚洲男人天堂久久| 干中文字幕|