蔡芷茵,高 煒,俞祝良,黃金洪,劉 浩,李宏海
(1.華南理工大學 自動化科學與工程學院, 廣東 廣州 510641;2.北京交通信息中心, 北京 100161;3.交通運輸部公路科學研究院 智能交通研究中心, 北京 100088)
?
基于三元組卷積神經網絡的圖像檢索
蔡芷茵1,高 煒1,俞祝良1,黃金洪1,劉 浩2,李宏海3
(1.華南理工大學 自動化科學與工程學院, 廣東 廣州 510641;2.北京交通信息中心, 北京 100161;3.交通運輸部公路科學研究院 智能交通研究中心, 北京 100088)
針對圖像檢索中圖像間相似度和訓練集帶標簽樣本不足問題,提出一種改進的三元組卷積神經網絡的圖像檢索算法。采用基于三元組卷積神經網絡,在相似數據集上進行網絡訓練,為圖像檢索項目提取更好的特征。 實驗結果表明,該算法在相似數據集上進行重訓練,有助于提高基于內容的圖像檢索任務的性能。
基于內容的圖像檢索;卷積神經網絡;相似度度量;特征表達
在基于內容的圖像檢索(Content-Based Image Retrieval, CBIR)任務中,提取有效樣本特征的模型尤為重要[1, 2]。隨著深度學習在機器學習領域的逐漸流行,應用卷積神經網絡(Convolutional Neural Networks, CNN)已經成為圖像分類和圖像檢索的一種重要方法[3]。
檢索是基于圖像內容而非詞匯描述的,在復雜的CBIR任務中,低層次視覺特征和高層次人類感知之間存在語義鴻溝[4, 5],采用人工神經網絡模型提取特征通常不能取得滿意的效果[6]。已有的CBIR方法主要基于顏色特征[7]和紋理特征[8]等低層次的特征[4, 9],不能獲得令人滿意的結果。當訓練樣本數量不足以訓練大規模復雜網絡時,便會出現災難性的過擬合現象,即網絡在訓練集上表現出良好的性能而在測試集中效果很糟糕。雖然有時獲取大量圖像并不困難,但是對其做標記也要花費更多的人力物力。
針對上述問題,本文擬采用三元組卷積神經網絡(Triplet Convolutional Neural Network, Tri- CNN),在不同類樣本被判定為比同類樣本更相似時給予懲罰。利用幾個相似的大規模數據集進行網絡訓練,并對現有的帶標簽數據進行數據擴充,以期提高CBIR任務的性能。
三元組卷積神經網絡(Triplet Convolutional Neural Networks, Tri- CNN)算法主要包括兩個階段:(1) 與相似度度量相結合,采用深度CNN結構[10]及余弦相似度[11],訓練一個深度CNN模型;(2) 利用與被檢索數據集相似的數據集訓練網絡,以獲取更有效的特征表達并提高檢索性能。
1.1 相似度度量
采用余弦相似度來度量樣本間的相似度,其表達式為

(1)
其中x,y代表兩個樣本特征。
在檢索任務中,計算查詢樣本與被檢索數據庫中所有樣本間的相似度,被檢索數據庫中與查詢樣本特征相似度最高的樣本即為應返回給用戶的目標樣本。
1.2 三元組卷積神經網絡
CNN由輸入層、卷積層、池化層、全連接層和輸出層等5個部分組成。每個CNN包含5個卷積層和3個全連接層。
第一層是輸入層,原圖像隨機平移和水平鏡像變換并截取227×227圖像塊,把主成分中隨機倍數的RGB像素值添加到數據集的每張圖片中。
輸入層之后是5個卷積層。第1個和第2個卷積層之后均有1個響應歸一化層和最大池化層。第3個和第4個卷積層之后不含池化層及歸一化層。第5個卷積層之后是一個最大池化層。5個卷積層之后有3個全連接層,其中前兩個包含4 096個神經元,最后一個包含1 000個神經元。網絡結構如圖1所示。

圖1 三元組卷積神經網絡結構
在Tri-CNN中,將整流線性單元(Rectified Linear Units, ReLU)f(x)=max(0,x)作為非線性激活函數[12]。在ReLU-6層和ReLU-7層之后,分別加入drop-out操作,在訓練階段隨機將半數神經元連接權重置為0,使學習獲得更強魯棒性的特征[13]。在輸入層和第1個卷積層之間加入1個分割層。在每次訓練中,將1張預先選定的圖像、1張與其同類的圖像(用“+”標記)和1張不同類的圖像(用“-”標記)作為整體輸入網絡。經過分割層后,3張圖像被分別輸入到3個網絡中。如圖1所示,3個網絡在所有卷積層和全連接層上共享權值和偏置。
將式(1)定義的余弦相似度作為相似度度量,可重寫為[11]

則代價函數為
L((x,x+,x-);γ;S)=max{0,γ-S(y,y+)+
S(y,y-)}。
(2)
其中γ是閾值參數,(x,x+,x-)是輸入的三元組,x+和x屬于同類別,x-屬于不同類別。(y,y+,y-)是三元組的特征。則



考慮到每次訓練采用多個樣本,梯度計算可表示為




實驗中CBIR任務的數據集是Fabric數據集, 在Fabric數據集中,每個類別只有兩張圖片,其中1張放入查詢數據庫,另1張則放入被檢索數據庫。因此,對于查詢圖片來說,被檢索數據庫中僅有1張圖片與之匹配。分別計算搜索圖片與被檢索數據庫中的每張圖片的相似度,并按照相似度從大到小的順序排列。設定按照相似度排列的前N張圖片為檢索結果,如果匹配的圖片在檢索結果中,則檢索成功(top-N為1),否則失敗(top-N為0)。實驗將采用top-1,top-5,top-10,top-100指標來衡量Tri-CNN應用CBIR任務的效果。所有實驗均使用E5-2670 2.60GHzCPU的計算機實現。
2.1 數據集描述
(1)預訓練深度模型
ImageNet數據集[14]中的圖片樣本是從網上采集后人工標記的。ImageNet大規模視覺識別挑戰賽
(ImageNetLarge-ScaleVisualRecognitionChallenge,ILSVRC)當中所用的數據集正是ImageNet數據集的子集,子集有1 000類的圖像,包含約120萬張訓練集圖片,5萬張驗證集圖片以及15萬張測試集圖片。實驗所用的預訓練深度模型來源于ILSVRC2012訓練。
(2)再訓練的數據集
為了對比不同數據集再訓練的效果,分別用ImageNet數據集、ALOT數據集、Cloth132數據集3種類型的數據集再訓練Tri-CNN。
ALOT數據集[15]是含有 2.5 萬張 250 類的帶標簽圖片的大規模紋理數據集。數據集中包含木質纖維、糖、羊毛毛毯和精白米等類型的紋理圖片。因此,ALOT數據集和Fabric數據集是相似數據集。
Cloth132數據集含有132類布料圖片,而每類圖片只有2張,因此數據集含有264張圖片。雖然Cloth132數據集非常小,但它和Fabric數據集是同類數據集。
(3)CBIR任務的數據集
CBIR任務的數據集是Fabric數據集,它含有1 000類的帶標簽高分辨率圖片,每類2張,共計2 000張圖片。所有布料圖片均由布料公司采集及人工分類標記。
由于每類含有2張相似的布料圖片,把其中一張放入查詢數據庫,另一張則放入被檢索數據庫,則查詢數據庫和被檢索數據庫均含有1 000張圖片。實驗數據集圖像樣例如圖2所示。

圖2 實驗數據集圖像樣例
2.2 參數選取
將再訓練模型的學習率η設為0.001,用ALOT數據集[15]再訓練Tri-CNN。再訓練過程中,從0.15到0.75范圍內選取不同的閾值參數γ進行實驗。
實驗結果如圖3所示。

圖3 Fabric數據集上不同的閾值參數對檢索性能的影響
由于γ=0.25在top-1, top-5, top-15指標下都有較好效果,而且在top-10指標下效果也不錯,所以選取0.25為代價函數的閾值參數。運用預訓練深度模型再訓練深度卷積神經網絡,迭代一次僅需90 s。
再訓練Tri-CNN過程中,在ALOT數據集進行訓練,在Fabric數據集進行測試。迭代0次到300次時測試集的代價函數值如圖4所示。

圖4 再訓練模型時測試集上代價函數值
由圖4可知,再訓練模型測試集的代價函數值在
迭代1次到50次的時候快速下降,在迭代50次到70次時下降趨于緩慢。迭代70次到100次時,代價函數值已經基本不變。迭代超過100次以后,代價函數值在一個小幅度內波動。因此,再訓練Tri-CNN時選擇迭代70次,將會耗費大概105 min。
2.3 基于再訓練Tri-CNN的CBIR任務
分別利用ImageNet數據集、Cloth132數據集、ALOT數據集3個不同的數據集再訓練Tri-CNN。ImageNet數據集是大規模數據集,它與CBIR任務的數據集是兩種不同類型的數據集;Cloth132數據集跟Fabric數據集是同種類型的數據集,但是非常小;ALOT數據集是大規模數據集,同時它也是CBIR任務的數據集的相似數據集。實驗結果如表1所示。
與預訓練深度模型所得的結果相比,這3種數據集再訓練Tri-CNN均可提高CBIR任務的性能。對于圖像檢索任務來說,再訓練Tri-CNN可獲取更有效的特征。如表1所示,用ALOT數據集再訓練的效果最好,用Cloth132數據集次之,用ImageNet數據集結果最差。因此,用CBIR任務的數據集的同類數據集或相似數據集再訓練Tri-CNN可以得到更好的結果。然而,與CBIR任務的數據集同類的Cloth132數據集由于太小,沒有大到足以讓再訓練Tri-CNN時可以從中學習到有效特征,所以沒能實現最好的結果。反而,用大規模的相似數據集——ALOT數據集來再訓練可以獲得最好的效果。因此,用相似數據集再訓練Tri-CNN可以提升CBIR任務的性能。

表1 Fabric數據集上采用不同模型的檢索性能
應用Tri-CNN,將CNN與相似度度量結合起來用于特征提取,提高了圖像檢索的性能,說明CNN可提取到高層次的語義特征;而將相似度納入網路訓練目標更符合檢索任務的要求,可獲得更佳的性能。對檢索數據集相似的大規模相似數據集進行網絡訓練,并將網絡用于檢索任務的特征提取,在檢索性能上取得較大提升。實驗結果表明,當特定檢索任務數據集樣本數量不足以訓練大規模網絡時,在預訓練網絡的基礎上用相似大規模數據集進行再訓練,可明顯提高檢索性能。
[1] 劉穎, 范九倫. 基于內容的圖像檢索技術綜述[J]. 西安郵電學院學報, 2012,17(2):1-8. DOI:10.13682/j.issn.2095-6533.2012.02.022.
[2] 劉穎, 黃源, 高梓銘. 刑偵圖像檢索中的特征提取及相似性度量[J]. 西安郵電大學學報, 2014,19(6):11-16. DOI: 10.13682/j.issn.2095-6533.2014.06.003.
[3] LI D. A tutorial survey of architectures, algorithms, and applications for deep learning[J/OL]. APSIPA Transactions on Signal & Information Processing, 2014,3(e2):1-29[2016-07-20].http://www.researchgate.net/publication/270806577_A_tutorial_survey_of_architectures_algorithms_and_applications_for_deep_learning__ERRATUM. DOI: 10.1017/ATSIP.2014.4.
[4] SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J/OL]. IEEE Trans. Pattern Anal. Machine Intell., 2000,22(12):1349-1380[2016-07-20]. http://dx.doi.org/10.1109/34.895972.
[5] RAFIEE G, DLAY S S, WOO W L. A review of content-based image retrieval[C/OL]//2010 7th International Symposium on Communication Systems Networks and Digital Signal Processing (CSNDSP), UK:IEEE,2010, 1(4):775-779[2016-07-20]. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5580313.
[6] WAN J, WANG D, HOI S C H, et al. Deep learning for content-based image retrieval: a comprehensive study[C/OL]// MM '14 Proceedings of the 22nd ACM international conference on Multimedia, New York, NY, USA :ACM, 2014: 157-166[2016-07-20]. http://dx.doi.org/10.1145/2647868.2654948.
[7] MANJUNATH B S, MA W Y. Texture features for browsing and retrieval of image data[J/OL]. IEEE Trans. Pattern Anal. Machine Intell, 1996,18(8):837-842[2016-07-20]. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=531803.
[8] LEW M S, SEBE N, DJERABA C, et al. Content-based multimedia information retrieval: State of the art and challenges[J/OL]. Acm Transactions on Multimedia Computing Communications & Applications, 2006,2(1):1-19[2016-07-28]. http://dx.doi.org/10.1145/1126004.1126005.
[9] JAIN A K, VAILAYA A. Image retrieval using color and shape[J/OL]. Pattern Recogn, 1996,29(8):1233-1244[2016-07-28]. http://www.researchgate.net/publication/222471476_Image_retrieval_using_color_and_shape. DOI: 10.1016/0031-3203(95)00160-3.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J/OL]. Advances in Neural Information Processing Systems, 2012,25(2):2012[2016-07-28]. http://www.researchgate.net/publication/267960550_ImageNet_Classification_with_Deep_Convolutional_Neural_Networks.
[11] WU P, HOI S C H, XIA H, et al. Online multimodal deep similarity learning with application to image retrieval[C/OL]// MM '13 Proceedings of the 21st ACM international conference on Multimedi , New York, NY, USA:ACM,2013:153-162[2016-07-28]. http://dx.doi.org/10.1145/2502081.2502112.
[12] HARA K, SAITO D, SHOUNO H. Analysis of function of rectified linear unit used in deep learning[C/OL]// 2015 International Joint Conference on Neural Networks (IJCNN),[s.l.]:IEEE, 2015:1-8[2016-07-28]http://dx.doi.org/10.1109/IJCNN.2015.7280578.
[13] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J/OL]. Computer Science, 2012,3(4):212-223[2016-07-28]. http://www.oalib.com/paper/4059375.
[14] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C/OL]//IEEE Conference on Computer Vision and Pattern Recognition, 2009, Miami, FL, USA:IEEE,2009: 248-255[2016-07-28]. http://dx.doi.org/10.1109/CVPR.2009.5206848.
[15] BURGHOUTS, GERTJAN J, GEUSEBROEK, et al. Material-specific adaptation of color invariant features[J]. Pattern Recognition Letters., 2009,30(3):306-313[2016-07-28].http://dx.doi.org/10.1016/j.patrec.2008.10.005.
[責任編輯:祝劍]
Content-based Image retrieval based on triplet convolutional neural networks
CAI Zhiyin1, GAO Wei1, YU Zhuliang1, HUANG Jinhong1,LIU Hao2, LI Honghai3
(1.School of Automation Science and Engineering, South China University of Technology, Guangzhou 510641, China;2. Beijing Transportation Information Center, Beijing 100161, China;3. Intelligent Transportation Research Center, Research Institute of Highway Ministry of Transport, Beijing 100088, China)
Considering of the similar metric between images and the lack of labeled images in training dataset in content-based image retrieval (CBIR) tasks, Triplet Convolutional Neural Networks (Tri-CNN) are proposed to retrain the network on dataset in similar domain. Our experiments demonstrate that the improved structure of CNN which combines traditional deep convolutional neural networks and similarity metric, can improve the performance of CBIR tasks.
content-based image retrieval, convolutional neural networks, similarity metric, featurerepresentations
10.13682/j.issn.2095-6533.2016.06.012
2016-09-22
交通運輸部科技計劃資助項目(2015419223070)
蔡芷茵(1993-),女,碩士研究生,研究方向為模式識別與圖像處理。E-mail: cai.zhiyin@mail.scut.edu.cn 高煒(1993-),男,碩士研究生,研究方向為模擬識別與圖像處理。E-mail: augao@mail.scut.edu.cn
TP391.41
A
2095-6533(2016)06-0060-05