一種有效的基于卷積神經網絡的車輛檢索算法

2018-06-05 10:15:38張春玉黃知紅

科技創新與應用 2018年13期

張春玉黃知紅

摘要：車輛檢索是基于圖像的相似搜索的子任務，在電子商務和智能安防領域有著重要的實際應用價值。文章提出了一種有效的基于卷積神經網絡車輛檢索的算法。利用YOLOV2檢測算法提取圖片中的車輛位置減少背景對車輛檢索造成的影響。提出了改變訓練集中車輛的顏色進行數據增強，緩解訓練數據集較少的問題。基于微調的ResNet50網絡提取車輛的特征用來進行相似匹配。在香港大學車輛數據集上的實驗結果表明文中提出的算法取得了不錯的檢索效果。

關鍵詞：車輛檢索；以圖搜圖；卷積神經網絡；深度學習；電子商務

中圖分類號：TP311.5 文獻標志碼：A 文章編號：2095-2945（2018）13-0006-04

Abstract： Vehicle retrieval is a sub-task of similar search based on image， which has important practical application value in the field of e-business and intelligent security. This paper presents an effective vehicle retrieval algorithm based on convolution neural network. YOLOV2 detection algorithm is used to extract the vehicle position in the image to reduce the impact of background on the vehicle retrieval. The problem of changing the color of vehicle in training concentration to enhance the data is put forward to alleviate the problem of less training data set. The ResNet50 network based on fine tuning is used to extract vehicle features for similar matching. The experimental results on the vehicle data set of the University of Hong Kong show that the proposed algorithm has achieved good retrieval results.

Keywords： vehicle retrieval； graph searching via graph； convolutional neural network； deep learning； e-business

引言

隨著國家經濟的發展和家庭總收入的不斷增加，汽車作為一種舒適的交通工具已經成為了一個必備的消費需求。另外隨著互聯網技術的進步，電子商務取得了長足的發展。汽車電商平臺的出現為消費者購買汽車提供了一個方便的渠道。現有的大部分汽車電商平臺只提供根據關鍵字進行指定車款信息的檢索，這樣就造成了一個潛在的問題，當平臺用戶不知道車的具體品牌或者車款時，就很難根據關鍵字在平臺上找到想要購買的車輛信息。本文討論基于圖片的同款車檢索算法解決車輛商品檢索問題，對電商平臺的發展具有重要的發展意義。

圖像檢索是計算機視覺的一個研究領域，通過匹配兩幅圖像特征間的相似度進行相似檢索。傳統的圖像檢索方法大部分基于類似于SIFT[1]的局部描述子和BOW[2]算法來構建圖像的特征來進行相似檢索，該種架構已經在一些特定的領域取得了非常好的應用。但是由于局部特征的表征能力有限，該種算法并不能用來檢索同款車輛。

深度學習算法以其強大的特征表示能力，在計算機視覺的很多領域都取得了很好的應用，例如目標檢測、語音識別、人臉識別、字符識別等。近年來也有很多基于深度學習相似圖像檢索的研究，并且在某些任務上也取得了不俗成績。本文采用深度學習算法來處理相似車款檢索的問題。值得一提的是，雖然基于深度學習的圖像相似檢索方面的研究很多，但是在基于圖片的同款車檢索這個問題上的研究卻相對較少。一方面是由于該問題并沒有受到大部分人的重視，另一方面是大規模數據集的缺少。針對這些問題，本文的貢獻點可以歸結為兩點：

（1）提出了一種驗證有效的基于深度學習的同款車檢索算法。

（2）提出了一種新的基于車輛顏色轉變的數據增強的方法。

1 車輛檢索算法

本文提出的算法架構可以歸納為前期、中期和后期三個不同的階段。前期階段包括基于YOLOV2的車輛檢測網絡和基于ResNet50[4]的車款識別網絡的訓練。中期階段主要是對檢索庫中的圖片進行特征提取。后期階段是根據輸入圖片的特征進行檢索庫中的特征匹配。

1.1 網絡訓練

圖1中給出了檢測算法的網絡結構。圖中I表示輸入圖片，Label（x，y，w，h，class）表示圖片中矩形框的位置和矩形框中目標的類別，其中x，y是矩形中心點，w，h是矩形框的寬和高。class表示目標的類別，由于本文只是檢測車輛因此只有一個類別class=0。另外在訓練時候為了能夠方便收斂，x，y，w，h都相對于原始圖片做了歸一化處理。Loss用來表示訓練過程中的計算得到的loss值。YOLOV2算法loss的計算主要包括三個部分，框的位置，是否包含目標，目標所屬的類別。由于在車輛檢測任務中目標類別的個數為1。因此本文修改了loss的計算方式。公式（1）中給出了loss計算的數學表達式：

1表示矩形框的loss占的權重，本文設置為5。？姿2表示包含目標的置信度的權重，本文設置為1，？姿3表示不包含目標的置信度的權重，本文設置為0.5。另外只有在區域包含目標的時候才會計算矩形框的loss值。

本文采用ResNet50網絡作為車款識別的基礎網絡。網絡訓練采用遷移學習的方式，首先在ImageNet百萬數據集上進行訓練，然后在車款分類數據集上進行微調訓練。在數據預處理方面，提出了通過改變訓練集車輛圖片的顏色來擴充訓練數據集。圖2中給出了車身顏色修改的效果圖。上面一行是輸入圖片，下面一行是經過改變車身顏色的效果圖。車身顏色改變的方法采用了開源代碼[5]。微調訓練的方式比較簡單，只需要修改ResNet50輸出層的神經元的個數，在訓練時加載預訓練好的模型即可。

1.2 特征提取

本文通過可視化ResNet50不同層的特征以及結合在測試集上的檢索效果，最終選擇提取Layer_512_2_conv2層的特征作為車輛的特征信息。圖3中給出了特征提取的流程。I表示檢測到的車輛圖片，送入訓練好的網絡做一次前向傳播，然后提取layer_512_2_conv層的特征。由于該層為卷積層，因此最后做一次max pooling 操作得到一個512維的向量f，該向量就是圖像I的特征。因此假設檢索庫中圖片數量為N。對于每一張圖片Ni，首先做一次車輛檢測（假設一張圖片只包含一輛車），然后送入網絡提取特征得到向量fi，最終可以得到一個N*512維的矩陣X，該矩陣就是建好的特征庫。

1.3 特征檢索

為了保證檢索的精度和速度，本文采用近鄰匹配計算特征之間的距離。本文采用歐式距離作為度量方式。因此首先對提取到的特征庫中的特征進行歸一化。另外為了提高檢索的速度和降低內存的開銷，本文采用PCA算法進行特征降維。

2 實驗和分析

本文選用Caffe作為特征提取的深度學習框架，Darknet作為車輛檢測的依賴庫。硬件環境為三塊GeForce GTX 1080ti顯卡、英特爾E5處理器、128G內存的臺式電腦。操作系統為Ubuntu14.04。

2.1 數據集

本文數據集主要包含三塊：車輛檢測數據集、車款識別數據集、車輛檢索數據集。車輛檢測數據集通過人工標注的方式收集。車款識別數據集基于香港大學車輛數據集中的監控數據集：包含281個車款類別共44483張車輛圖片。車輛檢索測試集包括車款識別測試集以及收集的50000張干擾監控數據集。從281個類別中每個類別抽取1張圖片作為測試集，剩下的和干擾數據一起作為檢索庫。表1中給出了數據集的使用情況。

2.2 網絡訓練

檢測算法選用基于darknet19網絡結構的YOLOV2檢測算法。從darknet官方網站下載訓練網絡所需要的網絡定義cfg和保存權值的weights文件。修改cfg文件中的最后一層卷積層的輸出為30=5*（1+1+4），修改region層的classes=1，同時基于YOLOV2文中提到的改進kmeans算法根據標注的訓練數據集的labels標簽生成anchor點的坐標。設置檢測網絡最大迭代次數為200000次，設置初始學習率為0.0001學習率下降策略為steps。由于darknet19是全卷積網絡結構因此在訓練過程中采用多尺度訓練的方式。輸入圖片的尺寸為352、384、416、448。最終在測試集上設置IOU=0.8、thresh=0.8、nms=0.4得到的不同輸入尺寸的檢測效果如表2。表2的第一行給出了YOLO_V2算法在COCO數據集上訓練的模型在本文測試集上的效果。從測試集上的結果可以看出，本文訓練的車輛檢測算法在測試集上的檢測精度要明顯好于前者。

車款識別原始訓練集一共包含38863張數據，直接基于這些數據進行訓練容易造成過擬合。因此采用旋轉、添加高斯噪聲、水平翻轉、車身顏色改變來進行數據增強。車身顏色改變對于黑夜中的車輛效果非常的差。所以在利用車身顏色改變進行數據增強之前，先根據輸入圖片的平均亮度來過濾掉夜晚的車輛圖片。設置平均亮度值低于50的為夜晚圖片，從訓練集中過濾掉14843張圖片。通過觀察過濾后的數據集，發現車身顏色大部分為白色、黑色、紅色。訓練一個車身顏色識別的網絡模型，把訓練集中的每個類別中包含的白色、黑色、紅色圖片提取出來。依托訓練的車身顏色分類模型一共提出11569張圖片，其中紅色1165張，白色3372張，黑色7032張。接下來采用基于開源代碼訓練的圖3中展示的顏色轉換模型進行數據增強。表3中給出了最終數據增強后的訓練集組成。

從caffe的開源社區Model Zoo中下載預訓練好的ResNet50網絡模型。修改輸出層網絡的神經元個數為281類，設置初始學習率base_lr=0.001，學習方式lr_policy="multistep"，momentum=0.96、weight_decay=0.0002。分別利用沒有加入顏色增強和加入顏色增強的數據集進行網絡的訓練。前者由于數據集較少，訓練80000次就開始出現欠擬合的情況，訓練集上已經達到了99.9%的精度，但是測試集上的精度在95%左右徘徊。當加入顏色改變數據集之后該情況得到了明顯的緩解，訓練100000次測試集上的準確度到了97%。表4中在測試集上的檢索效果對比也說明了，加入顏色改變增強的有效性。

2.3 檢索時間和效果分析

檢索的時間開銷和準確度是衡量算法好壞的兩個重要標準。本部分將圍繞這兩個指標對本文算法的性能進行詳細的分析。

表4中給出了不同檢索算法在本文測試集上的檢索精度。TopN表示前N張結果中正確結果所占的比例。實驗結果表明基于SIFT[1]暴力匹配的方式和基于BOW[2]的方式檢索效果都比較差，這和圖1中特征匹配可視化的結果相一致。直接基于AlexNet網絡在ImageNet數據集上訓練的通用特征進行車輛檢索的效果也不夠理想。這也說明了在特定任務上進行遷移訓練的重要性。Our_one表示直接采用沒有加入顏色增強數據進行訓練的模型的檢索效果，Our_two是加入顏色增強數據的檢索效果。后者要比前者平均高約4個百分點，這也說明通過改變顏色增強能夠大幅度提高檢索的效果。Our_three是采用PCA進行降維，特征維度降到256維的檢索效果，可以發現檢索效果不但沒有下降還略微有上升。特征降維，可以提高檢索的速度同時減少內存的開銷。Our_four算法是加入本文車輛檢測算法，提取測試集上的車輛圖片進行檢索效果。由于香港大學數據集中的測試圖片已經不包含太多的背景信息，因此通過該方式在測試集上的效果只是略有提升。但是在實際應用場景中，該種方式能夠極大的提高檢索的效果。

圖4中給出了部分車輛圖片的檢索效果。左邊第一列為輸入的檢索圖片，其它列為檢索出來的Top5結果。用紅色外邊框包圍的圖片表示檢索出錯的結果。夜間圖片由于光線較差，圖片的亮度較低因此檢索的精度會下降。但是從檢索效果可以看出，輸入夜晚的圖片也有一定的概率檢索出正確的白天的圖片，反之亦然。例如第二行的第三張和第7行的第三張。

本文算法的時間開銷主要包含三個部分。車輛檢測和特征提取和近鄰匹配。檢測算法在1080ti的顯卡上當輸入圖片大小為416*416的時間為0.011s。特征提取的時間開銷為一張圖片0.02s。特征匹配的時間開銷根據檢索庫的大小和特征維度的不同，所需要的時間開銷也不一樣。表5給出了不同量級檢索庫上512維的特征維度，特征匹配的時間開銷。根據表5給出的時間統計，本文算法在百萬級的圖像檢索庫中依然能夠達到秒級以內的檢索響應的速度。

3 結束語

本文介紹了一種基于卷積神經網絡進行車輛檢索的算法，并且提出了一種新的數據增強的方法。實驗證明算法能夠取得不錯的效果。然而，算法依然存在不足之處。例如對于夜晚圖片光線較差的情況檢索效果就不夠理想。希望在以后的研究中能夠改進這部分的問題。

參考文獻：

[1]Huang J， Feris R， Chen Q， et al. Cross-Domain Image Retrieval with a Dual Attribute-Aware Ranking Network[J]. 2015：1062-1070..

[2]Lin K， Yang H F， Liu K H， et al. Rapid Clothing Retrieval via Deep Learning of Binary Codes and Hierarchical Search[J]. 2015：499-502.

[3]Redmon J， Farhadi A. YOLO9000： Better， Faster， Stronger[J]. 2016.

[4]He K， Zhang X， Ren S， et al. Deep Residual Learning for Image Recognition[J]. 2015：770-778.

[5]https：//github.com/Armour/Automatic-Image-Colorization.

[6]Jegou H， Douze M， Schmid C. Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search[M]// Computer Vision - ECCV 2008. OAI， 2008：304-317.

[7]Krizhevsky A， Sutskever I， Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems， 2012， 25（2）：2012.

[8]Yang L， Luo P， Chen C L， et al. A large-scale car dataset for fine-grained categorization and verification[J]. 2015：3973-3981.

[9]Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision， 2004， 60（60）：91-110.