基于SSD和TensorFlow的圖像識別與定位算法

2019-07-08 06:46:17姜華孫勇

計算機時代 2019年6期

姜華孫勇

摘? 要：隨著機器視覺技術發展，對識別速度、準確率和項目開發周期等方面都提出了更高的要求。人工智能無疑是較好的解決方式，而以往從底層編程搭建深度學習框架在技術和項目進度上都很難滿足要求。為了滿足圖像識別要求，選擇專用的圖像處理服務器進行訓練與識別，并對其主要部件進行選型。對SSD模型結構進行了分析，根據各層次結構計算了一次訓練與前向運算過程中所需計算的參數及內存要求。通過開源的深度學習框架TensorFLow、SSD識別模型，在Python環境下設計圖像格式轉換、圖像識別和定位程序。并在VOT2016標準數據集中進行測試。測試結果顯示，在速度和識別成功率上都符合預期要求。

關鍵詞：機器視覺; 深度學習; TensorFLow; SSD; 定位

中圖分類號：TP391.4? ? ? ? ? 文獻標志碼：A? ? 文章編號：1006-8228（2019）06-71-05

Abstract： With the development of machine vision technology， higher requirements are put forward for recognition speed， accuracy and project development cycle. Artificial intelligence is undoubtedly a better solution， but in the past， building a deep learning framework from the bottom programming is difficult to meet the technical and project progress requirements. In order to meet the requirements of image recognition， a special image processing server is selected for training and recognition， and its main components are selected. The structure of SSD model is analyzed， and the parameters and memory requirements for training and forward operation are calculated according to the hierarchical structure. Using SSD recognition model of machine learning framework TensorFLow， the program of image format conversion， image recognition and localization is designed with Python. It is tested on VOT 2016 standard data set; the test results show that the expected requirements in terms of speed and recognition success rate are achieved.

Key words： machine vision; deep learning; TensorFLow; location

0 引言

主流圖像識別和定位的方法大概可以兩類，其一是基于濾波的圖像特征提取，常用的濾波算法有小波變換[1]，傅里葉變換[2]，加博變換[3]等;其二是基于人工智能類的學習算法，通過對已有的圖像特征學習來完成圖像識別，常用算法有SVM（支持向量機）[4]和深度學習[5-6]。

從實現效果上來看，針對不同的識別領域，兩大方法會呈現不同的識別準確率。一般而言，基于濾波的圖像識別算法更適合于識別物體特征單一和識別背景相對簡單的環境，如指定環境的某一工件識別等。而人工智能類的識別算法，更適用于識別物品可能發生一定變化，識別背景相對復雜的情況，如人臉識別，人的姿勢、表情識別等。

TensorFlow是眾多人工智能框架中最具代表性的一個，本文以此為圖像識別深度學習框架，進行指定圖像的識別與定位研究。

1 深度學習基礎

1.1 卷積神經網絡的組成

卷積神經網絡屬于神經網絡的一種，是深度學習最常用的網絡之一，已廣泛地應用于機器視覺、文字處理和數值分析等領域。而深度學習是機器學習的最重要的一個分支，在很多領域已經達到了原有機器學習未能實現的高度。因此，卷積神經網絡可以看作當前主流人工智能實現方式的一個代表[7]。

應用于機器視覺方面的卷積神經網絡一般包括：數據輸入、卷積層、池化層、激勵層、全連接層等，具體如圖1所示。

其中，數據輸入層除了接收和向下一層級傳輸圖片外，但需要進行去均值、歸一化以及降維等工作。卷積層是把輸入圖片在一定步長和一定尺寸的卷積核進行卷積運算，而后得出的圖片作為輸出，步長就是卷積核在原圖片上滑動間隔的步距，卷積核的尺寸一般可以選3*3或者5*5，卷積層中卷積核的數量與卷積后輸出的圖片數量相等。池化層往往在卷積層的后面，有時和卷積層一并被當作同一個層級。它通過最大池化運算或者平均池化運算壓縮圖片數據。

一般采用2*2的最大池化壓縮方法，每次池化后數據量僅為原有的1/4。激勵層是把之前各層運算結構轉換成標準化的非線性映射，常見的激勵函數如Sigmoid、ReLU和Tanh等。卷積神經網絡有時也會包含全連接層，經常出現在網絡的末端。而目前的卷積神經網絡往往沒有全連接層，很可能是以一個1*1的卷積層代替。分類層一般采用SoftMax分類器，識別出圖片中所包含物體的類別。

1.2 卷積神經網絡的特點

相對于傳統的神經網絡，卷積神經網絡具有如下幾個特點。

⑴ 隨機激活與關斷部分神經元

傳統的神經網絡在學習和訓練的過程中，經常會出現過擬合現象，也就是由于過于詳細的關注每個樣本的細節而忽略了物體原有的變化過濾，過多學習了噪聲等干擾。而卷積神經網絡采用隨機激活和關斷部分神經元的方法，使得神經網絡在訓練的過程中無需詳細的保存圖片的每條細節，泛化部分特點，反而能夠更容易抓住物品的特征進行識別。具體地結構變化如圖2所示，左圖為一般神經網絡，右圖為卷積神經網絡。

⑵ 參數共享機制

卷積神經網絡中，每層之間或者說每個神經元之間的權重是不變的。也就是說連接同一個圖片中的神經元，假定其為3*3矩陣，那么卷積神經網絡中這個9個數在前向運算中是不變的。

從神經或者生物學角度來講，這使得每個神經元所關注的特征是唯一的。這也使得卷積神經網絡的學習訓練所需的計算量變得可以實現，例如，以AlexNet框架的網絡深度為例，傳統神經網絡和卷積神經網絡在學習訓練的過程中需要計算的權重參數由1億降至3.5萬。

⑶ 交叉熵損失函數計算

卷積神經網絡的訓練和運行整體上來說采用反向傳播和鏈式法則。而找出之前構建模型參數中的錯誤就需要交叉熵計算了。交叉熵是通過概率論的方法，把模型得出屬于某一被識別出的物品的概率進行歸一化，以便了解與真實結果的差異。

交叉熵計算如公式⑴，其中xi為圖片樣本中的第i張圖片矩陣，fyi表示在W激勵作用下的運算結果，Li為交叉熵結構。

而計算機程序計算時，往往會采用公式⑵

1.3 SSD計算模型

常規的卷積神經網絡的確可以對目標圖像是否包含指定物體，但無法實現物品對圖像中的位置定位。若圖像中物體位置定位只能通過在圖片中進行一定規律的矩形分割識別搜索，例如把原有圖像分成2000個，這樣即便是目前最先進的服務器也較難完成，因為工作量增加了近2000倍。

SSD的結構如圖3所示，它的矩形識別框都算出一個各自的檢測值，與以往運算模型不同的有兩點。其一是常規的得出每個矩形識別框和圖片背景的歸類評分，其二以矩形識別框的中心X、Y坐標，高度和寬度，相當于建立起這個四個參數與檢測值的函數。

矩形識別框的匹配原則分為兩個步驟，其一是在被識別圖片中的真實目標，都找到一個對應物體準確度最高的矩形識別框，其二是首輪未匹配到的對大于一定閾值的矩形識別框進行第二次選擇匹配。

2 圖像識別平臺的搭建

本文操作系統為Windows 10，Windows系列是TensorFlow在支持linux和MAC之后的第三個操作系統。軟件開發語言選擇更適合于數值計算，而且與TensorFlow平臺使用資料較為豐富的Python。為了安裝TensorFlow方便，選擇Python插件工具包Anaconda4.3，在此基礎上安裝TensorFlow1.12，并把Python版本降至3.5，以便支持TensorFlow1.12。Anaconda安裝后，Python的編譯環境為Spyder3.2.3。

為了縮短訓練時間，圖像處理選擇支持GPU運算的服務器。服務器的主要配置如表1所示。為了追求深度學習的運算速度，顯卡為四個英偉達的Titan XP并聯。

單張圖片進行前向運算所需要內存約為28*4=112M，單張圖片需要確認參數約為21M個。如果與VGG相比的話，相對比VGG的224*224像素圖像的93M和138M比，無疑是節約了很多內存空間和運算時間。而且在識別的功能性上，也由識別圖像內是否包含物體變成物體定位。計算內存占用量和參數計算有助于了解訓練和前向運算時所需要的服務器顯卡資源。訓練是需要一次獲取若干張圖片的，例如32張，那么需要的內存就至少是一張的32倍。

計算的層次順序不完全按照SSD進行排序的，由于它前面與VGG一致，所以層次的計算順序是先是VGG部分，而后是SSD增加部分。

4 基于SSD模型的程序設計

4.1 卷積層參數訓練

參數訓練部分主要代碼如下：

4.2 在已有參數基礎上進行微調

為了更快的訓練卷積神經網絡的參數，也可以下載一些已經訓練好的數據，并在此基礎上進行微調得到這類圖片的訓練結果。例如可以在GitHub中下載TensorFlow-SSD數據包，保存參數的文件名為：ssd_300_vgg.ckpt.data-00000-of-00001，以此作為參數基礎。微調的主要部分程序如下所示：

5 實驗結果與對比

5.1 實驗結果

在VOT2016中選擇蝴蝶作為實驗對象，這類圖片共計150張，取后130張作為訓練樣本，前20張作為測試樣本。通過變換把原圖像轉換到300*300像素再轉換到TF數據集格式，每次迭代訓練16張圖片，反復訓練500次后測試出識別結果。其中，訓練速度平均在8張圖片/秒左右。實驗結果如圖4所示。

5.2 實驗過程數據

分別采用在新建模型重新訓練和在下載數據中進行微調做測試對比，對比結果如圖5所示?？梢娢⒄{的實際測試中收斂速度更快。

6 結束語

隨著TensorFlow的開源發布，基于卷積神經網絡的圖像識別資源已經逐漸向此方向傾斜。例如SSD最初是在Caffe框架下設計的，目前不僅可以較為方便的下載TensorFlow的學習模型框架，而且也有越來越多的人在使用它進行研究和應用。

本文采用SSD和TensorFlow相結合，在圖像處理服務器中對VOT2016的蝴蝶樣本進行訓練和測試，在訓練速度和識別成功率在都取得了較好的結果。

參考文獻（References）：

[1] 石巖.基于二維不可分形態小波變換的多光譜圖像全色銳化方法[J].北京交通大學學報，2018.42（5）：116-122

[2] 朗俊，付香雪，郭盼.分數傅里葉變換域的彩色圖像非對稱光學壓縮加密[J].光電工程，2018.45（6）：124-133

[3] 姚瓊，徐翔，鄒昆.基于3D Gabor多視圖主動學習的高光譜圖像分類[J].計算機工程與應用，2018.54（22）：197-204

[4] 李紅麗，許春香，馬耀鋒.基于多核學習SVM的圖像分類識別算法[J].計算機科學與應用，2018.41（6）：50-52

[5] 李勝旺，韓倩.基于深度學習的圖像處理技術[J].數字技術與應用，2018.36（9）：65-66

[6] 李永剛，王朝暉，萬曉依等.基于深度殘差雙單向DLSTM的時空一致視頻事件識別[J].計算機學報，2018.41（12）：2853-2864

[7] 劉忠利，陳光，單志勇等.基于深度學習的脊柱 CT 圖像分割[J].計算機應用與軟件，2018.35（10）：200-204

[8] LIU W，ANGUELOV D， ERHAN D， et al.SSD： single shot?multi-box detector，2016[C].Berlin： ECCV，2016：21-37

[9] Simonyan， K.， Zisserman， A.： Very deep convolutional?networks for large-scale image recognition，2015[C]. Montreal ：NIPS.（2015）

收稿日期：2019-02-25

*基金項目：浙江省2018年度重點研發計劃項目（2018C01111）

作者簡介：姜華（1976-），男，浙江杭州人，碩士，高級工程師，主要研究方向：圖像識別與大數據。