一種快速的車型識(shí)別方法*

2018-06-05 11:39:55許曉瓏

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2018年5期

胡鵬，白天，許曉瓏

(1.中國(guó)科學(xué)技術(shù)大學(xué) 軟件學(xué)院，安徽合肥 230027； 2.福建省廈門(mén)市公路局信息處，福建廈門(mén) 361008)

0 引言

隨著計(jì)算機(jī)硬件技術(shù)和計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展，智能交通(ITS)也得到快速的發(fā)展。自動(dòng)交通事件檢測(cè)系統(tǒng)是智能交通系統(tǒng)很重要的一部分，也越來(lái)越受到廣大學(xué)者們的關(guān)注。一個(gè)好的自動(dòng)交通事件檢測(cè)系統(tǒng)，車輛檢測(cè)是關(guān)鍵。傳統(tǒng)的車輛檢測(cè)方法很多，但其魯棒性都不夠好，基于交通視頻的車輛檢測(cè)以其檢測(cè)范圍大、工程量小、安裝簡(jiǎn)單、成本低、信息豐富而逐步取代傳統(tǒng)的檢測(cè)方法。利用視頻進(jìn)行車輛的識(shí)別，涉及兩個(gè)主要技術(shù)：車輛的檢測(cè)定位和車輛的識(shí)別。

車輛的檢測(cè)定位是車輛識(shí)別的基礎(chǔ)。車輛的檢測(cè)定位主要有兩種方法：一種是使用高斯對(duì)背景建模[1]，然后使用視頻幀畫(huà)面減去背景即可得到前景運(yùn)動(dòng)車輛；另一種針對(duì)交通視頻采集器是固定的，可以使用幀差法得到運(yùn)動(dòng)目標(biāo)。而目前車型分類主要有兩種方式：(1)利用特征提取算法提取圖像的特征，然后使用傳統(tǒng)機(jī)器學(xué)習(xí)分類器進(jìn)行分類。例如：提取車輛圖像Harr-like特征[2]，然后使用Adaboost[3]做特征選擇并進(jìn)行分類；提取尾燈和車輛尺寸等特征[4]，然后使用混合動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(HDBN)[5]進(jìn)行車型的分類；使用車輛邊緣信息作為特征[6]，并使用Adaboost進(jìn)行分類；通過(guò)高斯背景建模[7]，提取背景，進(jìn)而得到前景車輛，然后提取車輛寬高比、寬度等特征，并使用支持向量機(jī)[8](SVM)進(jìn)行分類。(2)使用深度學(xué)習(xí)進(jìn)行端到端的學(xué)習(xí)，模型自動(dòng)具有特征提取能力。例如：使用神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的學(xué)習(xí)[9]；使用深度置信網(wǎng)絡(luò)[10](DBN)進(jìn)行車輛、行人的識(shí)別。然而，第一種方法識(shí)別正確率普遍低于第二種方法，第二種方法又具有很高的時(shí)間復(fù)雜度，不具有實(shí)時(shí)性。

針對(duì)以上方法存在的問(wèn)題，本文提出一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型，在滿足準(zhǔn)確率的前提下，提高了測(cè)試效率。

圖2 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)

1 相關(guān)工作

在本部分中，將從運(yùn)動(dòng)目標(biāo)的檢測(cè)[11]和對(duì)檢測(cè)出的運(yùn)動(dòng)目標(biāo)進(jìn)行識(shí)別兩個(gè)方面整體介紹車型分類系統(tǒng)。

1.1 運(yùn)動(dòng)目標(biāo)檢測(cè)

目前做運(yùn)動(dòng)目標(biāo)檢測(cè)的主流方法有相鄰幀差法[12]、光流法、背景消去法、基于統(tǒng)計(jì)學(xué)習(xí)方法等幾種。由于本文中車型分類系統(tǒng)的輸入視頻的采集器具有固定位置不變性，并且為達(dá)到實(shí)時(shí)性的需求，計(jì)算量不宜過(guò)大，故采用改變的幀差法[13]進(jìn)行運(yùn)動(dòng)目標(biāo)的檢測(cè)。改變過(guò)的幀差法流程圖見(jiàn)圖1。

詳細(xì)檢測(cè)流程如下：

(1)通過(guò)邊緣檢測(cè)算子Candy算子計(jì)算視頻流中的連續(xù)兩幀圖像Fk和Fk-1對(duì)應(yīng)的Ek和Ek-1兩張邊緣圖像；

(2)差分兩張邊緣圖像Ek和Ek-1得到Dk；

(3)將Dk劃分為多塊，并統(tǒng)計(jì)非0的塊記為Sk；

(4)根據(jù)閾值對(duì)Sk進(jìn)行二值化，從而可以得到整個(gè)圖像塊對(duì)應(yīng)的矩陣M；

(5)對(duì)矩陣M中的非0值進(jìn)行連接，并刨去過(guò)小且獨(dú)立的區(qū)域；

圖1 目標(biāo)檢測(cè)流程圖

(6)獲取包含運(yùn)動(dòng)目標(biāo)的最小外接矩形。

1.2 運(yùn)動(dòng)目標(biāo)的識(shí)別

本文使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)的識(shí)別，卷積神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)機(jī)器學(xué)習(xí)分類器，例如SVM和AdaBoost，具有以下優(yōu)點(diǎn)：

(1)傳統(tǒng)機(jī)器學(xué)習(xí)分類器對(duì)圖像進(jìn)行分類，需要人工提取特征，如SIFT、SURF、PCA-SIFT、HOG、Harris等；得到這些特征的特征向量一般需要很大的計(jì)算量，且還需對(duì)圖像進(jìn)行預(yù)處理操作，而卷積神經(jīng)網(wǎng)絡(luò)的卷積層具有自動(dòng)抽取特征能力，直接將原圖像輸入網(wǎng)絡(luò)即可分類。

(2)卷積神經(jīng)網(wǎng)絡(luò)的不同卷積層可以提取不同層次的特征，且在一定層數(shù)內(nèi)，層數(shù)越深，可以抽取越高層的特征。

(3)同一輛車輛在不同環(huán)境下外觀表現(xiàn)很復(fù)雜，采集器距離、高度、角度、光照等都對(duì)其影響很大，人工設(shè)計(jì)特征算子無(wú)法考慮所有的情況，而卷積神經(jīng)網(wǎng)絡(luò)對(duì)縮放、平移等仿射變換具有很好的抵抗力，從而可有效克服環(huán)境帶來(lái)的影響。

2 改進(jìn)的模型

卷積神經(jīng)網(wǎng)絡(luò)的卷積層可以抽取多量且豐富的圖像特征，并且這些特征一般具有抗仿射變換、平移不變性、旋轉(zhuǎn)不變性、尺度不變性等，而且隨著卷積層數(shù)的增加可以抽取到越來(lái)越高層次的特征，故卷積神經(jīng)網(wǎng)絡(luò)相比淺層網(wǎng)絡(luò)在目標(biāo)識(shí)別領(lǐng)域具有很大的優(yōu)勢(shì)。然而卷積神經(jīng)網(wǎng)絡(luò)的模型計(jì)算量主要集中在卷積層的計(jì)算，因此卷積層數(shù)的增加必然導(dǎo)致計(jì)算量的增加直至無(wú)法滿足實(shí)時(shí)性需求。譬如經(jīng)典的目標(biāo)識(shí)別網(wǎng)絡(luò)AlexNet[14]具有5個(gè)卷積層，其卷積層計(jì)算時(shí)間占整個(gè)網(wǎng)絡(luò)前傳時(shí)間的0.841；ResNet-50[15]具有48個(gè)卷積層，其卷積層計(jì)算時(shí)間占整個(gè)網(wǎng)絡(luò)前傳時(shí)間的0.999。

由于目標(biāo)識(shí)別任務(wù)中，不同目標(biāo)之間的差異性不一樣，有的目標(biāo)之間具有顏色、形狀等明顯差異，有的目標(biāo)之間只有紋理差異，從而識(shí)別過(guò)程中可以考慮具體情況對(duì)于不同類別目標(biāo)的識(shí)別采用提取不同層次的特征進(jìn)行比較的策略來(lái)減少大量的卷積計(jì)算。由此本文針對(duì)車型識(shí)別應(yīng)用，改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型，模型如圖2所示。

2.1 模型介紹

本模型在原始卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)而來(lái)，模型主要由多個(gè)卷積層(包括池化和激活函數(shù)等)和兩個(gè)分類器組成(原始卷積神經(jīng)網(wǎng)絡(luò)只有一個(gè)分類器)。其中分類器1和分類器2分別負(fù)責(zé)不同的任務(wù)，分類器1負(fù)責(zé)對(duì)低層特征進(jìn)行分類，分類器2負(fù)責(zé)對(duì)高層特征進(jìn)行分類，且分類器1與分類器2共享模型前面的卷積層；最終分類結(jié)果由分類器1和分類器2共同決定，計(jì)算公式如下：

(1)

式(1)中，Pres為最終分類結(jié)果，Pclass1和Pclass2分別為分類器1和分類器2的輸出結(jié)果，且都是n維的概率列向量(n對(duì)應(yīng)n個(gè)類別)。Fclass1,Max為Pclass1列向量中的最大值，F(xiàn)class1,Sec為Pclass1列向量中的次大值。ε為閾值，控制最終結(jié)果是否考慮分類器2的結(jié)果。sign(x)函數(shù)是符號(hào)函數(shù)。

圖2中的模型：分類器1對(duì)兩個(gè)卷積層提取的特征進(jìn)行分類，分類器2對(duì)5個(gè)卷積層提取的特征進(jìn)行分類，公共卷積層是前兩個(gè)卷積層。模型也可看成兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)，分別對(duì)應(yīng)粗黑體實(shí)線框中的子模型和虛線框中的子模型，兩個(gè)子模型之間共享部分卷積層且相互牽制。

2.2 模型訓(xùn)練過(guò)程

(1)使用數(shù)據(jù)集前向傳播和反向傳播訓(xùn)練虛線框中的子模型(即一個(gè)普通的卷積神經(jīng)網(wǎng)絡(luò))；

(2)將數(shù)據(jù)集通過(guò)前面的公共卷積層，得到特征數(shù)據(jù)集，使用特征數(shù)據(jù)集訓(xùn)練分類器1，并反向傳播時(shí)微調(diào)公共卷積層參數(shù)。

2.3 模型測(cè)試過(guò)程

(1)對(duì)于一個(gè)測(cè)試用例test，經(jīng)過(guò)兩層卷積層時(shí)，得到的是低層特征；

(2)進(jìn)程1將低層特征輸入到分類器1進(jìn)行分類操作；

(3)進(jìn)程2繼續(xù)高層特征的提取；

(4)若分類器1分類完成，輸出的概率列表中，最大概率與次大概率之間的差值大于某個(gè)閾值，即很大置信度相信低層特征即可分類正確，此時(shí)輸出最大概率類，并終止進(jìn)程2的計(jì)算，進(jìn)行下一測(cè)試用例，即式(2)：

Ctest=P1test

(2)

(5)否則，即辨認(rèn)不出是最大概率類還是次大概率類，則等待虛線框子模塊測(cè)試結(jié)果，最終結(jié)果將由分類器1與分類器2按權(quán)重共同決定，即式(3)：

(3)

上式中(假設(shè)分為5類，向量為5維)，第一個(gè)向量為分類器1輸出的概率向量且只保存最大值與次大值，其他概率項(xiàng)置0(假設(shè)類1和類3分別為最大、次大概率)；第二個(gè)向量為分類器2輸出的概率向量；α和β分別為向量1和向量2的權(quán)重系數(shù)；由于分類器1無(wú)法高置信度地辨認(rèn)最終結(jié)果為最大概率類還是次大概率類，且分類器2對(duì)更高層次特征進(jìn)行分類，因此最終結(jié)果將更偏向于分類器2的結(jié)果，即保證α<β且α+β=1；最終結(jié)果Ctest取向量1與向量2的加權(quán)和。

3 實(shí)驗(yàn)

為了驗(yàn)證所提方法的有效性和可行性，利用OpenCV和Caffe分別進(jìn)行車輛檢測(cè)和車型識(shí)別的實(shí)驗(yàn)。處理器選用因特爾Core i7，8 GB內(nèi)存，顯卡選用英偉達(dá)GEFORCE GTX850M。實(shí)驗(yàn)數(shù)據(jù)為廈門(mén)各路口監(jiān)控視頻，有白天、陰雨天和黑夜的視頻，視頻分辨率為1 280×720，幀率為30幀/s。

3.1 實(shí)驗(yàn)系統(tǒng)架構(gòu)

系統(tǒng)架構(gòu)如下：系統(tǒng)輸入為交通視頻，輸出為5種分類類別，分別為小轎車類別、巴士類別、卡車類別、摩托車類別、非機(jī)動(dòng)車類別。系統(tǒng)工作流程為：系統(tǒng)先通過(guò)運(yùn)動(dòng)目標(biāo)檢測(cè)模塊獲取交通視頻中的運(yùn)動(dòng)目標(biāo)所在區(qū)域的外接矩形圖像，然后進(jìn)行人工標(biāo)注，最后訓(xùn)練和測(cè)試分類模型。系統(tǒng)架構(gòu)如圖3所示。

圖3 系統(tǒng)架構(gòu)圖

3.2 實(shí)驗(yàn)數(shù)據(jù)集

本文以廈門(mén)公路局提供的廈門(mén)各路段監(jiān)控視頻為系統(tǒng)實(shí)驗(yàn)數(shù)據(jù)，所有視頻均為公路實(shí)際監(jiān)控過(guò)程中的真實(shí)視頻。監(jiān)控視頻來(lái)自于三個(gè)鏡頭，每個(gè)鏡頭大約有45 h的監(jiān)控視頻；三個(gè)鏡頭視頻采集角度如圖4所示。

圖4 三個(gè)鏡頭信息

實(shí)驗(yàn)中將三個(gè)鏡頭統(tǒng)一起來(lái)工作，所有視頻經(jīng)過(guò)運(yùn)動(dòng)目標(biāo)檢測(cè)模塊后，檢測(cè)到的有效車輛圖片并人工標(biāo)記的有40 000張。其中各種車型對(duì)應(yīng)的數(shù)量如表1所示。

表1 車輛檢測(cè)模塊檢測(cè)結(jié)果

從巴士車、小轎車、摩托車、卡車中各抽取50%的數(shù)據(jù)作為測(cè)試集；各類剩余50%作為原始訓(xùn)練集。由表1可知，由于巴士車數(shù)量只有小轎車的1/10，直接將原始訓(xùn)練集進(jìn)行分類模型的訓(xùn)練會(huì)有嚴(yán)重的類別不平衡問(wèn)題，故執(zhí)行下列操作：將剩余的1 000張巴士車圖片使用旋轉(zhuǎn)、復(fù)制、翻轉(zhuǎn)等操作增加到10 000張，其他各類類比此操作，從而生成新的訓(xùn)練數(shù)據(jù)集，見(jiàn)表2。非機(jī)動(dòng)車類型包括自行車、行人、背景等。各車型部分樣本見(jiàn)圖5。

表2 運(yùn)動(dòng)目標(biāo)分類模塊數(shù)據(jù)集

圖5 各車型部分樣本

3.3 實(shí)驗(yàn)結(jié)果及分析

由于實(shí)驗(yàn)效果需要對(duì)比，故實(shí)驗(yàn)中不僅訓(xùn)練本文提出的模型，還需訓(xùn)練經(jīng)典的AlexNet模型(原模型輸出1 000類，改變模型輸出5類)與之形成對(duì)比。

在實(shí)驗(yàn)中，訓(xùn)練數(shù)據(jù)集由于類別不平衡做了一些數(shù)據(jù)集擴(kuò)大操作，但是最終訓(xùn)練集也只有50 000張圖片；然而本文提出的模型具有5個(gè)卷積層以及兩個(gè)分類器，從而訓(xùn)練集太小會(huì)導(dǎo)致模型過(guò)擬合，故本實(shí)驗(yàn)中使用遷移學(xué)習(xí)[16]的思想，遷移經(jīng)典模型卷積層參數(shù)作為本實(shí)驗(yàn)?zāi)Ｐ偷某跏蓟瘏?shù)。使用ImageNet龐大的數(shù)據(jù)集訓(xùn)練的AlexNet模型具有很強(qiáng)的圖像特征抽取能力，故本實(shí)驗(yàn)中遷移此模型卷積層的參數(shù)到實(shí)驗(yàn)?zāi)Ｐ蜕希缓笫褂糜?xùn)練集finetune[17]實(shí)驗(yàn)?zāi)Ｐ汀?/p>

圖6和圖7分別描述了實(shí)驗(yàn)?zāi)Ｐ秃虯lexNet模型測(cè)試集上的錯(cuò)誤率和測(cè)試時(shí)間與ε取值的關(guān)系，其中錯(cuò)誤率由式(4)計(jì)算。隨著ε取值由0到1，錯(cuò)誤率整體呈下降趨勢(shì)，最終趨于AlexNet模型的錯(cuò)誤率；批量測(cè)試時(shí)間整體呈上升趨勢(shì)。由分析可知，當(dāng)ε=0時(shí)，實(shí)驗(yàn)?zāi)Ｐ偷葍r(jià)于圖2中粗體實(shí)線框中對(duì)應(yīng)模型，整個(gè)模型只有兩個(gè)卷積層加分類器1，因此模型準(zhǔn)確率較低，但批量測(cè)試時(shí)間較短；當(dāng)ε=1時(shí)，實(shí)驗(yàn)?zāi)Ｐ偷葍r(jià)于圖2中虛線框中對(duì)應(yīng)模型，也就是經(jīng)典的AlexNet模型，因此模型準(zhǔn)確率較高，基本等于AlexNet模型的正確率，但批量測(cè)試時(shí)間很長(zhǎng)，稍微高于AlexNet模型的測(cè)試時(shí)間(這是由于兩個(gè)模塊占用更多計(jì)算機(jī)資源導(dǎo)致的)。聯(lián)合圖6和圖7分析可得，當(dāng)0<ε<1時(shí)，取合適的ε可以使得準(zhǔn)確率基本等于AlexNet模型，但是時(shí)間效率高于AlexNet模型。

表3展示了ε=0.35時(shí)實(shí)驗(yàn)?zāi)Ｐ团cAlexNet模型在分類準(zhǔn)確率和效率上的對(duì)比。實(shí)驗(yàn)?zāi)Ｐ蜏?zhǔn)確率不僅稍高于AlexNet模型，而且批量測(cè)試時(shí)間比AlexNet模型降低了21.99%，因而，模型具有很高的測(cè)試效率。

(4)

4 結(jié)束語(yǔ)

本文針對(duì)車型識(shí)別應(yīng)用，改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)模型。改進(jìn)的模型中，具有5個(gè)卷積層和2個(gè)分類器，2個(gè)分類器分別負(fù)責(zé)對(duì)不同層次的特征進(jìn)行分類，由于提取不同層次特征即分類，故可以節(jié)省部分高層特征提取的時(shí)間。在車型分類的實(shí)驗(yàn)中，本模型分類的正確率不僅不低于AlexNet模型，而且批量測(cè)試效率得到了大幅度的提升。由于本模型準(zhǔn)確率稍高于AlexNet模型，故筆者將在提高準(zhǔn)確率方面做進(jìn)一步研究。

圖6 錯(cuò)誤率與ε取值的關(guān)系圖

圖7 批量測(cè)試時(shí)間與ε取值的關(guān)系圖

車型改進(jìn)的AlexNetAlexNet分類/測(cè)試正確率分類/測(cè)試正確率巴士車964/1 0000.964962/1 0000.962小轎車9 923/10 0000.9929 891/10 0000.989摩托車3 924/4 0000.9813 920/4 0000.980卡車4 635/5 0000.9274 674/5 0000.935非機(jī)動(dòng)車4 690/5 0000.9384 685/5 0000.937合計(jì)24 136/25 0000.965 4424 132/25 0000.965 28總測(cè)試時(shí)間/s845.31 083.7

[1] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction[C]//Proceedings of the 17th International Conference on Pattern Recognition. IEEE, 2004: 28-31.

[3] KAFAI M, BHANU B. Dynamic Bayesian networks for vehicle classification in video[J]. IEEE Transactions on Industrial Informatics, 2012, 8(1): 100-109.

[4] MURPHY K P. Dynamic bayesian networks: representation, inference and learning[D]. Berkeley: University of California, 2002.

[5] KHAMMARI A, NASHASHIBI F, ABRAMSON Y, et al. Vehicle detection combining gradient analysis and AdaBoost classification[C]//Proceedings of the IEEE Intelligence Transportation Systems, 2005: 66-71.

[6] CHEN Z, PEARS N, FREEMAN M, et al. Road vehicle classification using support vector machines[C]// IEEE International Conference on Intelligent Computing and Intelligent Systems. IEEE, 2009: 214-218.

[7] SUYKENS J A K, VANDEWALLE J. Least squares support vector machine classifiers[J]. Neural Processing Letters, 1999, 9(3): 293-300.

[8] Liu Yiguang, You Zhisheng. A neural network for image object recognition and its application to car type recognition[J]. Computer Engineering, 2003, 29(3): 30-32.

[9] WU Y Y, TSAI C M. Pedestrian, bike, motorcycle, and vehicle classification via deep learning: deep belief network and small training set[C]//2016 International Conference on Applied System Innovation (ICASI). IEEE, 2016: 1-4.

[10] HINTON G E. Deep belief networks[J]. Scholarpedia, 2009, 4(5): 5947.

[11] 萬(wàn)纓, 韓毅, 盧漢清. 運(yùn)動(dòng)目標(biāo)檢測(cè)算法的探討[J]. 計(jì)算機(jī)仿真, 2006, 23(10): 221-226.

[12] SUN Z, BEBIS G, MILLER R. On-road vehicle detection: A review[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(5): 694-711.

[13] Zhan Chaohui, Duan Xiaohui, Xu Shuoyu, et al. An improved moving object detection algorithm based on frame difference and edge detection[C]//Fourth International Conference on Image and Graphics. IEEE, 2007: 519-523.

[14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems, 2012: 1097-1105.

[15] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[16] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.

[17] OQUAB M, BOTTOU L, LAPTEV I, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1717-1724.