趙子澳
摘 要:隨著汽車保有量的迅猛增加,人民群眾的日常生活便利性得到了提升。然而交通擁堵、環(huán)境污染和交通事故也越來(lái)越得到人們的廣泛關(guān)注。近些年電子信息和計(jì)算機(jī)技術(shù)得到了快速發(fā)展。伴隨著人工智能技術(shù)在車輛上的應(yīng)用,自動(dòng)駕駛車輛將成為減少交通事故的有效途徑之一。自動(dòng)駕駛車輛關(guān)鍵技術(shù)包括環(huán)境感知、精確定位、路徑規(guī)劃和線控執(zhí)行四類,其中環(huán)境感知技術(shù)為其它關(guān)鍵技術(shù)提供數(shù)據(jù)支撐。環(huán)境感知技術(shù)主要負(fù)責(zé)完成車輛周圍環(huán)境信息采集和目標(biāo)識(shí)別工作。單目相機(jī)由于具備結(jié)構(gòu)簡(jiǎn)單和計(jì)算量小等優(yōu)點(diǎn)而被廣泛使用。
關(guān)鍵詞:深度學(xué)習(xí);機(jī)器視覺(jué);目標(biāo)檢測(cè)
1背景
1.1自動(dòng)駕駛背景及意義
隨著科學(xué)技術(shù)的快速發(fā)展,汽車逐漸成為人民群眾日常生活中不可或缺的交通工具。汽車產(chǎn)業(yè)已經(jīng)成為世界上最重要的行業(yè)之一,并成為很多國(guó)家的支柱產(chǎn)業(yè)。近年來(lái)中國(guó)經(jīng)濟(jì)穩(wěn)步高質(zhì)量發(fā)展,汽車保有量快速攀升。根據(jù)生態(tài)環(huán)境部發(fā)布的《中國(guó)機(jī)動(dòng)車環(huán)境管理年報(bào)(2018)》顯示,截至2017年末,機(jī)動(dòng)車總計(jì)為29836.0萬(wàn)輛,其中汽車20816.0萬(wàn)輛叫汽車保有量的迅猛增加雖然給群眾的日常生活帶來(lái)了便利,但是卻導(dǎo)致了交通擁堵、環(huán)境污染和交通事故。交通事故問(wèn)題顯得尤為重要,因?yàn)樗殡S著人員傷亡。根據(jù)2017年底發(fā)布的《道路交通運(yùn)輸安全發(fā)展報(bào)告》顯示,2016年交管部門接收的道路交通事故總計(jì)864.3 萬(wàn)起,同比上升16.5%。在人類駕駛員面對(duì)道路突發(fā)狀況時(shí),由于感知和操控 能力的局限性,導(dǎo)致人類駕駛員很難在短時(shí)間內(nèi)識(shí)別道路狀況并做出合理的決策 [3],這是造成交通事故的重要原因。
傳統(tǒng)單目視覺(jué)目標(biāo)識(shí)別技術(shù)主要依靠手工設(shè)計(jì)特征來(lái)構(gòu)建模型,模型的質(zhì)量取決于設(shè)計(jì)者的先驗(yàn)知識(shí),因此這類算法的識(shí)別正確率不高。此外需要對(duì)不同類別的目標(biāo)設(shè)計(jì)模型,因此這類算法的泛化能力不足。深度學(xué)習(xí)算法是機(jī)器學(xué)習(xí)研究領(lǐng)域的研究熱點(diǎn)之一,深度學(xué)習(xí)算法為機(jī)器視覺(jué)帶來(lái)了革命性的進(jìn)步。由于該技術(shù)對(duì)數(shù)據(jù)學(xué)習(xí)能力很強(qiáng),因此顯著 提高了識(shí)別正確率。特別是訓(xùn)練得到的模型與輸入數(shù)據(jù)相關(guān),無(wú)需對(duì)各類別目標(biāo) 進(jìn)行模型構(gòu)建,所以其泛化能力更好。綜上所述,對(duì)基于深度學(xué)習(xí)的自動(dòng)駕駛單目視覺(jué)目標(biāo)識(shí)別關(guān)鍵技術(shù)研究具有重要意義。
1.2研究?jī)?nèi)容
本課題基于運(yùn)動(dòng)目標(biāo)自主監(jiān)視系統(tǒng)的算法研究,使用Python語(yǔ)言O(shè)penCV 庫(kù),設(shè)計(jì)開發(fā)了動(dòng)目標(biāo)自主監(jiān)視技術(shù)平臺(tái),驗(yàn)證了算法的可行性。并使用紅外圖像進(jìn)行實(shí)驗(yàn)驗(yàn)證,最后分析比較了地面智能化處理服務(wù)器和星上資源環(huán)境的約束條件。地面智能化處理服務(wù)器集成了高密度GPU 模塊,將單幀圖片的處理能力提升到0.12s甚至0.06s,硬件架構(gòu)、重量、功耗、 工作溫度等均可具備星上工作的可能性,人工智能算法和硬件資源架構(gòu)在星上約束條件下完成大數(shù)據(jù)智能化處理提供支持。
2識(shí)別算法基礎(chǔ)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是一種基于人類大腦認(rèn)知原理的多層神經(jīng)網(wǎng)絡(luò),通過(guò)計(jì)算機(jī)卷積核的卷積處理,將大數(shù)據(jù)量的圖像目標(biāo) 識(shí)別問(wèn)題降維,從圖像中學(xué)習(xí),自主提取目標(biāo)深度信息作為特征向量。最典型的卷積神經(jīng)網(wǎng)絡(luò)有卷積層、池化層、全連接層組成,在語(yǔ)音識(shí)別、自然語(yǔ)言處理、 計(jì)算機(jī)視覺(jué)、通用物體識(shí)別、人臉識(shí)別等領(lǐng)域均有很好的識(shí)別效果。卷積神經(jīng) 網(wǎng)絡(luò)的結(jié)構(gòu)如圖所示:
卷積層是使用卷積核來(lái)對(duì)輸入圖像進(jìn)行卷積操作,將一個(gè)小的滑動(dòng)窗口過(guò)濾圖像各個(gè)小區(qū)域,得到各個(gè)區(qū)域的特征值,并將卷積組合輸出,提取輸入數(shù)據(jù)的特征。卷積核在訓(xùn)練過(guò)程中學(xué)習(xí)得到卷積核的參數(shù)值。大多數(shù)情況下,使用非線性激活函數(shù)來(lái)轉(zhuǎn)換輸出,使輸出模型可以得到非線性特性,并且將輸出限制在給定的范圍內(nèi)。
池化層是在卷積層之后,對(duì)輸入的圖像數(shù)據(jù)樣本進(jìn)行下采樣,將下采樣的結(jié)果作為池化層的輸出結(jié)果,降低了數(shù)據(jù)維度,例如大小為20 X 20的原始圖像, 使用4X4大小的采樣窗口,最終將其下采樣成一個(gè)大小為5x5的特征圖,在實(shí) 際操作中,池化層下采樣方法可以使用最大值下采樣和平均值下采樣兩種方法。 在下采樣過(guò)程中,即使丟失了一定的數(shù)據(jù)信息,但是從統(tǒng)計(jì)屬性上來(lái)看,特征依然能夠描述圖像,并且在降低數(shù)據(jù)維度的同時(shí),更能有效地避免過(guò)擬合現(xiàn)象。
全連接層出現(xiàn)在所有的卷積層和池化層之后,卷積層和池化層完成圖像特征提取、降維等任務(wù),全連接層則是將特征整合到一起,輸出為一個(gè)值,完成分類任務(wù)。在卷積神經(jīng)網(wǎng)絡(luò)中,全連接層有兩層或以上1 X4096卷全積結(jié)構(gòu),可以有效地解決非線性問(wèn)題。但是全連接層參數(shù)眾多,占整個(gè)網(wǎng)絡(luò)總參數(shù)80%左右,影響網(wǎng)絡(luò)工作效率,因此近年來(lái)ResNet和GoogleNet等性能優(yōu)越的網(wǎng)絡(luò)均采用全局平均池化(global average pooling, GAP)結(jié)構(gòu)替代全連接層,以此融合圖像深 度特征,具備更好的檢測(cè)性能。
在提出典型的 CNN 算法之后,R-CNN、SPP-net> Fast R-CNN 和 Faster R- CNN網(wǎng)絡(luò)結(jié)構(gòu)相繼提出,網(wǎng)絡(luò)結(jié)構(gòu)逐步改進(jìn),在圖像處理任務(wù)中,高效準(zhǔn)確地 實(shí)現(xiàn)了目標(biāo)檢測(cè)與識(shí)別。
3 目標(biāo)自主監(jiān)視算法實(shí)現(xiàn)
3.1特定目標(biāo)識(shí)別算法原理
多目標(biāo)自主識(shí)別算法采用深度學(xué)習(xí)算法識(shí)別每一幀圖像中的多種目標(biāo)。深度學(xué)習(xí)網(wǎng)絡(luò)近年來(lái)迅速發(fā)展,在圖像識(shí)別領(lǐng)域應(yīng)用廣泛,CNN、R-CNN、SPP-net> Fast R-CNN和Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)相繼提出,網(wǎng)絡(luò)結(jié)構(gòu)逐步改進(jìn),在圖像處理任務(wù)中,高效準(zhǔn)確地實(shí)現(xiàn)了目標(biāo)檢測(cè)與識(shí)別。本文將采用Faster R-CNN網(wǎng)絡(luò)模型,設(shè)計(jì)多目標(biāo)自主識(shí)別模型,F(xiàn)asterR-CNN網(wǎng)絡(luò)從R-CNN網(wǎng)絡(luò)上進(jìn)一步改進(jìn)而來(lái),引入候選區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN),與分類網(wǎng)絡(luò) 共享卷積層,提高檢測(cè)準(zhǔn)確率和檢測(cè)速度。
R-CNN可以有效地組合圖像的特征自主提取圖像的深度特征,再進(jìn)一步輸入分類器中進(jìn)行分類。其網(wǎng)絡(luò)結(jié)構(gòu)主要包括4個(gè)模塊,分別為選擇搜索獲取區(qū)域模塊,在圖像中確定約1000-2000個(gè)候選框;圖像特征提取模塊對(duì)各個(gè)圖像候選 區(qū)域使用深度網(wǎng)絡(luò)提取特征;特征分類模塊利用支持向量機(jī)對(duì)提取的特征進(jìn)行分類;回歸器微調(diào)模塊,對(duì)屬于某一特征的候選框,用回歸器進(jìn)一步微調(diào),調(diào)整候選框的位置。
在R-CNN網(wǎng)絡(luò)的基礎(chǔ)上,F(xiàn)astR-CNN網(wǎng)絡(luò)直接對(duì)整張圖片卷積計(jì)算,所有的候選區(qū)域共享卷積計(jì)算;引入空間金字塔池化,為不同尺寸區(qū)域提取特征,實(shí)現(xiàn)端到端訓(xùn)練,微調(diào)所有卷積層的參數(shù);引入感興趣區(qū)域池化和多任務(wù)損失函數(shù), 獲得更高的訓(xùn)練測(cè)試速度和檢測(cè)準(zhǔn)確率。
Faster R-CNN算法主要包含RPN候選框提取模塊和Fast R-CNN檢測(cè)模塊, RPN和FastR-CNN網(wǎng)絡(luò)共用卷積層訓(xùn)練網(wǎng)絡(luò)。本文采用的方法是使用殘差網(wǎng)絡(luò) 結(jié)構(gòu)作為基礎(chǔ)網(wǎng)絡(luò)構(gòu)建前五個(gè)卷積層,在第五層拿到卷積特征圖后,再采用交替訓(xùn)練的方法同時(shí)共享訓(xùn)練兩個(gè)卷積層網(wǎng)絡(luò),節(jié)省訓(xùn)練時(shí)間。訓(xùn)練主要分為四步:
Stepl:采用殘差模型初始化參數(shù),訓(xùn)練RPN網(wǎng)絡(luò)。
Step2:利用RPN網(wǎng)絡(luò)得到候選區(qū)域建議框,利用FastR-CNN單獨(dú)訓(xùn)練檢測(cè) 網(wǎng)絡(luò),由殘差模型初始化參數(shù)。
Step3:使用檢測(cè)網(wǎng)絡(luò)初始化RPN的訓(xùn)練,保持共享卷積層不變,微調(diào)RPN 獨(dú)有的卷積層。
Step4:保持共享卷積層不變,微調(diào)Fast R-CNN獨(dú)有的卷積層,構(gòu)成統(tǒng)一的 Faster R-CNN 網(wǎng)絡(luò)。
3.2實(shí)驗(yàn)算法結(jié)構(gòu)
本節(jié)實(shí)驗(yàn)內(nèi)容利用FasterR-CNN的網(wǎng)絡(luò)模型,在遙感數(shù)據(jù)圖像上進(jìn)行測(cè)試, 對(duì)遙感航拍數(shù)據(jù)中的飛機(jī)目標(biāo)、艦船目標(biāo)進(jìn)行檢測(cè)、識(shí)別。本節(jié)實(shí)驗(yàn)的算法設(shè)計(jì)結(jié)構(gòu)如圖3-15所示:
訓(xùn)練數(shù)據(jù)采用可擴(kuò)展標(biāo)記語(yǔ)言,用于記錄訓(xùn)練數(shù)據(jù)集中圖像中的目標(biāo)位置、 目標(biāo)類型等信息,方便計(jì)算機(jī)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行讀取和處理。將標(biāo)記好的訓(xùn)練圖像和生成的記錄數(shù)據(jù)信息的標(biāo)記文件讀入網(wǎng)絡(luò)模型,進(jìn)行訓(xùn)練,得到訓(xùn)練好的網(wǎng)絡(luò)模型用于對(duì)測(cè)試數(shù)據(jù)進(jìn)行測(cè)試,識(shí)別圖像中的目標(biāo)。
實(shí)驗(yàn)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的樣本分布如表3-4所示:
3.3實(shí)驗(yàn)結(jié)果
該方法在同一監(jiān)視區(qū)域內(nèi),同時(shí)檢測(cè)識(shí)別出多種不同目標(biāo),彌補(bǔ)了多目標(biāo)檢測(cè)算法不具備識(shí)別能力的缺陷,擴(kuò)充了特定目標(biāo)識(shí)別算法識(shí)別的目標(biāo)種類單一的缺陷,該方法可以同時(shí)在監(jiān)視區(qū)域內(nèi)檢測(cè)識(shí)別出多種目標(biāo),使用可見光和紅外圖像數(shù)據(jù)集中進(jìn)行訓(xùn)練,最終在可見光和紅外圖像數(shù)據(jù)集的測(cè)試 實(shí)驗(yàn)中達(dá)到了 91.89%的平均識(shí)別準(zhǔn)確率,以此驗(yàn)證了該算法在可以較好地反應(yīng) 圖像目標(biāo)形狀信息的可見、紅外圖像上的檢測(cè)識(shí)別能力,滿足自主監(jiān)視技術(shù)的算法要求。
4課題總結(jié)
文主要研究了運(yùn)動(dòng)目標(biāo)自主監(jiān)視技術(shù)中目標(biāo)檢測(cè)、目標(biāo)跟蹤和目標(biāo)識(shí)別算法,設(shè)計(jì)完成多目標(biāo)檢測(cè)跟蹤軟件界面和特定目標(biāo)檢測(cè)識(shí)別軟件界面。研究分析基于人工智能算法的運(yùn)動(dòng)目標(biāo)檢測(cè)識(shí)別算法天基平臺(tái)/汽車平臺(tái)應(yīng)用可行性。
本文提出的多目標(biāo)自主檢測(cè)識(shí)別算法將深度學(xué)習(xí)中Faster R-CNN網(wǎng)絡(luò)算法應(yīng)用在自主目標(biāo)監(jiān)視技術(shù)中,在本文實(shí)驗(yàn)所使用的可見和紅外圖像數(shù)據(jù)集中進(jìn)行訓(xùn)練,并最終在該實(shí)驗(yàn)數(shù)據(jù)集的飛機(jī)、艦船、行人和汽車目標(biāo)檢測(cè)實(shí)驗(yàn)中達(dá)到了 91.89%的平均識(shí)別準(zhǔn)確率,該方法具備在目標(biāo)圖像形狀信息較好的可見光、紅外圖像上目標(biāo)識(shí)別能力。該方法在地面實(shí)驗(yàn)硬件條件下,檢測(cè)時(shí)間為0.7s,在具備 包含GPU處理模塊的硬件信息處理平臺(tái),實(shí)時(shí)檢測(cè)時(shí)間可以達(dá)到0.12s甚至0.06s, 滿足自主視頻監(jiān)視的實(shí)時(shí)性要求。
參考文獻(xiàn):
[1]米立根.信息技術(shù):現(xiàn)代社會(huì)的變形術(shù)[M].軍事科學(xué)出版社,2003.
[2]郭嘉凱.人工智能時(shí)代,英特爾加速前行[J].軟件和集成電路,2017(7):88-88.
[3]齊敏,李大健郝重陽(yáng).模式識(shí)別導(dǎo)論[M].清華大學(xué)出版社,2010.
[4]曹英楠,楊耀.機(jī)動(dòng)車已成空氣污染重要來(lái)源[J].生態(tài)經(jīng)濟(jì),2018,9
[5]宋欣奕.道路交通運(yùn)輸安全研究?jī)?nèi)容界定分析[J].汽車實(shí)用技術(shù),2017, 11: 87-89.