999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于YOLO網絡的行人檢測方法

2018-05-30 01:26:44李少波陳濟楠李政杰
計算機工程 2018年5期
關鍵詞:特征檢測

高 宗,李少波,b,陳濟楠,李政杰

(貴州大學 a.現代制造技術教育部重點實驗室; b.機械工程學院,貴陽 550025)

0 概述

行人檢測是目標檢測領域的重要分支。近年來在視頻監控、汽車輔助駕駛和智能機器人等方面得到了廣泛關注。行人檢測技術經過幾十年的研究發展,在檢測精度和速度上都取得了很大的進展。主流的行人檢測模型[1]主要有可變形部件模型 (Deformable Part Models,DPM)、深度網絡 (Deep Network,DN)、決策樹(Decision Forest,DF)?;谶@3種結構的檢測方法各有特點,均可在行人檢測上得到相似的最優結果。目前對于這3種模型孰優孰劣尚無論斷。

傳統的行人檢測方法基于人工設計的特征提取器,通過提取Haar特征、方向梯度直方圖(Histogram of Oriented Gradient,HOG)、局部二值模式(Local Binary Pattern,LBP)等訓練分類器,以達到行人檢測的目的,在行人檢測任務中取得了令人矚目成果。例如文獻[2]利用HOG+LBP特征處理行人遮擋,提高檢測準確率。文獻[3]和文獻[4]分別提出積分通道特征(Integral Channel Features,ICF)和聚合通道特征(Aggregated Channel Features,ACF),融合梯度直方圖、LUV色彩特征和梯度幅值特征,獲得了性能更好的行人特征表達。但人工設計的行人特征很難適應行人的大幅度變化。深度網絡模型可以從圖像像素中學習特征,提高行人檢測器性能。文獻[5]提出的卷積神經網絡檢測方法,運用基于卷積稀疏編碼的無監督方法預訓練卷積網絡,用訓練好的模型進行行人檢測。文獻[6]通過探究不同的網絡深度、卷積核大小以及特征維度對行人檢測結果的影響,構建了基于卷積神經網絡的行人分類器,但該檢測器不具備目標定位的功能。文獻[7-8]提出運用深度模型學習不同身體部位特征來解決行人遮擋問題,并根據不同部位間的相互約束完成行人檢測。深度網絡模型也在行人檢測領域得到了深入運用,隨著大規模訓練數據集的構建以及硬件計算能力的不斷增強,深度網絡結構在不同的視覺任務中取得了巨大的成功。在目標檢測方面,從RCNN[9]、SPP-Net[10]、Fast-RCNN[11]、Faster-RCNN[12]到YOLO[13],目標檢測的準確率和速度都達到了新的高度。其中YOLO網絡是目前最優秀的目標檢測架構之一,在檢測實時性方面表現尤為突出。

本文借鑒目標檢測領域先進的研究成果,提出將YOLO網絡結構用于行人檢測,聚類選取初始候選框,重組特征圖,擴展橫向候選框數量,構建基于YOLO網絡的行人檢測器YOLO-P。

1 檢測方法

基于YOLO網絡的檢測方法將候選框提取、特征提取、目標分類、目標定位統一于一個神經網絡中。神經網絡直接從圖像中提取候選區域,通過整幅圖像特征來預測行人位置和概率。將行人檢測問題轉化為回歸問題,真正實現端到端(end to end)的檢測。

行人檢測就是對輸入的圖像或視頻,進行候選框提取,判斷其中是否包含行人,若有給出其位置。而事實上,大部分的候選框中并不包含行人,如若對每個候選框都直接預測行人概率,無疑增加了網絡學習的難度。在YOLO-P的檢測方法中,將檢測分為3個過程,即候選框的提取、待測目標檢測、行人檢測與定位。在待測目標檢測的過程中,將部分預測框的置信度置為0,以降低網絡學習的難度。

1.1 候選框的提取

將輸入的圖像劃分為M×N個單元格,每個單元格給定B個不同規格的初始候選框,如圖1所示,預測候選框經由卷積層網絡提取出來,每幅圖像候選框數量為M×N×B。

圖1 YOLO-P行人檢測過程

1.2 待測目標檢測

首先對候選框進行目標檢測,預測每個候選框的中存在待判別目標的置信度Conf(Object),將不存在目標物的候選框置信度置為0。

1.3 行人檢測與定位

對存在目標物的候選框進行行人判別,設預測目標物是行人的條件概率為Pr(Person|Object),則候選框中包含行人的置信度Conf:

對每個候選框預測其中包含行人的概率以及邊界框的位置,則每個候選框輸出的預測值為:

[X,Y,W,H,Conf(Object),Conf]

其中,X、Y為預測框中心相對于單元格邊界的偏移,W、H為預測框寬高相對于整幅圖像之比。對于輸入的每幅圖片,最終網絡輸出為向量:

M×N×B×[X,Y,W,H,Conf(Object),Conf]

2 網絡架構

本文網絡以YOLO網絡為原型,其采用區域建議網絡(Regions Proposal Network,RPN)的思想,去掉全連接層,采用卷積層來預測目標框的偏移和置信度。對特征圖中的每個位置預測這些偏移和置信度,以得到行人目標的概率和位置。

2.1 多級特征圖融合

行人特征在深度學習網絡中展現出結構性,高層的特征抽象程度高,表達出行人的整體特征,中層的特征相對具體,表達出行人的局部特征。結合不同細粒度特征,可以增加行人檢測的魯棒性。為提高對小目標的檢測,融合多級特征圖,讓不同細粒度的特征參與行人檢測,構成YOLOv2[14]網絡,結構如圖2所示。

圖2 YOLOv2網絡結構

2.2 橫向候選框擴展

在YOLO檢測方法中,圖像被分成S×S的網格。候選框在X和Y軸上同等密度分布,對人群進行檢測時,漏檢率較高。實際上,行人在圖像中呈現X軸上分布更密集,Y軸上分布相對稀疏的特點,如圖3所示。針對這一問題,本文提出在網絡中增加一個reorg層,重組特征圖,增加候選框在X軸方向的密度,同時減少Y軸方向候選框密度,構成YOLO-P網絡(如圖4所示)。

圖3 行人在圖像中分布情況

圖4 YOLO-P網絡結構

用于行人檢測的YOLO-P網絡模型,輸入圖像分辨率為448像素×448像素,若為每個網格選定4個初始候選框,則YOLO-P網絡輸出是大小為28×7×24的一組向量。

3 網絡訓練

以開源的神經網絡框架Darknet為基礎,以YOLO-P網絡結構為模型,訓練行人檢測器。為加快訓練速度和防止過擬合,選用的沖量常數0.9,權值衰減系數為0.000 5。學習率采用多分步策略。

3.1 預訓練

為減少訓練時間,以Darknet19網絡模型訓練得到的網絡參數初始化卷積層網絡。該預訓練模型由圖2中的前23層網絡后接一個平均池化層和一個全連接層構成,在ImageNet1000數據集訓練10個循環(epoch)后得到預訓練參數。

3.2 訓練集

基于卷積神經網絡的行人檢測方法需要從大量樣本中學習行人特征,若樣本集不具有代表性,很難選擇出好的特征。本文以INRIA行人檢測數據集作為訓練和測試數據集。

INRIA行人檢測數據集是目前使用最廣泛的靜態行人檢測數據庫之一,分為訓練數據集和測試數據集。訓練數據集包含正樣本圖像614張,行人數目為1 237個;測試數據集包含正樣本圖像288張,行人數目為589個。圖像光照變化明顯,目標尺度變化大、行人姿態豐富、外觀服飾變化多、背景復雜且有不同程度的遮擋。

3.3 初始候選框

在訓練網絡時,需要預設候選框的初始規格及數量。隨著迭代次數不斷增加,網絡學習到行人特征,預測框參數不斷調整,最終接近真實框。為加快收斂速度,提高行人檢測的位置精度,分析圖像中行人的寬高特點,用K-means方法進行聚類,得到與圖像中行人邊界最相近的初始候選框參數。

一般K-means聚類采用歐式距離衡量兩點之間的距離。本文對候選框寬高與單位網格長度之比進行聚類。預測框和真實框的交并比(Intersection-Over-Union,IOU)是反映預測框與真實框差異的重要指標,IOU值越大,表明兩者差異越小,“距離”越近。聚類的目標函數為:

其中,i為聚類的類別數,j為樣本集數量,Box[i]表示聚類得到的預測框i的規格,規格在數值上表示為一組數值:(預測框寬/圖像寬,預測框高/圖像框高),Truth[j]表示樣本j中行人定位框規格。

4 實驗結果及分析

本文實驗環境為:Intel Xeon CPU E5-1620 V3 3.5 GHz,16 GB內存,Nvidia Geforce GTX1080,Ubuntu16.04,64位操作系統。在該實驗環境下,YOLO-P檢測器的檢測速度達到25 frame/s,滿足實時性要求。

4.1 聚類選取初始候選框的有效性驗證

為驗證聚類選取初始候選框的規格和數量對行人檢測器的影響,選擇INRIA的訓練和測試數據作為實驗數據,以YOLOv2網絡訓練行人檢測器。

1)對INRIA的行人數據的真實框以3.3節中所述K-means方法聚類,聚類類別數量B分別設定為3、4、5、6,聚類值為行人真實框寬高分別與圖像寬高之比。將聚類的結果(如表1所示)作為網絡訓練候選框的初始規格。

表1 INRIA數據集上行人真實框聚類結果

2)每組實驗均選用YOLOv2網絡作為訓練行人檢測器的網絡,以排除其他因素的干擾。

3)每組實驗均選用INRIA數據集進行訓練和檢測。檢測結果如圖5所示,以平均每張圖片誤檢數(False Positive Per Image,FPPI)作為橫坐標,漏檢率(Miss-rate)作為縱坐標。

圖5 不同聚類數量對檢測器的影響

從圖5可以看出,通過聚類選取初始候選框后,檢測器的漏檢得到了明顯改善。其中,將B=4的聚類結果作為初始候選框,訓練得到的檢測器得到了最好的檢測結果。但需要注意該聚類結果僅反映的是INRIA數據集上行人的寬高特點,對其他數據集可能并不適用。

4.2 橫軸候選框擴展的有效性驗證

為驗證本文提出的增加橫軸方向候選框數量可以提高檢測器性能的有效性。以INRIA數據集作為實驗數據,比較YOLOv2網絡和YOLO-P網絡所訓練的檢測器的效果。

從圖6可以看出,在FPPI相同時,YOLO-P檢測器的漏檢率明顯低于YOLOv2檢測器。當FPPI為0.1時,YOLO-P檢測器的漏檢率為8.7%,較YOLOv2檢測器降低了2.5%。

圖6 YOLOv2與YOLO-P檢測結果對比

4.3 結果對比

與當前具有代表性的行人檢測方法[15-18]進行比較,驗證YOLO-P檢測方法的有效性。所有檢測結果均在INRIA數據集上訓練測試得到。檢測器的優劣可以通過LAMR[19](Log-Average Miss Rate)指標評判。LAMR反映的是FPPI在[10-2,102]上的總體漏檢情況。

從圖7可以看出,YOLO-P檢測方法在LAMR指標評價中取得了最好的結果。在FPPI小于0.1時,漏檢率較其他檢測方法顯著降低。原因在于大多檢測方法采用的是人工設計的特征提取器(如HOG、LBP特征提取),行人特征表達不夠充分,在進行行人檢測時,“虛警”更多;而YOLO-P檢測方法由卷積網絡自學習行人特征,對行人特征表達更優秀。

圖7 各檢測方法在INRIA數據集上測試結果對比

真實框與預測框的交并比(IOU)是反映行人檢測定位準確性的重要指標,值越大,表明定位準確性越高。比較各檢測方法預測結果的平均交并比(Average_IOU),如圖8所示,YOLO-P檢測器表現出了最好的定位準確性。

圖8 各檢測方法的平均交并比對比

5 結束語

本文提出將YOLO網絡架構用于行人檢測,分析行人在圖像中的分布特點,改進網絡后得到YOLO-P結構,以達到行人目標實時檢測的目的。實驗結果表明,該檢測方法具有較好的檢測準確率和定位準確性。但是,該檢測方法在Caltech[20]行人數據集上的檢測效果并不理想。主要原因是:檢測方法僅將靜態圖片的信息作為檢測依據,信息來源較為單一;將行人檢測看作二值分類問題,對行人動態變化的檢測具有較大局限性。近年來,很多學者努力提取更多信息輔助檢測,如光流信息、環境信息等,提高特征表達能力,這是行人檢測發展的重要方向,也是下一步的研究重點。

[1] BENENSON R,OMRAN M,HOSANG J,et al.Ten years of pedestrian detection,what have we learned?[J].Computer Vision,2014,8926:613-627.

[2] WANG Xiaoyu,HAN T X,YAN Shuicheng.An HOG-LBP human detector with partial occlusion handling[C]//Proceedings of IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2009:32-39.

[4] DOLLAR P,APPEL R,BELONGIE S,et al.Fast feature pyramids for object detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,36(8):1532-1545.

[5] SERMANET P,KAVUKCUOGLU K,CHINTALA S,et al.Pedestrian detection with unsupervised multi-stage feature learning[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.[S.1.]:IEEE Computer Society,2013:3626-3633.

[6] 芮 挺,費建超,周 遊,等.基于深度卷積神經網絡的行人檢測[J].計算機工程與應用,2016,52(13):162-166.

[7] WANG Xiaogang,OUYANG Wanli.A discriminative deep model for pedestrian detection with occlusion handling[C]//Proceedings of IEEE International Conference Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2012:3258-3265.

[8] WANG Xiaogang,OUYANG Wanli.Joint deep learning for pedestrian detection[C]//Proceedings of IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2013:2056-2063.

[9] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[EB/OL].[2013-11-11].https://arxiv.org/abs/1311.2524.

[10] HE Kaiming,ZHANG Xianyu,REN Shaoqing,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(9):1904-1916.

[11] GIRSHICK R.Fast R-CNN[C]//Proceedings of IEEE International Conference on Computer Vision.Washington D.C.,USA:IEEE Press,2015:1440-1448.

[12] REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015:1-1.

[13] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:unified,real-time object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Computer Society:2016:779-788.

[14] REDMON J,FARHADI A.YOLO9000:better,faster,stronger[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Computer Society,2017:6517-6525.

[15] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Proceedings of Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2005:886-893.

[16] FELZENSZWALB P,MCALLESTER D,RAMANAN D.A discriminatively trained,multiscale,deformable part model[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2008:1-8.

[17] CHEN Guang,DING Yuanyuan,XIAO Jing,et al.Detection evolution with multi-order contextual co-occurrence[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Computer Society,2013:1798-1805.

[18] ZHANG Shanshan,BENENSON R,OMRAN M,et al.How far are we from solving pedestrian detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Computer Society,2016:1259-1267.

[19] WOJEK C,DOLLAR P,SCHIELE B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(4):743-761.

[20] DOLLAR P,WOJEK C,SCHIELE B,et al.Pedestrian detection:a benchmark[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Washington D.C.,USA:IEEE Press,2009:304-311.

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 亚洲av无码片一区二区三区| 久久综合九九亚洲一区 | 国产无码高清视频不卡| 精品欧美一区二区三区在线| 波多野结衣AV无码久久一区| 国产精品尤物在线| 国产精品区网红主播在线观看| 精品91在线| 亚洲视频欧美不卡| 亚洲精品另类| 456亚洲人成高清在线| 91精品视频播放| 欧美有码在线| 国产欧美日韩在线在线不卡视频| 久久香蕉欧美精品| 99久久国产综合精品2023| 国产小视频在线高清播放| 亚洲不卡影院| 日韩免费无码人妻系列| 国产喷水视频| 日本爱爱精品一区二区| 小13箩利洗澡无码视频免费网站| 97视频免费在线观看| 欧美亚洲国产视频| 亚洲成人在线免费观看| 亚洲国产看片基地久久1024| 3p叠罗汉国产精品久久| 欧美在线一二区| 国产区在线观看视频| 毛片免费网址| 日本a级免费| 丰满人妻中出白浆| 九九这里只有精品视频| 狠狠色综合网| 国产欧美日韩综合在线第一| a级毛片一区二区免费视频| av一区二区无码在线| 亚洲国产成人综合精品2020| 日韩区欧美国产区在线观看| 香蕉视频在线观看www| 亚洲男人的天堂在线观看| 国产女人爽到高潮的免费视频| 国产香蕉在线| 一级做a爰片久久毛片毛片| 99人妻碰碰碰久久久久禁片| 一区二区偷拍美女撒尿视频| 国产精品亚欧美一区二区| 国产资源免费观看| 乱人伦99久久| 99视频在线观看免费| 五月激情综合网| 欧美日韩专区| 丁香五月婷婷激情基地| 一级全免费视频播放| 欧美a在线看| 亚洲一级色| 欧美视频在线不卡| 亚洲码一区二区三区| 亚洲无码高清一区| 国产亚洲高清在线精品99| 天天摸夜夜操| 亚洲电影天堂在线国语对白| 亚洲第一中文字幕| 人妻中文久热无码丝袜| 国产成人盗摄精品| 欧美a级在线| 日韩无码黄色| 国产精品观看视频免费完整版| 91在线视频福利| 国产农村妇女精品一二区| 亚洲天堂2014| yjizz视频最新网站在线| 精品三级网站| 4虎影视国产在线观看精品| 免费A级毛片无码无遮挡| 98超碰在线观看| 亚洲美女一区| 欧洲极品无码一区二区三区| 天天摸天天操免费播放小视频| 国产菊爆视频在线观看| 久热99这里只有精品视频6| 狠狠做深爱婷婷综合一区|