999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進SSD的行人檢測方法

2018-11-20 06:09:16邢浩強杜志岐
計算機工程 2018年11期
關鍵詞:特征融合檢測

邢浩強,杜志岐,蘇 波

(中國北方車輛研究所,北京 100072)

0 概述

行人檢測作為計算機視覺領域的研究熱點,在車輛高級駕駛輔助系統、視頻監控、安全檢查以及反恐防暴等方面有著重要應用。 在過去的幾十年里,研究人員針對行人檢測問題做了大量探索與研究并取得一系列成果。目前行人檢測主要分為基于人工設計特征和基于神經網絡特征的2種檢測方法。

文獻[1]建立了根模型和部件模型來表示物體,并將2種方法的匹配結果作為最終的行人檢測結果。文獻[2]使用包含歸一化梯度幅值、梯度方向直方圖特征等10個聚合通道特征,訓練了由2 048個決策樹狀組成的強分類器以減少模型分類時間。文獻[3]提出了基于感興趣區域梯度直方圖的行人檢測方法,分別在頭部及四肢等重點區域計算梯度方向直方圖,減少了向量維數。文獻[4]將人臉檢測中級聯檢測框架引入到行人檢測中,采用Gentle AdaBoost方法進行分類器訓練,提高了檢測效率。 以上基于人工設計特征的行人檢測方法在諸多行人檢測問題中都取得了良好的檢測效果,但也有明顯的不足。 這類方法的特征依賴對行人檢測問題的理解與設計經驗。 此外這些人工設計的特征也僅僅側重于某類或某幾類特點,很難全面兼顧多種工況下的檢測任務。

深度學習是近年來興起的技術,計算機視覺領域也在不斷地探索將其應用于圖像處理、目標檢測與識別等問題中。文獻[5]將支持向量機(Support Vector Machine,SVM)方法與LeNet神經網絡融合,通過SVM提取特征并通過卷積神經網絡(Convdutional Neura Network,CNN)剔除誤檢窗口,實現了較高的召回率和準確率。文獻[6]提出了一種包含大量人體部件檢測器的檢測框架,能夠通過較少量的監督數據來進行訓練,對于遮擋情況下的行人檢測問題有較好的檢測效果。文獻[7]提出一種基于CNN的隱式訓練模型,通過結合多部件檢測模塊降低計算復雜度,在INRIA數據集上獲得98%的檢測準確率。 然而上述基于深度學習的方法在通過神經網絡逐層提取行人特征時,認為該特征僅與前一層有關,忽略了其余特征層的作用。此外,該類方法在對行人目標進行預測時往往將特征層孤立開來,影響了檢測結果的魯棒性與準確性。

為解決上述問題,本文提出一種基于改進SSD(Single Shot Multibox Detector)的行人檢測方法。該方法的網絡結構以文獻[8]中通用目標檢測模型SSD為基礎,結合行人檢測任務特點進行優化與改進。

1 原始SSD方法及其存在的問題

1.1 原始SSD方法模型結構

原始SSD模型主要由4部分組成:基礎網絡部分,附加特征提取層部分,原始包圍框生成部分和卷積預測部分。其工作原理如下:首先將不同尺寸的圖片變換為300×300像素的尺寸輸入模型; 輸入圖像經過基礎網絡與附加特征提取部分后得到原始圖像的大量卷積特征;選擇部分特征層作為目標預測的依據,分別經過原始包圍框生成部分和卷積預測部分得到大量多尺度原始包圍框和各卷積層在每個位置處的包圍框修正值與預測概率;根據原始包圍框、預測結果與圖片真值數據通過loss層計算損失函數,通過訓練實現模型權值的更新。

1.1.1 基礎網絡部分

基礎網絡部分用于對輸入圖像進行淺層特征提取,得到的淺層特征一方面可直接用于目標檢測與包圍框回歸,另一方面可用于提取目標的深層特征。 原始SSD模型直接將VGG-16[9]模型的卷積部分用作基礎網絡部分。這部分包含13個不同的卷積層,可對一張輸入尺寸為300×300像素的三通道圖像進行大量卷積運算,最終得到512張尺寸為19×19的特征圖,作為附加特征提取層繼續進行卷積運算的輸入。

1.1.2 附加特征提取層部分

附加特征提取層部分仿照基礎網絡部分的結構,新增10層卷積層,對基礎網絡提取的特征進行進一步卷積運算。 VGG-16卷積層后為2個全連接層,在特征提取階段宜采用計算量更小的卷積運算。文獻[10]提出通過下采樣和atrous方法將原VGG-16模型中的前2個全連接層修改為附加卷積層的前2層,即Fc6-Conv層和Fc7-Conv層,其余8層為普通創建的卷積層。

1.1.3 原始包圍框生成部分

原始SSD模型選取部分卷積層來實現目標預測與包圍框修正。為實現增量式包圍框回歸,需要在被選特征層的每個特征值位置上生成若干寬高比的原始包圍框,并在此基礎上回歸修正值以獲得最終包圍框結果。

網絡中不同層次的特征圖具有不同的感受野(receptive field),即不同層次特征圖上的特征值對應于原始圖像不同尺寸的圖像塊。通過設計不同層的縮放因子來調整不同層內原始包圍框的尺寸以適應不同大小的目標。假設共選m個特征層,則原始SSD方法對于第k層的縮放因子如下所示。

其中,smin=0.2,smax=0.9。設輸入圖像的高和寬分別為Hinput和Winput,則該層對應與寬高比為r的原始包圍框寬和高如下所示。

1.1.4 卷積預測部分

每個被選擇的特征層輸出的特征經過與之對應的卷積預測部分運算,輸出結果分別為預測的目標包圍框修正值與該包圍框內物體是目標或背景的概率。每個包圍框修正值包含4維數據:中心點橫坐標修正值,中心點縱坐標修正值,包圍框寬度修正值和包圍框高度修正值。

1.2 原始SSD方法存在的問題

1.2.1 基礎網絡部分

原始SSD方法直接采用VGG-16網絡的卷積層作為基礎網絡部分,用來提取目標的淺層特征。每層的卷積運算輸入僅為與之相連的上一卷積層,并未考慮之前的卷積層,喪失了大量卷積運算得到的特征信息。此外,這種串聯的卷積運算模式下,如果某層權值在更新過程中出現了較大偏差,則會導致該層后面的所有層都受到影響。

1.2.2 被選特征層結構

輸入圖像經過基礎網絡部分與附加特征提取部分運算,得到大量卷積特征圖,選擇部分特征圖作為原始包圍框與卷積預測的基礎。原始SSD方法沒有將淺層特征與深層特征融合起來綜合考慮,而是孤立的選擇若干卷積層作為被選特征層,在此基礎上進行檢測結果的預測。

1.2.3 被選特征層縮放因子

考慮到不同層次的特征圖具有不同的感受野,需要為不同特征層設計縮放因子。目標的尺寸分布具有如下規律:目標尺寸很大與很小的可能性相對較小,而尺寸適中的可能性相對較大。原始SSD方法忽略了這一規律,認為目標尺寸大小概率相同,采用線性均分的方法為各個特征層分配縮放因子。

2 改進的SSD方法

改進的SSD方法用密集連接的卷積層[11]替換串聯結構的基礎網絡部分,在得到大量目標特征圖后通過特征融合部分將不同層次的特征圖組合,得到融合特征圖用作預測的依據,并修改了不同特征層的縮放因子,使得各特征層的原始包圍框尺寸更好地滿足待檢目標的尺寸分布規律。改進SSD方法的模型整體結構如圖1所示。

圖1 改進SSD方法的模型整體結構

2.1 密集連接基礎網絡部分

密集連接的基礎網絡部為15個卷積層,平均分為5組,每組的3個卷積層構成一個Block。每個Block采用密集連接的方式進行卷積運算,每個卷積層都與當前Block內該層之前的所有卷積層連接(見圖2)。第一卷積層的輸入為前Block的輸出,第二卷積層的輸入為該Block的第一卷積層輸出,第一、第二卷積層的輸出組合后作為第三卷積層的輸入,第一~第三卷積層的輸出組合后作為該Block的卷積運算結果。

Block內卷積層進行組合后經過Batch Normalization[12]運算以平滑不同特征圖之間的偏差,經過Scale運算歸一化。每個Block內3個卷積層組合后的特征圖通道數是任意卷積層的3倍,通過1×1的卷積核進行變通道操作,將Block的輸出通道數變換至與Block內任意卷積層相同,結果作為Block輸出。基礎網絡部分5個Block的結構參數如表1所示。

圖2 密集連接Block結構示意圖

表1 基礎網絡部分結構參數

2.2 作為被選特征層的融合特征層

模型將淺層特征與深層特征融合形成融合特征,用作包圍框回歸與目標概率預測的原始特征圖。淺層特征通過下采樣以減小維度,深層特征通過上采樣以增加維度。上采樣方法為直接填充,即用原特征圖上某點的值填充上采樣后該點對應區域的所有值。隨后將2種來源不同的特征圖融合起來形成融合特征用于行人目標檢測。 融合特征層的通道數中一半來自淺層特征圖,另一半來自深層特征圖,當通道數不符時可通過1×1的卷積核來改變通道數。為了避免相鄰特征圖相關性較大影響檢測效果,本文中的特征融合均采用隔層融合。

以Combined_4融合層為例進行說明。該層維度為512×38×38。Block3的輸出特征圖維度為256×75×75,下采樣得到變換后的Block3(Block3mod),其維度為256×38×38;Block5輸出特征圖維度為512×19×19,經過上采樣和1×1卷積核的變換通道操作后得到變換后的Block5(Block5mod),其維度為256×38×38。Block3mod和Block5mod拼接為Combined_4融合層,其維度為512×38×38。特征融合后經過Batch Normalization和Scale運算處理,其余融合層的融合規則如表2所示。

表2 特征融合部分融合規則

2.3 適應目標尺寸分布的卷積層縮放因子

通過設計不同層的縮放因子來調整不同層內原始包圍框的尺寸以適應不同大小的目標。假設共選m層特征層,考慮到目標的尺寸較大或較小的可能性較低,故縮放因子較小或較大時的分布應稀疏,而縮放因子位于中間值時分布應相對密集。 第k層包圍框縮放系數計算方法可在線性分配的基礎上加以修正,如下式所示。

其中,smin=0.2,smax=0.9,φ(k)是不同層修正系數函數。本文共選擇6個融合特征層作為包圍框修正值與目標概率預測的原始特征圖,取φ(1)=φ(6)=0.8,φ(2)=φ(5)=1,φ(3)=φ(4)=1.2。

3 實驗與結果分析

為了驗證改進SSD方法的有效性,通過Caltech Pedestrian數據集進行測試,并將測試結果與其他方法的結果進行對比與分析。

3.1 Caltech Pedestrian數據集

Caltech Pedestrian為加州理工大學構建的數據集,常用于行人檢測算法的設計與測試。該數據集為時長約10 h的城市道路環境拍攝視頻,共約106幀,圖像原始分辨率為640×480像素。視頻集分為Set00-Set10共11段,選擇Set00-Set05作為訓練集,Set06-Set10為測試集。其中“person”類代表圖像中標記出的獨立行人目標,“people”類代表圖像中標記出的行人群,“person?”類代表圖像中的目標無法清晰分辨是否為行人。本文僅考慮標記為“person”類的目標,忽略“people”類與“person?”類。

Caltech Pedestrian數據集按照視頻中行人目標的尺寸與被遮擋情況,將測試集分為不同級別。本文選擇All與Reasonable測試集測試算法的一般泛化能力,選擇Far與Occ.heavy測試集測試算法的難例泛化能力。4個測試集的屬性如表3所示。

表3 所選測試集屬性

3.2 模型訓練

訓練數據經過左右翻轉和隨機采樣實現數據增強,隨機采樣的最小jaccard overlap[13]值為0.5,訓練數據與測試數據均等比例縮放至300×300。權值訓練方法為隨機梯度下降(Stochastic Gradient Descent,SGD),mini-batch尺寸為32,訓練平臺為英偉達TitanX GPU。

由于模型網絡結構相對復雜權值參數較多,因此從頭訓練速度較慢,本文使用原SSD模型中與改進SSD模型相同的層來初始化改進SSD模型中的部分層,其余層采用文獻[14]中的方法初始化。初始學習率為0.001,25 000次循環后學習率調整為0.000 1,40 000次循環后學習率調整為0.000 01,50 000次循環后終止訓練。參數衰減值(weight decay)為0.000 5,動量因子(momentum)為0.9。

3.3 測試結果

3.3.1 檢測準確性

模型訓練結束后通過測試集測試模型的檢測結果,根據文獻[15]中的評價方法計算測試結果的準確率與漏檢率,繪制漏檢率-每圖誤檢數(FPPI)曲線,并將測試結果與其他頂尖方法進行對比。圖3~圖6分別為All、Reasonable、Far與Occ.heavy測試集下改進SSD方法與其他方法的測試對比,圖中左下角邊框內為各方法的對數平均漏檢率(log-average miss rate)[15],該值越低,則對應方法的檢測效果越好。 從測試結果來看,相比其他方法,改進SSD方法針對Caltech行人數據集具有更好的檢測效果。圖7為Caltech數據集部分檢測結果。

圖3 All測試集下不同方法測試結果對比

圖4 Reasonable測試集下不同方法測試結果對比

圖5 Far測試集下不同方法測試結果對比

圖6 Occ.heavy測試集下不同方法測試結果對比

圖7 Caltech數據集部分檢測結果

3.3.2 檢測速度

為測試改進SSD方法的檢測速度,本文選取目前檢測精度較高的4種方法:SA Fast RCNN[16],MS-CNN[17],RPN+BF[18]與CompACT-Deep[19],用來做對比實驗。考慮到不同方法使用的GPU計算能力不同,本文計算各方法在單位tflops(每秒萬億次單精度浮點計算)計算能力下的檢測速度,結果如表4所示。由表4可知,改進SSD方法的檢測速度可達20 frame/s,明顯快于其他方法,滿足行人檢測的實時性要求。

表4 不同檢測方法的檢測速度 (frame·s-1)

3.4 測試結果分析

3.4.1 檢測準確性結果分析

測試結果表明,相比于原始SSD等其他方法,改進SSD方法對Caltech Pedestrian數據集具有更低的平均漏檢率。密集連接的基礎網絡能夠綜合考慮大量淺層行人特征,提高模型的一般泛化能力,改進SSD方法在All與Reasonable測試集上的平均漏檢率較其他方法有3%~5%的提升。融合特征能夠兼顧行人的淺層特征和深層特征,提高目標預測階段的穩定性與魯棒性,使得改進SSD方法對于小尺寸目標與嚴重遮擋目標具有更好的檢測效果。改進SSD在Far與Occ.heavy測試集上的平均漏檢率較其他方法有10%~20%的提升,這對于解決行人檢測中低照度、模糊目標、遮擋目標等痛點問題具有重要意義。

3.4.2 檢測速度結果分析

改進SSD方法的速度高于SA Fast RCNN、MS-CNN、RPN+BF與CompACT-Deep等方法的原因主要有2點。1)改進SSD方法的目標包圍框是被動生成的,即在特征圖的每個位置產生若干固定寬高比的默認包圍框,默認包圍框產生階段不需考慮圖片的具體像素值。而SA Fast RCNN與MS-CNN等方法的默認包圍框需要根據不同圖片的像素值主動生成,這一階段需要消耗大量時間。2)改進SSD方法可以實現端到端的訓練與檢測,模型的輸入為待檢圖片,輸出即為檢測結果,訓練與檢測流程在同一CNN內進行。而RPN+BF與CompACT-Deep等方法的訓練與檢測均需要分段進行,特征的提取與基于特征的與檢測通過不同的神經網絡或傳統機器學習模型實現,其中數據的轉移和處理消耗了額外時間。

4 結束語

為提高行人檢測的準確性與穩定性,本文提出一種基于改進SSD的行人檢測方法。該方法以SSD為基礎網絡結構,結合行人檢測任務特點進行優化與改進。 將串聯式的基礎網絡部分修改為密集連接式結構,目標預測階段選擇融合特征作為預測依據,并根據目標尺寸分布規律優化各特征層的縮放因子。模型在Caltech Pedestrian數據集上訓練與測試,獲得了較低的平均漏檢率,驗證了本文方法的有效性。對于行人目標尺寸較小與嚴重遮擋等難點問題,相比于原始SSD、VJ-1、HOG等方法,本文方法的檢測結果具有明顯提升。此外本文方法的檢測速度也較有明顯優勢。

雖然基于高計算能力GPU的改進SSD方法針對行人檢測具有較快的速度,但這類方法在計算能力稍差的嵌入式系統中的檢測速度仍然很慢。下一步將精簡和壓縮模型結構,在不明顯影響檢測精度的基礎上提升模型前向傳播速度,增強其嵌入式系統部署能力。

猜你喜歡
特征融合檢測
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
融合菜
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 午夜三级在线| 夜夜拍夜夜爽| 国产一级毛片yw| 欧美乱妇高清无乱码免费| 亚洲男人天堂2020| 国产精品亚洲а∨天堂免下载| 无码在线激情片| 中国精品自拍| 四虎永久免费在线| 91精品专区国产盗摄| 亚洲国产精品成人久久综合影院| 免费人欧美成又黄又爽的视频| 性69交片免费看| 亚洲三级网站| 亚洲美女一区二区三区| 国产视频久久久久| 亚洲中文在线看视频一区| 日韩精品一区二区三区免费在线观看| 国产精品女主播| jizz在线观看| 国产成人AV男人的天堂| 中日无码在线观看| 伊人久综合| 亚洲精品你懂的| 日韩成人免费网站| 国产第一色| 波多野吉衣一区二区三区av| 免费黄色国产视频| 一本大道香蕉中文日本不卡高清二区 | 97久久超碰极品视觉盛宴| 亚洲国产清纯| 最新亚洲人成网站在线观看| 国产97色在线| 国产日韩欧美视频| 久久久久久久97| 99er这里只有精品| 少妇精品网站| 一区二区午夜| 色综合中文字幕| 在线无码九区| 国产成人精品免费视频大全五级| 亚洲综合色吧| 91人妻日韩人妻无码专区精品| 国产成人精品一区二区| 亚洲婷婷六月| 91毛片网| 欧美视频免费一区二区三区| 大香网伊人久久综合网2020| 亚洲精品视频免费观看| 亚洲综合二区| 99久久免费精品特色大片| 中文毛片无遮挡播放免费| 一区二区三区在线不卡免费| 亚洲永久免费网站| 台湾AV国片精品女同性| 欧美国产综合色视频| 久久这里只有精品免费| 中文字幕无码av专区久久| a级毛片网| 亚洲午夜综合网| 精品福利视频导航| 亚洲精品va| 亚洲欧美日韩综合二区三区| 国产人免费人成免费视频| 超薄丝袜足j国产在线视频| 一级爱做片免费观看久久| 国产精品九九视频| 久久无码免费束人妻| 国产成人精品一区二区秒拍1o| 久久婷婷五月综合97色| 全部免费特黄特色大片视频| 91久久偷偷做嫩草影院| 人人看人人鲁狠狠高清| 黄片在线永久| 青青草国产精品久久久久| 精品一区二区三区水蜜桃| 国产永久在线视频| 亚洲精品日产AⅤ| 日本高清免费不卡视频| 亚洲Aⅴ无码专区在线观看q| 国产免费怡红院视频| 精品在线免费播放|