王宇凡 張姍姍
(南京理工大學計算機科學與工程學院 南京 210094)
行人檢測中存在一些困難的挑戰,如運動模糊、虛焦、行人之間的頻繁遮擋、尺度變化。夜間的行人檢測由于光照、模糊等問題獲得的圖像質量更差。視頻具有時間順序上的連續性,行人特征在相鄰幀中不會產生劇烈變化,可以利用時間維度上的特征信息來進行檢測。對冗余的處理同樣是視頻行人檢測中的挑戰。
現有的許多行人檢測方法為了提升檢測性能,增加了額外的模型(如FlowNet[1]),耗費大量的計算資源和時間。本文提出一種基于多幀特征融合的視頻中夜間行人檢測方法來解決夜間行人圖像特征質量下降問題。我們在夜間視頻數據集上進行測試,結果顯示本方法對小尺度行人和嚴重遮擋的行人的檢測結果有所提升。
本節主要介紹行人檢測、視頻目標檢測、特征融合三個方面的相關工作。
行人檢測(Pedestrian Detection)是目標檢測的一個重要分支。2005 年Navneet Dalal 提出了基于HOG 和SVM 的行人檢測方法[2],使用HOG 直方圖描述行人的外觀特征。由于計算量太大,基于HOG和AdaBoost的方法[3]被提出。積分通道特征[4]獲得了更強力的特征。近年來神經網絡也被應用到行人檢測當中。Faster R-CNN[5]是一個端到端(end-to-end)的檢測模型,提出了區域建議網絡。YOLO[6]將整張圖劃分為固定數量的網格進行打分和回歸。SSD[7]使用預先設定好的多尺度的邊界框對圖像特征進行回歸。
視頻目標檢測(Video Object Detection)中的視頻數據集擁有時間特征,可以利用時間信息來加強鄰近幀中同一物體特征之間的關聯。視頻目標檢測方法分為兩種模式:1)先進行目標檢測,使用跟蹤結果對目標檢測進行修正,如T-CNN[8]將對候選框進行跟蹤并重新打分。2)使用運動信息提升特征質量。如FGFA[9]使用光流信息和時間信息。為了減少計算量,提出了Association LSTM[10],利用LSTM增強檢測的穩定性。
許多方法采取特征融合(Feature Fusion)的方法來獲得增強的目標特征信息。融合方法可以分為早融合(Early fusion)和晚融合(Late fusion)兩類[11]。早融合先將得到的特征進行融合,再用融合后的特征進行訓練,如MOD[12]方法。晚融合則將不同來源得到的檢測結果進行篩選和合并。低層特征擁有細節同時存在許多噪聲,高層特征的語義信息更強,FPN[13]方法結合了兩種融合方法,對不同尺度的目標均有所響應。
本方法主要由三個模塊構成:1)單幀行人檢測模塊;2)行人跟蹤模塊;3)多幀特征融合模塊。圖1 為主要網絡結構,多幀圖像先并行通過行人檢測網絡(a)得到行人的圖像的初步特征,經過行人跟蹤網絡(b)得到行人在鄰近幀的坐標,最后經過多幀特征融合網絡(c),并將特征進行分類和回歸。

圖1 主要網絡框架流程圖
行人檢測模塊的網絡結構如圖1(a)所示。行人檢測模塊首先獲得特征圖xl∈RHl×Wl×Dl,其中Wl,Hl和Dl分別為第l層輸出特征圖的寬,高和通道數。隨后通過候選框得到更準確的邊界框。檢測網絡損失函數為
其中Ncls表示anchor 的minibatch 個數,Nreg表示anchor 位置的個數,i表示第i個anchor,Lcls是對數損失函數,p表示預測概率,p*表示ground truth的標簽(ground truth為正樣本時p*=1,ground truth為負樣本時p*=0),Lreg是平滑L1損失函數,t表示預測預測框的坐標,t*表示正樣本的坐標。
行人跟蹤模塊的網絡的具體結構如圖2 所示。行人跟蹤給定初始的模板圖像z,通過相似度函數f(z,x)在相鄰的連續t幀上搜索和z最為相似的圖像區域x作為行人跟蹤的位置結果。相似度函數的表達式為

圖2 行人跟蹤網絡框架
其中φ表示經過全卷積網絡,卷積之后分別得到的模板圖像z和搜索區域x的特征圖,*表示互相關(cross-correlation)操作,得到模板特征和搜索區域特征的響應圖,b是相似度的偏移量。
我們的行人檢測和行人跟蹤使用同一個主干網絡并行提取圖像特征。在行人跟蹤的時候融合了網絡的后三層(第3 層至第5 層)輸出的特征,得到跟蹤的坐標? 及坐標區域特征和模板圖像特征的相似程度S。
我們將檢測行人及其跟蹤結果的全卷積網絡的最后一層特征用平均池化層融合起來,以此來增強小尺度行人和被遮擋行人的特征。融合公式為
其中以檢測行人所在的幀為基準,分別向前和向后跟蹤t幀。特征融合模塊的網絡結構如圖1(c)所示。用行人跟蹤得到的特征進行融合,再用這個融合后的特征進行回歸和分類。
本章節主要闡述本文使用的數據集和實驗內容,并給出相應的分析,對本文的方法效果進行驗證。
Nightowls[15]數據集是一個夜間駕駛條件下的行人檢測數據集,夜間存在光照不足、顏色信息較少、對比度的變化、反射等夜間特有的問題。該數據集拍攝了40 個視頻序列,共27.9 萬幀夜間數據。CityPersons[16]是一個圖像行人檢測數據集,包含來自50個不同城市的2975張高質量的訓練圖片和500張驗證圖片。
本方法使用ResNet-50 作為主干網絡。行人檢測首先在CityPersons 數據集上預訓練,再在Nightowls 數據集上進行微調。在行人檢測時我們修改最后一層stride 為2 來擴大接受的視野范圍。在行人跟蹤時我們將第3層至第5層特征維度降至256 進行融合。我們把短期跟蹤軌跡(tracklet)的幀數設定為5 幀。在特征融合的時候,我們根據跟蹤相似性為特征進行加權,再進行融合。我們選用sgd作為訓練優化器。
本節將本文方法與現有的方法作對比。將評估集按照測試行人的高度和測試行人的可見度劃分成不同的測試子集,實驗結果如表1 所示。本文使用的評測指標是miss rate[17],即目標丟失率,表達式為

表1 本文方法與常用的行人檢測方法在小尺度行人集合上Miss Rate(↓)對比

表2 本文方法與常用的行人檢測方法在被遮擋嚴重集合上Miss Rate(↓)對比
從表1 中可以看出,我們的方法在針對小尺度行人(高度在20 像素到50 像素之間)的評估集合上,性能有所提升。我們的方法在被嚴重遮擋(可見度小于50%)的評估集合上,對行人的檢測性能有所提升。綜上所述,在檢測小尺度行人和被遮擋行人的情況下,本文使用的基于跟蹤的檢測器對行人檢測有幫助。
本文提出一個基于多幀特征融合的視頻中夜間行人檢測方法,增強了行人在夜間情況下質量較差的特征。實驗結果表明,本方法能提升夜間視頻行人檢測中較為困難的小尺度行人和被部分遮擋的行人的檢測的性能。未來我們將優化行人跟蹤,動態使用跟蹤結果,提高行人檢測的速度和質量。