曹帥,張曉偉,馬健偉
(青島大學 計算機科學技術學院,青島266071)
隨著人工智能與計算機視覺技術的發展以及人們對公共安全領域的日益重視,智能視頻監控技術已經發展為當前的研究熱點。行人檢測是智能化視頻監控系統中的核心關鍵技術之一,并為后續的更高層次的視頻分析與理解提供可靠的數據支持。因此,行人檢測技術直接影響著智能視頻監控的智能化水平,具有重要的研究意義和應用價值。
近年來,基于深度卷積神經網絡的通用目標檢測[1-3]取得了巨大的成功,尤其是Girshick等提出的基于R-CNN[4]目標檢測模型,代替了手工設計特征[5-6]極大地提高了行人檢測的性能。然而,在視頻監控系統中行人存在不同空間尺度的差異,尤其是大尺度、低分辨率的行人目標對行人檢測技術帶來了極大的挑戰。為解決行人在空間尺度變化下的檢測問題,目前主要分為2種策略:圖像金字塔[7-8]和特征金字塔[2,9-10]。基于圖像金字塔的多尺度行人檢測方法通過采樣輸入圖像得到不同尺度的圖像金字塔集合,以預測最終的檢測結果。其中,具有代表性的圖像金字塔的尺度歸一化網絡(SNIP)[7]及其加強版具有高效重采樣的圖像金字塔的尺度歸一化網絡(SNIPER)[8],其選取若干個正樣本區域和負樣本區域作為圖像金字塔。然而,這種基于圖像金字塔的行人檢測方法在時間和內存方面的消耗是巨大的,限制了在實時智能監控視頻任務中的應用。
為兼顧精度與速度,基于特征金字塔的多尺度方法被廣泛應用到目標檢測。與圖像金字塔相比,特征金字塔需要的內存空間和計算量要少的多,并且結構簡單,能夠有效地嵌入到各類目標檢測器中。其中,單鏡頭多盒檢測器(SSD)[2]就是基于視覺幾何組網絡(VGG-16)提取不同分辨率的多層特征圖集合用于多尺度目標檢測。感受野塊網絡(RFB-Net)[9]在SSD網絡的基礎上采用2個模擬人類視覺感受野的特征提取模塊替換原有卷積層,并使用6個不同層級的特征圖用于檢測。類似的,漸進定位網絡(ALFNet)[10]在Res-Net-50[11]后3個階段的最后一個卷積層以及新添加卷積層上堆疊多個目標分類和空間位置坐標回歸模塊,形成漸進定位網絡,從而實現對多尺度目標精確定位。
大量研究表明[12-13],通過添加橫向連接和自上而下信息傳播路徑進行特征融合,生成的特征表達能力更強。特征金字塔網絡(FPN)[14]通過自上而下的跨層路徑有效地融合了高層特征所具有的魯棒語義信息生成特征金字塔網絡。路徑聚合網絡(PANet)[15]基于FPN網絡結構添加自底向上的擴展路徑,以精確的定位信息增強整個特征金字塔表達能力,有效提高了目標分割的準確度。多級特征金字塔目標檢測器(M2Det)[16]提出了多層次的特征金字塔網絡,使用多層次重復的網絡結構生成具有更強表達能力的特征金字塔。受上述研究工作的啟發,為充分利用不同尺度特征層在視覺語義信息上的互補性,本文提出了跨尺度特征聚合網絡(TS-FAN)模塊,在幾乎沒有增加任何時間耗費的前提下實現了不同層次特征信息的聚合,以增強特征金字塔的語義魯棒性和定位精確性。
另一方面,為檢測視頻圖像中的不同尺度目標,Faster R-CNN[1]基 于 多 尺 度 區 域 建 議 網 絡(RPN)生成多尺度初始候選目標區域檢測多尺度目標。進而FPN利用多個RPN子網絡來盡可能的覆蓋圖像中目標的所有尺度,但這種方式忽略了不同路徑RPN網絡生成的候選目標集存在行人分類與定位回歸之間的不一致性,從而影響多尺度行人的檢測性能。為解決這一問題,本文引入一種基于多路徑RPN的尺度補償策略來有效處理多尺度目標,以提高不同尺度行人的召回率。受尺度自適應的三叉戟網絡(TridentNet)[17]多分支檢測的啟發,為避免極端尺度行人對不同路徑模型訓練影響,本文利用尺度感知的策略使不同路徑RPN檢測與特征層感受野相匹配的多尺度行人候選框,并將不同路徑RPN生成的候選目標區域單獨處理,避免了不同路徑下不同候選目標相互之間產生的影響。同時,根據Li等[18]的研究,不同尺度行人實例在不同特征層上具有不同的特征表達,因此本文對不同尺度行人使用不同的特征映射函數,為多路徑RPN生成的不同尺度候選目標區域集匹配相適應的聚合特征層,形成多尺度行人檢測網絡。
綜上所述,本文主要貢獻如下:
1)引入一種基于多路徑RPN的尺度補償策略,依據不同分辨率行人實例構建多路徑RPN網絡,使各路徑RPN網絡分支基于有效感受野大小自適應地生成候選目標尺度集,以提高多尺度目標的召回率,并通過非極大值抑制的方法得到多尺度的目標候選區域集合。
2)根據不同分辨率特征層在視覺語義信息和精確定位信息上的差異性,本文提出了TS-FAN模塊,通過跨層連接聚合多尺度特征信息,極大地縮短了底層特征信息傳播到頂層特征層的路徑,增強了特征金字塔的語義魯棒性和定位精確性。
3)基于尺度感知的端到端訓練方案,將多路徑RPN中得到的不同尺度候選目標集映射到與之匹配的聚合特征層中進行特征提取,形成多尺度行人檢測網絡。實驗結果表明,在Caltech[19]和ETH[20]數據集上明顯優于目前一流行人檢測方法TLL-TFA[21],尤其對大尺寸、低分辨率行人的檢測性能提升較為顯著。
TS-FAN總體結構如圖1所示,主要包含3個部分:基于尺度補償策略的多路徑RPN、TS-FAN模塊和多尺度行人檢測網絡。TS-FAN網絡模型基于端到端的訓練方式聯合不同路徑RPN子網絡和TS-FAN模塊,通過多路徑RPN產生得到的行人候選區域自適應感知其在相應特征聚合網絡模塊上的有效特征,并采用尺度感知的策略形成多尺度行人檢測網絡。圖中:C1~C5分別為Res-Net-50的5個不同階段;H3~H5分別為不同分辨率的聚合特征。

圖1 TS-FAN總體網絡架構Fig.1 TS-FAN overall network architecture
RPN在Faster R-CNN[1]中被提出,因其引入了多尺度滑動窗口遍歷特征圖的每個空間位置,極大地提高了目標檢測的召回率。然而,RPN只在某一深度卷積特征層上提取候選目標,其固定尺寸的卷積核限制了單一特征層的視覺感受野大小。對此,FPN[14]在多個特征層上生成多尺度候選目標,進一步提升了目標檢測的召回率。在此基礎上,本文開展了對多路徑RPN行人召回率的實驗分析,發現不同深度卷積特征層對不同尺度行人候選目標召回率具有較大的性能差異。大尺寸行人在高層特征圖具有較高的召回率,而小尺寸行人在分辨率高的低層特征具有較高的召回率。為此,根據各深度卷積特征層的有效感受野大小[22],本文采用尺度補償策略,將行人候選目標劃分為3個路徑的RPN來適應行人的多尺度變化,如圖2所示。其中左、右分支作為輔助檢測網絡,中間分支則為主檢測網絡。本文使用ResNet-50作為特征提取基礎網絡,定義C3、C4、C5代表基礎網絡結構中每個階段的最后一個殘差塊res3d、res4 f、res5c。不同分支RPN中設置有效真實標注框的高度(行人實例高度像素值)分別在小于50像素、所有像素、大于100像素范圍內,跨越該范圍的真實標注視為無效標注,不參與該RPN分支訓練。由于每個RPN路徑針對不同尺度的行人目標進行訓練,所以不同RPN路徑使用獨立損失函數,其中RPN多任務損失函數定義為

圖2 多路徑RPNFig.2 Multipath region proposal network
L=lcls+φ[y=1]lloc(1)
式中:lcls為分類損失采用交叉熵損失函數[1];lloc為位置回歸損失采用Smooth-L1損失函數[1];φ為一個超參數;y=1表示只有正樣本進行位置回歸。基于單個RPN損失函數,給出總體損失函數,其定義為

式中:L1、L2、L3分別為左、中、右分支的多任務損失函數。
基于上述多路徑RPN得到具有不同尺度范圍的候選區域集P={Ps,Pa,Pl},其中Ps和Pl分別為小尺度集和大尺度集,它們是對所有尺度集Pa的尺度補償。對于上述候選區域集使用閾值為0.7的非極大值抑制減少重疊候選目標框,為目標識別階段提供高質量的候選區域。
特征金字塔被廣泛應用到多尺度檢測的模型中,如 圖3所 示,SSD[2]和STDN[23]網 絡 都 是基于自底向上的信息傳播方式生成不同空間分辨的特征金字塔。然而這種方法沒有考慮到不同層次信息的互 補 性[24-26],TLL-TFA[21]、CSP[27]等利用反卷積等上采樣操作將不同層次的特征層歸一化到同一分辨率,并通過特征通道疊加的方式進行特征融合。FPN[14]和PANet[15]模型構建了自上而下和自底向上的信息傳播路徑,融合不同層次特征層作為目標檢測特征層。而M2Det[16]提出了多層次的FPN,使用更加復雜的網絡結構生成具有更強表達能力的特征金字塔。然而這些方法都是通過復雜的網絡構建更多的特征金字塔,從而得到更加魯棒的特征表示,其忽略了低層次特征的重要性,丟失大量的細節特征信息。

圖3 多種特征金字塔模型示意圖Fig.3 Schematic diagram ofmultiple feature pyramid models
本文提出的TS-FAN模塊是在FPN網絡模型的基礎上通過添加自底向上快速路徑,縮短低層次高分辨率特征圖到高層次特征圖的傳播路徑,以有效聚合低層特征圖中的局部細節特征信息。本文在自底向上的特征編碼路徑引入平均池化層,來豐富用于檢測特征層的特征信息,實現不同尺度卷積特征的增強表示。
本文提出的TS-FAN模塊有效地融合了自頂向下、由底向上和同層映射三種路徑特征,如圖4所示。在特征融合之前,首先使用1×1卷積核對當前特征層Ci和上、下相鄰特征層Ci+1、Ci-1(i?{3,4,5})實現特征維度的統一,得到空間分辨率不同但 是 特 征 通 道 數 相 同 的 特 征 層C′i+1、C′i、C′i-1。在自上而下的特征傳播路徑中,使用雙線性插值的上采樣方法將C′i+1特征層的空間分辨率擴大到原來的2倍,并且保持特征維度不變,保留其高層特征圖中較為魯棒的語義特征信息。另一方面,為保留低層有利于目標定位較為敏感的局部位置信息,在自底向上的特征增強路徑中,采用平均池化方法對C′i-1層特征層下采樣縮放至原來一半的空間分辨率大小,并且不改變其特征維度,保留其低層特征圖中較為精確的定位信息。特征聚合通過對特征圖逐像素相加的方式實現,其能夠增加特征的信息量,但特征維度本身沒有增加,這對于最終的圖像分類是有益的。最后為減少上采樣過程中的混疊效應,添加了一個3×3卷積處理融合后的特征圖生成最終的具有強表達能力的特征圖。TS-FAN模塊的計算公式為

圖4 特征聚合模塊Fig.4 Feature aggregation module

式中:c為特征通道維度;Ki為3×3卷積核;“*”為卷積操作;Avgpooling為平均池化操作;Upsampling為上采樣操作;Hi為TS-FAN模塊得到的增強特征表示。
本文根據不同分辨率的特征層對于不同尺度行人的有效性,通過多尺度檢測方法聯合多路徑RPN生成的多尺度行人候選集Pi={Ps,Pa,Pl}和TS-FAN模塊得到的聚合特征Hi={H3,H4,H5}提取候選區域特征編碼。如多路徑RPN中的主檢測分支生成Pa集合中的行人候選區域匹配到相應的TS-FAN生成的聚合特征H4,從而得到該特征層的感興趣區域,利用RoI-pooling歸一化提取的特征編碼得到7×7×512特征,將提取的特征編碼由全連接層變換到1 024維高維特征向量,精確計算候選區域的置信度分數和4個坐標偏移量,得到最終的檢測結果,其他2個輔助檢測分支類似。對于不同尺度集的候選區域使用對應的檢測分支,每個檢測分支訓練都有真實類別標注p*和真實標注框b*=分別為真實標注框的左下角坐標和寬、高。本文單分支行人檢測訓練的損失函數定義如下:

式中:Lcls為分類交叉損失函數;Lreg為候選目標的回歸損失函數,Lreg(b,b*)=R(b-b*),R為Smooth-L1損失函數;p和b=(bx,by,bw,bh)為網絡候選目標框置信度分數和空間位置;λ為平衡分類與回歸任務的損失函數,本文中λ=10。預測得到的候選目標框與任何一個真實標注框的重疊度大于0.5時p*=1,否則p*=0。多尺度行人檢測的具體實現過程如算法1所示。
算法1基于TS-FAN的多尺度行人檢測。
輸出:網絡模型權重ω和ωb。
初始化:加載ImageNet數據集上的預訓練權重,為新添加的卷積層使用高斯函數初始化權重。設定學習率ζω和ζωb。
迭代循環:

其中:t和T分別為當前迭代次數和總迭代次數;Lfar、Lmedium、Lnear分別為大尺寸、中尺寸、小尺寸分支路徑的損失函數;ζω和ζωb分別為權重的學習率和偏置項的學習率。
本節在2個公開基準數據集Caltech和ETH上測試本文的TS-FAN方法對多尺度行人檢測的有效性。本文基于Caltech評估標準[19]:平均每幅圖像假陽性(FPPI)在[10-2,100]之間的行人漏檢率,用MR-2表示。依據Caltech測試集數據劃分標準[19],劃分為:Reasonable子集(行人高度大于50像素和可見度在65%以上);All子集(高度最小為20像素和可見度在20%以上);Large、Near、Medium和Far子集分別表示行人高度范圍為大于100像素、大于80像素、30~80像素之間和20~30像素之間的測試子集。設置學習率為0.001、權重衰減為0.0005、梯度更新權重為0.9,在單GPU上每個mini-batch使用2張圖片,選擇使用SGD優化器。實驗所使用環境為Ubuntu14.0、caffe2、CUDA8.0.61、python2.7.12,硬件配置為NVIDIA GeForce GTX 1080Ti(一塊)、Intel(R)Xeon(R)CPU E5-2609v4@1.70GHz×16。
2.2.1 RPN尺度補償策略的重要性
為驗證基于尺度補償策略的多路徑RPN對多尺度行人候選目標生成的有效性,本文在Caltech數據集上通過RPN獲取300個目標候選框,以評估行人檢測的召回率(表示為R300)。本實驗設置預測目標框與真實標注框重疊度閾值大于0.5即為判斷為正樣本,否則為負樣本。
首先,在ResNet-50的不同層次特征層(C3、C4、C5)中引入RPN,P34表示為FPN網絡中聯合使用P3、P4特征層,C34表示為聯合使用C3、C4特征層,其他依次類推。從表1數據可以看出,小尺寸的行人在高分辨率的特征層上具有較高的召回率,如C3要比C5表現得更好。而在C4層,該層能夠更好地兼顧不同尺度行人實例,對于多尺度檢測表現出良好的效果,但對于小尺寸行人實例召回率僅為75.2%,這意味著單卷積層的RPN并不能有效覆蓋圖像中行人實例的所有尺度。本文引入多路徑RPN尺度補償策略提取多尺度目標候選框,在整個Caltech多尺度行人集合上取得了97.2%的行人召回率。而且從表1中還可以看到,在卷積特征層上聯合多路徑RPN生成行人候選目標比在FPN中更為有效,其原因可歸結為經過卷積后的特征層比融合后的FPN特征含有更多的局部細節信息。

表1 在Caltech數據集上對于RPN的消融實驗Table 1 Ablation experim ent of RPN on Caltech dataset
2.2.2 跨尺度聚合特征對于行人檢測的有效性
為驗證本文TS-FAN模塊對行人檢測的有效性,本節將其與FPN的行人檢測結果進行了實驗對比。表2中的Proposal為單路徑RPN的輸入,如FPN-P3和TS-FAN-H3分別表示FPN網絡和TS-FAN網絡在ResNet-50第3階段檢測,其余類似,TS-FAN-H3H4H5表示多分支檢測。從表2中可以觀察到,TS-FAN 模塊 TS-FAN-H3和 TSFAN-H4相較于FPN 的FPN-P3和FPN-P4在Caltech數據集上均有明顯的檢測性能提升。尤其是TS-FAN-H3比FPN-P3在Caltech的Reasonable、Near、Medium子集上的行人漏檢率MR-2降低了17.45%、28%、11.25%,TS-FAN-H4相對于FPN-P4在Far子集上的行人漏檢率MR-2提升了9.91%。這可歸因于聚合低層次特征的細節信息有利于提升行人的檢測效果。

表2 Caltech數據集上驗證跨尺度聚合特征的有效性Tab le 2 Verification of validity of trans-scale aggregation features on Caltech dataset
值得關注的是在FPN-P5加入低層次特征后,TS-FAN-H5只在Caltech的Near測試子集上表現出性能提升,其原因可歸結為該特征層分辨率較低,更加傾向于大尺寸行人實例的檢測。而且表2中聯合各跨尺度聚合特征在Caltech的Reasonable和Near測試子集上表現效果略低于單跨尺度聚合特征,而在Medium和Far測試子集上行人漏檢率MR-2為17.24%和50.38%,明顯優于單跨尺度聚合特征。這是由于低層次特征的加入,使得網絡更加關注中、小尺度行人。最后,本文相對于單路徑RPN,在多路徑RPN下聯合各跨尺度聚合特征TS-FAN-H3H4H5,能夠更有效地檢測多尺度行人實例,在Reasonable、Near、Medium、Far測試子集上行人漏檢率MR-2分別達到5.53%、0.47%、13.76%、47.30%。其在不同尺度行人的檢測性能上均有明顯的提升,其原因可歸結為多路徑RPN為第二階段行人識別和預測行人目標包圍框提供了高召回率、高質量行人候選區域集。
本節為橫向對比本文方法對多尺度行人檢測的有效性,首先在Caltech測試數據集上與目前表現較好的行人檢測方法FasterRCNN+ATT[28]、RPN +BF[29]、AdaptFasterRCNN[30]、F-DNN +SS[31]、PCN[32]、GDFL[33]、F-DNN2+SS[34]、TLLTFA和AR-Ped[35]進行了實驗對比。從表3中可以看出,本文TS-FAN方法在Caltech數據集上取得了最好的檢測性能,其在Reasonable、All、Near、Medium和Far的子集上,行人漏檢率MR-2分別為5.53%、26.21%、0.47%、13.76%和47.30%。在Caltech測試數據集Reasonable子集上,本文方法相較于當前一流的AR-Ped方法,行人漏檢率MR-2降低了0.92%。與當前領先的TLL-TFA方法相比,在All、Near、Medium和Far的子集上行人漏檢率 MR-2分別降低了11.94%、0.25%、9.16%和12.79%。量化的實驗對比結果如圖5中所示,可以明顯地觀察到本文提出的TS-FAN網絡對于不同尺度的行人實例均表現出較好的行人檢測效果。

圖5 在Caltech數據集上,本文方法與目前一流方法的對比Fig.5 Comparison of proposed method with some state-of-the-artmethods on Caltech dataset

表3 在Caltech數據集不同重疊評估設置上,本文方法與目前一流方法的比較Tab le 3 Com parison of p roposed m ethod w ith som e state-of-the-art m ethods on the Caltech dataset under differen t overlapping evaluation p rotocols
低層次特征帶來局部細節特征信息和較為精確的定位信息,使得網絡對于位置感知能力更強,從而在行人間的遮擋問題上同樣表現出具有競爭力的行人檢測效果。TS-FAN方法在Caltech數據集的Partial和Heavy子集上與當前領先的TLLTFA方法相比,在Partial和Heavy子集上行人漏檢率MR-2分別降低了7.81%和10.84%。在Partial子集上與AR-Ped方法相比,行人漏檢率MR-2降低了1.25%。
在ETH測試數據集上,TS-FAN方法與目前檢測性能較好的行人檢測方法ChnFtrs[36]、Joint-Deep[37]、MultiSDP[38]、DBN-Mut[39]、TA-CNN[40]、RPN+BF和F-DNN2+SS進行對比實驗,實驗結果如圖6所示。見圖6(a)和(b),TS-FAN方法在All和Reasonable測試子集上比目前檢測效果較好的F-DNN2+SS方法行人漏檢率MR-2降低了7.28%和2.73%。尤其在Medium和Far子集上,TS-FAN方法行人漏檢率MR-2提升了19.97%和29.21%,如圖6(e)和(f)所示。而在Near子集上,TS-FAN方法較RPN+BF方法和F-DNN2+SS方法行人漏檢率MR-2分別降低了1.51%和3.19%。其原因可歸結為本文TS-FAN方法沒有使用更深層次的卷積層(如特征圖分辨率較原圖下采樣64倍)。

圖6 在ETH數據集上,本文方法與目前一流方法的對比Fig.6 Comparison of proposed method with some state-of-the-artmethods on ETH dataset
為形象地觀測本文TS-FAN模型在Caltech數據集和ETH數據集上的檢測效果,圖7和圖8顯示了本文方法與當前一流行人檢測方法的輸出結果。

圖7 在Caltech數據集上,本文方法與目前一流方法可視化效果對比Fig.7 Comparison of visualized effects of proposed method with some state-of-the-artmethods on Caltech dataset

圖8 在ETH數據集上,本文方法與目前一流方法可視化效果對比Fig.8 Comparison of visualized effects of proposed method with some state-of-the-artmethods on ETH dataset
1)本文針對多尺度行人檢測任務,設計了一種跨尺度特征聚合的多尺度行人檢測網絡,其通過多路徑RPN尺度補償策略為行人識別階段提供了高質量的目標候選區域。
2)提出的TS-FAN網絡模塊為多尺度行人檢測網絡提供了高魯棒性的特征層用于特征提取,并通過實驗驗證TS-FAN網絡模塊能顯著提高行人檢測性能。
3)通過多尺度行人檢測網絡,聯合多路徑RPN得到的候選目標區域和跨尺度聚合特征進行行人識別和精細化空間位置。實驗結果表明,本文方法TS-FAN在Caltech數據集和ETH數據集上取得了一流的多尺度行人檢測性能。