陳夏陽
(江蘇科技大學計算機學院,江蘇鎮江 212100)
行人檢測在車輛自動化、視頻監控以及救援搜救等方面有著廣泛應用,吸引了眾多研究人員的注意。近年來,采用視覺光學彩色圖像的行人檢測取得了巨大進展[1-3]。但由于不利光照條件、行人目標存在遮擋及分辨率低等因素,基于可見光的行人檢測難以得到廣泛應用,因此學者們提出采用熱成像圖數據集進行行人檢測。在行人檢測中,檢測主體目標是人,而人通常比周圍背景溫度更高,并且熱紅外相機能夠感應到行人目標所發出的輻射,因此熱成像圖能夠有效提升行人目標檢測率。隨著研究的不斷深入,文獻[4]、[5]發現紅外圖像中的行人高亮處與對應可見光圖中的行人紋理圖具有互補作用,并利用兩種圖像優化檢測方法。在可見光圖像與熱成像圖像各有利弊的情況下,多光譜數據源更適用于行人檢測。由于基于KAIST 多光譜數據集的行人檢測方法[4-5]性能優越,多光譜行人檢測因此成為了目前的研究熱點。
目前主流的行人檢測算法主要分為兩類:一類是基于候選區域的兩步行人檢測算法,此類算法基于行人候選區域的位置對候選區域進行分類,代表算法有RCNN[7]、Faster-RCNN[8]算法等。兩步檢測算法能獲得良好的檢測精度,但不能滿足實時檢測的需要,且該方法的網絡模型占用了較大的內存空間,難以應用于移動嵌入式設備中,實用性受到了一定程度限制。另一類是基于行人對象中心和比例的單步檢測算法,其神經網絡模型較為單一,且不需要錨框進行目標定位,屬于端到端學習算法,能夠大幅提升檢測速度,代表算法有YOLO 和SSD 算法。文獻[10]、[11]提出的無錨框方法類似于兩步檢測算法在回歸到邊界框角點或對象中心點時的目標區域生成器,但實際上無錨框方法本身就是有效的單步檢測算法,如TTL 方法[12]根據ResNet-50 主干網絡的上采樣特征圖預測行人底部和頂部的熱成像圖,CornerNet 方法[13]通過目標左上及右下的角點預測熱成像圖,并且近幾年的CSPNet[14-15]等方法顯著提升了行人檢測的準確率。
大多數多光譜行人檢測方法采用特征融合的方法處理雙通道圖像與特征,但特征融合方法計算開銷大,且過多的結構化數據使得融合的魯棒性較差,而特征選擇方法能夠有效提取可靠行人特征描述子,去除冗余特征。因此,本文首先采用多種圖像融合及特征融合,然后用特征選擇代替傳統的通道拼接特征融合,基于上述不同的特征處理方法進行多光譜行人檢測實驗。實驗結果表明,相較于傳統的特征融合行人檢測,基于特征選擇的無錨框多光譜行人檢測方法在保證全天行人檢測漏檢率較低的前提下,對于遠距離目標及嚴重遮擋目標,分別有效降低了15%及9%的漏檢率。
本文主要進行以下3 方面研究:①基于hourglass 骨干網絡,采用傳統通道拼接特征融合方法進行實驗,并分析比較3 種不同融合方式的性能以及對檢測結果的影響;②采用特征選擇代替傳統的通道拼接特征融合方法,檢測較小目標及遮擋行人目標,得到優良的檢測率;③在KAIST 數據集上進行基于特征選擇的無錨框多光譜行人檢測實驗,驗證了算法的有效性。
受CenterNet[6]網絡以及多光譜行人檢測相關文獻[16-18]的啟發,本文采用傳統特征融合的方式將多光譜行人檢測方法應用于Hourglass 網絡結構,在網絡中的不同位置進行特征融合,并實現多光譜行人檢測。由于特征融合階段不同,行人目標特征存在差異,該方法能夠通過對比實驗,找出最適用于較小行人目標及遮擋行人目標檢測的融合階段,達到最佳協同檢測效果。
然而,將傳統特征融合方法應用于Hourglass 網絡結構,對較小行人目標及遮擋行人目標的檢測精度較低。因此,本文實驗以特征選擇方法替代傳統特征融合方法[16,19]應用于CenterNet 網絡,實現了基于特征選擇的無錨框多光譜行人檢測。
基于卷積網絡的檢測器由3 個階段組成:卷積階段、完全連接階段和判定階段。不同階段的特征對應不同層次的語義和視覺細節,較低層次的視覺細節更精細,較高層次的語義更豐富。因此,將傳統特征融合方法應用于網絡的不同階段,對檢測結果能夠產生不同影響。為實現能達到最佳協同檢測效果的融合模型架構,本文將Hourglass網絡結構與傳統特征融合方式相結合,針對基于Hourglass網絡設計的3 種融合模型進行深入研究[9]。根據融合的不同階段,上述方法分為早期融合、中期融合以及晚期融合。
在早期融合中,輸入圖像首先經過可見光分支與熱成像分支并進行特征融合,然后將特征圖作為NIN 網絡的輸入[20-21]。NIN 網絡將連接層網絡維度降低到128,輸出可見光及熱成像分支局部特征的線性組合,并增強局部行人目標的辨識度。由于預處理層捕獲的角點、線段類視覺特征相對低級,因此早期融合屬于低級特征融合。
中期融合同樣在卷積階段實現融合。但與早期融合有所區別的是,特征圖在Hourglass 1 模塊后進行特征融合。由于Hourglass 1 模塊與預處理層的特征相比包含更豐富的語義,因此中期融合能夠增強局部行人目標特征,以及保留更多精細的視覺細節。
后期融合在Hourglass 2 模塊之后進行特征融合,將兩個子網絡最后卷積塊的特征映射串聯,在此基礎上構建區域建議模塊。3種融合方式的大致框架如圖1所示。
本文將傳統特征融合應用于Hourglass 網絡結構,實現了3 種不同的融合架構,但對較小行人目標及遮擋行人目標的檢測率較低。為提高上述檢測率,并解決過多特征導致的過擬合、模型泛化能力下降等問題,將CenterNet 網絡與特征選擇方法相結合,并運用feature_selection 庫中的函數實現了基于特征選擇的無錨框多光譜行人檢測方法[16]。
特征選擇方法一般分為3 類:過濾式選擇、包裹式選擇以及嵌入式選擇。本文分別選擇3 類方法中的方差選擇法、遞歸特征消除法以及基于樹模型的特征選擇法進行實驗。方差選擇法根據行人特征計算出方差以及設定的閾值,并選擇方差大于閾值的特征;遞歸特征消除法使用LogisticRegression 作為基模型進行多輪訓練,每輪訓練后消除若干權值系數的特征,再基于新的特征集進行下一輪訓練,并將最終使用的學習器的性能作為子集的評價準則;基于樹模型的特征選擇法采用GBDT 梯度提升決策樹作為基模型進行特征選擇,學習器自動進行特征選擇,在訓練過程中得到各個特征的權值系數,并根據系數從大到小選擇特征。包裹式選擇的效果優于過濾式選擇,但需要更大的開銷,即在提升性能的同時,需要消耗大量時間與算力。嵌入式選擇與過濾式選擇類似,但前者能夠通過訓練確定特征優劣程度。
在行人檢測中,由于存在行人背景信息冗余、行人目標具有多樣性等因素,使得提取到的顏色及紋理特征復雜,影響行人檢測的準確率。為解決冗余特征的問題,本文提出一種特征注意網絡,如圖2所示[22-23]。

Fig.1 Early fusion,halfway fusion and late fusion frame圖1 早期融合、中期融合與后期融合框架

Fig.2 Feature attention network圖2 特征注意網絡
圖2 中的H、W 和C 分別代表輸入特征圖的高、寬與通道數。特征注意網絡包含適用于不同級別特征的兩個分支,上分支處理高層語義特征,下分支處理低層細節特征。上分支通過1×k 和k×1 的非對稱卷積獲取高層語義特征圖的空間結構信息,輸出結果為特征圖U1和U2。之后特征圖U1和U2再次通過同樣的非對稱卷積降維至1 維,得到特征圖V1和V2。最后,特征圖V1、V2經過點對點元素相加后得到二維特征圖,并經過sigmoid 函數后得到權重矩陣T,權重矩陣T 與低層細節特征圖相乘得到最終的特征圖。為實現特征選擇,Hourglass 網絡利用上述特征選擇模塊進行實驗。圖3 所示的CenterNet 網絡結構的簡化圖表明了注意力模塊位置及網絡總體架構。
實驗環境為:INTEL Xeon Silver 4210 CPU 2 GHz,32GB 內存,NVIDIA Tesla M40 24G,CentOS7,64 位操作系統。實驗選擇深度學習框架TensorFlow 作為平臺,并在TensorFlow 版本2.0、CUDA 版本10.1、cuDNN 版本7.4.1 的環境下運行。

Fig.3 Simplified structure diagram of CenterNet network based on feature selection圖3 基于特征選擇的CenterNet網絡結構簡化圖
實驗基于KAIST 多光譜行人檢測數據集,將結果作為評估模型的性能指標。KAIST 數據集采集白天與黑夜共計95 328 張圖片,其中訓練集包含50 187 張圖片,測試集包含45 141 張圖片。數據集分別在白天和晚上捕獲包括校園、街道以及鄉下的各種常規交通場景。數據集共包括1 182 個不同的行人目標,分為“person”“people”“cyclist”與“person?”4 類標簽。實驗中設置標簽“person”“people”為正樣本,其余為負樣本。通過對實驗結果進行分析,以驗證基于特征選擇的無錨框多光譜行人檢測方法的有效性。
1.1 節中將CenterNet 方法與傳統的通道融合方法相結合,根據融合階段的不同,分別實現了前期融合、中期融合與后期融合的無錨框多光譜行人檢測方法,但上述方法仍未能有效提升對較小行人目標及遮擋行人目標的檢測率,而特征選擇方法能夠對行人特征進行有效篩選。因此,首先在KAIST 數據集中分別挑選約2 000 張圖像作為遠距離行人目標、部分遮擋行人目標及嚴重遮擋行人目標訓練子集,500 張圖像作為測試子集,并結合原有的全天、白天與夜間數據子集,與1.2 節中的3 種特征選擇方法進行對比,實驗結果如表1所示。

Table 1 Miss-rate of three traditional channel fusion methods under KAIST test subsets表1 3種傳統通道融合方法在KAIST測試子集下的檢測漏檢率 %
由表1 可知,在傳統通道融合方法中,中期融合的全天漏檢率為15.78%,但在檢測較小分辨率、存在遮擋的行人目標方面仍存在不足。在特征選擇法中,僅靠設定特征閾值的方差選擇法在各子集上的檢測表現較差,在節約開銷的前提下漏檢率上升;而采用LogisticRegression 基模型的遞歸特征消除法與樹模型的特征選擇法在各子集上的漏檢率優于傳統通道融合方法。遞歸特征消除法經過多輪的特征排除與選擇,全天漏檢率為12.17%,遠距離行人目標漏檢率為58.73%,部分遮擋行人目標漏檢率為36.80%。基于特征選擇的方法相比于傳統通道融合方法,在遠距離行人目標及存在遮擋的行人目標數據子集上都能實現較低的漏檢率,實驗結果驗證了特征選擇方法的有效性與實用性。
由2.1 節的實驗結果可知,基于特征選擇的無錨框多光譜行人檢測方法與傳統的通道融合行人檢測方法相比略有優勢。在較小的行人目標及遮擋行人目標子集上,基于遞歸特征消除法的多光譜行人檢測方法相比其它方法表現出一定的優越性。但僅憑上述實驗結果無法確切驗證特征選擇方法的有效性,因此采用效果最優的遞歸特征消除法在KAIST 數據集上進行關于注意模塊的消融實驗。為驗證注意模塊在算法中的作用,首先選擇傳統通道融合方法與CenterNet 雙通道網絡進行實驗。在CenterNet 雙通道網絡的基礎上,分別添加用于處理高級語義特征部分的注意網絡及處理低等細節特征部分的注意網絡并進行實驗。最后,與完整的基于特征選擇的CenterNet 網絡進行對比,實驗結果如表2所示。

Table 2 Comparison of miss-rate of ablation experiment on KAIST dataset表2 KAIST數據集上消融實驗漏檢率比較 %
由表2 可知,在全天、白天及夜間的子集上,添加不同的注意網絡后檢測率提升有限,但在較小行人目標及遮擋行人目標子集上,檢測率有明顯提升。且相比之下,添加處理低等細節特征部分的注意網絡后,檢測率提升幅度明顯較大,驗證了該網絡在檢測較小行人目標方面的有效性。實驗結果表明,基于特征選擇的CenterNet 方法在各子集上的檢測率都有所提升,充分驗證了特征選擇方法應用于無錨框多光譜行人檢測的有效性。
分別使用中期融合CenterNet 方法、基于特征選擇的CenterNet 方法與現有的RPN+BF 等方法在KAIST 數據集上進行測試,結果如表3所示。

Table 3 Comparison of miss-rate among different methods on KAIST dataset表3 不同方法在KAIST數據集上的漏檢率比較 %
由表3 可知,基于特征選擇的CenterNet 方法應用于全天、白天及遠距離行人目標集合的漏檢率與MSDS-RCNN等現有方法的漏檢率相近;在夜間行人目標集合上的漏檢率為15.72%,與現有方法IATDNN 的漏檢率相同;在部分遮擋行人目標集合上的漏檢率為36.80%,優于其他檢測方法;在嚴重遮擋行人目標子集上的漏檢率與現有方法MSDS-RCNN 相近。實驗結果表明,本文方法能夠在保證全天檢測率與現有方法相當的前提下,實現較低的遠距離及存在遮擋的行人目標漏檢率,具有較強的魯棒性。
為驗證基于特征選擇的多光譜行人檢測方法的有效性,在KAIST 數據集中進行特征圖可視化,并標注置信度。由于置信度能夠代表當前框內存在對象的概率,因此能夠解釋算法的有效性。實驗結果表明,上述方法對中遠距離及存在遮擋的目標檢測效果良好,具備一定的魯棒性。部分實驗結果如圖4所示(彩圖掃OSID 碼可見,下同)。

Fig.4 Visualization results of feature maps圖4 特征圖可視化結果
與傳統的通道融合行人檢測不同,本文方法中的可見光圖像和熱紅外圖像分別通過包含卷積層與殘差網絡的預處理階段,在Hourglass 網絡模塊1 后進行特征選擇,從而篩選行人特征。原圖像及特征圖對比如圖5 所示,從左至右分別是原圖像、傳統通道融合后的特征圖及特征選擇后的特征圖,特征圖分辨率為160×128。
由圖5 的特征圖可知,傳統的通道融合方法難以檢測出受到遮擋的行人目標,但特征選擇方法會對行人目標的復雜特征進行過濾與篩選,因此行人目標將更加精確,且具有更好的辨識度。為更具體地說明基于特征選擇的無錨框多光譜行人檢測方法的應用性能,實驗將多種方法進行比較,并將結果以MR-FPPI 圖形式呈現,如圖6 所示。由圖中的曲線可知,基于特征選擇的無錨框多光譜行人檢測方法在KAIST 數據集上的漏檢率為12.17%,性能優于大多數其他行人檢測方法。實驗結果再次驗證了多光譜行人檢測方法中特征選擇的有效性及魯棒性。

Fig.5 Comparison of original image and feature map圖5 原圖像及特征圖對比

Fig.6 Comparison of MR-FPPI between the proposed method and other methods圖6 本文方法與其他方法的MR-FPPI圖對比
由圖6 可知,本文方法對遠距離行人目標及部分存在遮擋的行人目標的漏檢率分別為58.73%和36.80%。特征選擇方法對于部分低分辨率及遮擋行人目標也具備較好的識別效果,檢測結果如圖7 所示。圖中的綠色框為真實框,紅色框為檢測框。圖7 的結果表明,該方法對于中遠距離及存在遮擋的行人目標具有很好的檢測效果,但當行人目標數量較多時,因行人之間的相互遮擋等原因可能導致漏檢。但總體而言,基于特征選擇的多光譜行人檢測方法很大程度上優化了較小行人目標及存在遮擋行人目標的檢測精度。
行人檢測在計算機視覺領域應用廣泛,近年來備受關注。本文闡述了基于特征選擇的無錨框多光譜行人檢測方法,并與傳統的通道融合方法進行對比。在KAIST 數據集上的實驗結果表明,特征選擇方法能夠有效過濾與篩選行人目標的復雜特征,能夠解決大多數情況下行人目標由于分辨率低、存在遮擋導致的漏檢、誤檢問題,在實際應用時具備一定的魯棒性。

Fig.7 Part of the detection result of the proposed method on KAIST dataset圖7 本文方法在KAIST數據集上的部分檢測效果
多光譜數據源及特征選擇方法雖然有效降低了行人檢測的漏檢率,但也面臨新的問題。首先,行人檢測實驗需要大量數據集,但目前標準的多光譜行人檢測數據集數量極少,實驗存在一定局限性。其次,本文通過多光譜數據源及特征選擇方法,有效將較小行人目標及存在遮擋行人目標的漏檢率分別降低至58.73%與36.80%,但針對場景的復雜性及環境的特殊性,該漏檢率仍有待進一步降低。最后,現有行人檢測算法在檢測嚴重遮擋行人目標方面尚未實現突破性進展,因此將成為后續行人檢測的一個重要研究方向。