林志鴻, 鄭力新, 曾遠躍
(1. 華僑大學 工學院, 福建 泉州 362021;2. 福建省特種設備檢驗研究院 泉州分院,福建 泉州 362021)
自動扶梯[1]已經成為商場、醫院、車站等公共場所常見的載客設備。但自動扶梯在實際應用中,由于乘坐人員使用不當和應急救援(自救)不及時,容易造成乘坐人員的墜落、碰撞、擠壓等事故[2-4],對人體傷害大、危險性高[5]。因此,準確及時的危險行為檢測是保障自動扶梯使用的重要前提。
危險行為檢測以人體骨架序列[6-7]為研究對象,先提取圖像中乘客的姿態信息,再將所提取的骨架序列蘊含的人類行為進行分類,直觀地讓模型理解目標的行為,進而分析乘客行為的安全性。因此,穩定準確的人體姿態估計(HPE)對自動扶梯的危險行為檢測具有重要意義。
早期的HPE僅針對單人目標,主要是基于傳統的計算機視覺算法。湯一平等[8]針對少數畫面幀中人體對象漏檢問題導致的姿態估計丟失,提出基于混合高斯背景差分的方向梯度直方圖(HOG)特征匹配算法,該算法能夠對粘連的人體對象進行有效分割,從而降低人體對象誤檢率。但是HOG特征匹配算法對姿態和尺度形變較為敏感,對人物尺度變化較大的自動扶梯監控圖像的檢測精度不佳。
隨著卷積神經網絡(CNN)的發展,HPE逐漸擴展到多人姿態估計領域。多人姿態估計根據骨骼關鍵點生成方式的不同分為自底向上方法和自上而下方法。自底向上方法提取畫面中所有可能的骨骼關鍵點,生成高斯分布概率圖[9-12],設計復雜的匹配策略組合人體姿態。自上而下方法[13-18]不同于自底向上方法一次性生成所有關鍵點,是由人類檢測器和姿態估計器構成的兩階段方法。兩種檢測器將HPE劃分為兩個階段:1) 人類檢測器在監控畫面中檢測可能存在的乘客類別和定位區域;2) 姿態估計器中,對檢測到的乘客所在區域使用單人姿態估計生成人體骨骼關鍵點。相比自底向上方法,自上而下方法具有較強的多人場景建模能力,能夠有效避免不同人類骨骼之間的錯誤連接。不同于CNN模型,一些研究人員把Transformer[19]結構用于關鍵點位置的預測。TokenPose[20]從大量數據中學習關鍵點之間的統計約束關系,編碼為關鍵點token。集聯Transformer的姿態識別(PRTR)[21]利用自注意力層在Transformer中進行標記化表示,以捕獲關鍵點的關節空間和外觀建模。雖然基于Transformer的架構能夠在空間和時間域中編碼身體關節之間的遠程依賴關系,但它們通常需要大規模的訓練數據集來實現與卷積網絡相比較的性能,這讓Transformer的訓練和推理變得昂貴。
自動扶梯場景中的實時姿態估計對模型的精度和速度具有一定的要求。YOLOPOSE[22]具有恒定的檢測時間和精度優勢,能滿足扶梯場景中人體姿態估計對準確性和實時性的要求。結合應用環境和模型部署條件,以YOLOPOSE為基線模型,對自上而下方法進行研究。然而,自上而下方法受到2個限制:1) 人類估計器依賴人類檢測器的檢測結果,未識別、錯誤識別和定位錯誤的人類乘客都會導致人類姿態估計的失效;2) 2種檢測器網絡的參數量和計算量過于龐大,增加了訓練量和推理成本,也增加了危險行為的檢測耗時。這2個限制會影響自上而下方法的準確性和計算效率。基于此,本文提出一種基于空間依賴的多任務解耦姿態網絡(multi-task decoupled pose network,MTDPN)。
耦合的人類檢測器[23-24]導致不同任務的特征關注方向之間的混淆[25-26],因此,提出多任務解耦姿態網絡(MTDPN),允許每個任務獨立地學習和調整自己的偏置參數。
為了讓具有不同特征關注方向的分類和定位任務實現各自最佳性能,提出一種多任務解耦姿態網絡(MTDPN),將自上而下方法的檢測網絡解耦成多條不共享支路,以滿足不同的視覺任務的特征關注需求。將包含分類、定位和姿態估計3種視覺任務信息的特征金字塔稱為多任務耦合特征,在解耦頭架構中,多任務耦合特征被拆解為3條不共享的任務分支,表示為
T∈RH×W×C×(cls,box,conf,Nkpt),
(1)
(2)

全卷積耦合網絡和多任務解耦姿態網絡架構,如圖1所示。圖1中:(a)是原始的全卷積耦合網絡,通過全卷積層輸出所有任務的預測結果;(b)是多任務解耦姿態網絡;P3~P6分別表示第3~6層的特征層;N類別為網絡預測的類別數量,通常為1;N關鍵點為網絡估計的人體關鍵點的數量,通常為17。

圖1 全卷積耦合網絡與多任務解耦姿態網絡的架構圖Fig.1 Architecture of full convolutional coupling network and multi-task decoupled pose network
首先,多任務耦合特征以1個卷積核大小為1×1的空間非依賴卷積層作為根莖層;然后,連接2層卷積核大小為3×3的空間非依賴卷積和1層卷積核大小為1×1的空間非依賴卷積,以構建分類支路;最后,輸出全部類別的預測結果。相似地,定位支路遵從分類支路的構建原則,定位支路復用分類支路中第1層空間非依賴卷積的特征信息,以減少參數冗余,再構建1層卷積核大小為3×3的空間非依賴卷積適配定位任務的特征關注方向。由于置信度分支與定位支路的交并比(IoU)判別原則有非常深的聯系,因此,置信度分支與定位共享特征信息。
采用2層平行卷積核大小為1×1的空間非依賴卷積分別輸出回歸結果和置信度結果。姿態估計分支首先由一層卷積核大小為1×1的空間依賴卷積激活支路關注的特征信息;然后,使用重復堆疊6次卷積核大小為3×3的空間非依賴卷積和卷積核大小為1×1的空間非依賴卷積構成卷積塊;最后,輸出57個人體關鍵點結果。為了防止不同任務特征關注方向的相互影響,人類檢測器分支應該不與姿態回歸器分支共享任何參數。
自上而下方法的兩種檢測器模型和多任務解耦姿態網絡的多分支結構引入了龐大的計算成本和復雜的特征表達,增加了自動扶梯場景中自上而下方法應用的優化難度和推理成本。為了降低自上而下方法的龐大計算量與學習難度,提出一種空間依賴卷積(spatially-aware convolution,SA Conv),結構如圖2所示。

圖2 空間依賴卷積的結構Fig.2 Structure of spatially-aware convolution
空間依賴卷積通過逐深度卷積和逐點卷積減少計算消耗。通道聯合層對通道特征進行重新縮放,縮小通道,將網絡的決策能力集中在最具有區分性和重要性的特征上。放大通道可以增強有用特征的表示,減少冗余和噪聲特征的影響,提高網絡的表達能力和泛化性能。空間聯合層考慮特征圖中垂直和水平特征之間的關系,學習兩個不同方向上的權重,并通過分裂和聚合重新對特征加權,提高重要特征的表示能力,以此來彌補輕量化帶來的精度損失。兩層設計的注意力層進一步降低優化難度。

F1=T?σ(W2(RL(W1(Z))。
(3)
式(3)中:W1∈R(C,C/r)為壓縮層卷積變換函數;W2∈R(C/r,C)為擴張層卷積變換函數;RL為激活函數ReLU;σ為Sigmoid激活函數;?為逐元素乘積符號。
空間聯合層作用是通過沿水平和垂直方向的自適應池化進行操作,保持特征圖上每組關鍵點之間的空間關系,并利用這些關系構建方向感知特征圖。
(4)
F3=?(F2)。
(5)
式(4),(5)中:[·,·]為特征圖沿空間方向上的連接操作;F2∈RW×H×C×Nkpt是在垂直與水平兩個方向上編碼姿態關鍵點的中間特征圖;?為非線性激活函數;W3∈R(C,C/r)。

(6)
(7)
T*=F1?gh?gw。
(8)
式(6)~(8)中:gw和gh分別為垂直因子和水平因子;T*為空間依賴卷積輸出結果。
最后,通道聯合層特征F1與垂直因子gw和水平因子gh共同以元素乘積方法作用,獲得空間依賴卷積的結果T*。
訓練時預熱階段的迭代設置為3個輪次,預熱期間動量設置為0.8,偏置大小初始化為0.1;初始學習率設置為0.01,優化器使用隨機梯度下降法,初始動量為0.937,交并比的閾值設置為0.2,錨框閾值為4.0。數據增強方面,考慮到小目標的識別,通過馬賽克法拼接并進行隨機隨選、翻轉、平移等幾何操作,提高模型的泛化能力,混合增強使用概率為0.1,圖像復制使用概率為0.1。實驗在2臺NVIDIA GeForce GTX TITAN Xp GPU上進行,使用Python3.8和Pytorch深度學習框架。
實驗數據集來自兩個商場的監控視頻,通過監控視頻及手持相機采集了不同角度下行人在扶梯場景的危險行為,共6 553張圖片。通過Labelme軟件標注每個人類乘客的目標檢測標簽框,扶梯危險行為關鍵點數據集部分場景,如圖3所示。為每個人類乘客標注17個人體關鍵點信息,包括鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左臀、右臀、左膝、右膝、左腳踝、右腳踝。每個關鍵點的坐標信息包括(x,y,v),其中,(x,y)表示該關鍵點歸一化后所在的圖像坐標;v表示該關鍵點在圖像中的可見度,v∈{1,2,3},其中,1為完全可見,2為遮擋可見,3為完全不可見。為方便模型訓練,扶梯危險行為關鍵點的可見度皆為1。

(a) 攜帶寵物 (b) 攜帶包裹 (c) 翻越扶手 (d) 跌倒 (e) 逆行 圖3 扶梯危險行為關鍵點數據集部分場景Fig.3 Partial scenarios from escalator dangerous behavior key point dataset
數據集劃分訓練集、驗證集和測試集,其中,5 306張乘客狀態圖片為訓練集,657張乘客狀態圖片為測試集,590張乘客狀態圖片為驗證集。圖像像素大小為1 080 px×1 080 px,訓練時將圖片尺寸統一縮放為640 px×640 px。
準確率ηP是指在識別出來的圖片中正確識別樣本的數量與樣本總數量的比例,即
(9)
式(9)中:TP和FP分別為正確和錯誤識別樣本數量。
召回率ηR是測試集中正確識別的樣本被分類器正確識別為正的比例,即
(10)
式(10)中:FN為未正確識別的樣本數量。
計算每張圖片中真實關鍵點與預測的關鍵點之間的相似度SOK,通過所有圖片的SOK計算平均準確率ηAP,即
ηAP=∑pσ(SOK>T)/∑p1。
(11)
式(11)中:p為當前組的預測值;σ為標準差;T為閾值,表示識別的困難程度。
所有關鍵點類別的ηAP的平均值(ηmAP)表示模型在所有關鍵點類別上的平均性能,其表達式為
(12)
ηmAP0.5表示IoU閾值設置為0.5的ηmAP,ηmAP0.95表示IoU閾值從0.50到0.95的ηmAP。ηmAP得分越高,表明模型在測試集上的擬合程度越高。因此,選取ηP,ηR,ηAP,ηmAP0.5和ηmAP0.95對姿態估計模型的有效性進行評估。
對不同輕量化方法搭建的多任務解耦姿態網絡的計算成本進行對比,如表1所示。表1中:參數量(NP)和浮點計算量(NF)為網絡大小指標,這2個指標越小,表明網絡占用資源越小;ηP,ηR和ηmAP0.5為精度指標,這3個指標越高,說明網絡的準確性能越好;每種網絡完成590張圖片推理的時間(t)和每張圖片檢測時間(tp)為速度指標,這2個指標越小,說明網絡推理圖片的速度越快。將圖像統一縮放至像素為640 px×640 px,在相同GPU設備上推理相同的590張扶梯危險行為關鍵點測試集。通過上述指標評估空間依賴卷積的輕量化效果、優化性能,以及在自動扶梯中對危險行為檢測的及時性。

表1 不同輕量化方法搭建的多任務解耦姿態網絡的計算成本Tab.1 Calculation cost of multi-task decoupled pose networks built by different lightweight methods
由表1可知:全卷積使用最復雜的卷積計算提取圖像特征,其精度指標ηmAP0.5為99.5%,體現了最好的準確性能,對應產生最大的參數量26.2×106和浮點計算量61.5×109,龐大的計算量增加了推理成本。使用全卷積的計算成本最高,原因可能是在大尺度特征圖,如在F0∈(80,80)分辨率下進行特征提取時,會產生指數式增長的計算成本。空間依賴卷積使用逐點卷積和逐深度卷積替代全卷積,在大分辨率的每個像素點上進行分組卷積,參數量減少了48%,浮點計算量減少了59%,完成590張圖片的推理時間最少,僅為43.2 s,每張照片檢測時間僅為73.3 ms。同時,空間依賴卷積增強了不同任務的表達能力和學習效果,相比全卷積,其ηmAP0.5僅降低0.1%。
將目前最新的輕量化網絡ShuffleNet V2[27]與EfficientNetV2[28]進行對比。ShuffleNet V2將參數量和浮點計算量分別壓縮至12.3×106,18.6×109,獲得了最小的參數量;但由于設計通道重排,每張圖片的檢測時間相比空間依賴卷積增加了16.2 ms,其ηmAP0.5較空間依賴卷積降低了1.5%。相比空間依賴卷積,EfficientNetV2的參數量和浮點計算量分別增加了12.8×106,6.3×109,每張圖片的檢測時間增加了18.7 ms,并且由于缺少對不同任務的強化表達,其ηmAP0.5相對空間依賴卷積降低了1.5%。
綜合表2結果可知,空間依賴卷積在精度指標和速度指標的平衡中取得最優。

表2 多任務解耦姿態網絡在扶梯危險行為關鍵點數據集上的性能比較Tab.2 Performance comparison of multi-task decoupled pose network on escalator dangerous behavior key point dataset
在扶梯危險行為關鍵點數據集上評估多任務解耦姿態網絡的性能并進行比較,結果如表2所示。由表2可知:在扶梯危險行為關鍵點數據集中,相比YOLOPOSE[22]網絡,MTDPN的ηmAP0.5和ηmAP0.95分別提升了0.3%和4.4%,ηP和ηR分別提高了1.6%和1.8%,這得益于任務解耦架構對姿態估計方法作用;YOLOv7-POSE[29]具有更高的準確率,這是因為自上而下方法是個復雜的多任務網絡,受到目標檢測精度的影響,而YOLOv7-POSE為不同目標動態分配最佳候選對象,提高了其在目標檢測上的準確性,并采用了更加復雜的卷積提取模塊,其參數量較MTDPN增加了9.9×106,因此,YOLOv7-POSE網絡姿態估計的準確率略高。
為了進一步評估多任務解耦姿態網絡的有效性,將MTDPN與自上而下和自底向上的姿態估計網絡在COCO關鍵點數據集上中進行性能比較,結果如表3所示。表3中:輸入尺寸為輸入網絡的分辨率指標,輸入尺寸越大,網絡的準確率越高;NP和每秒109次的乘法-加法運算次數(NGMACS)為網絡大小指標,這兩個指標越小,網絡占用資源越小;ηAP,IoU閾值為0.5的ηAP(ηAP0.5),IoU閾值為0.75的ηAP(ηAP0.75),檢測物體面積大于像素96 px×96 px的ηAP(ηAPL),IoU閾值范圍在[0.5,1.0]的最大召回率的平均值(ηAR)為精度指標。

表3 多任務解耦姿態網絡在COCO關鍵點數據集上的性能比較Tab.3 Performance comparison of multi-task decoupled pose network on COCO key point dataset
自底向上的方法Hourglass、HigherHRNet、PifPaf為每個關鍵點獨立估計高斯分布熱圖,再通過關節配對方法一次性組合所有的關鍵點,具有實時性快的優點;自上而下的方法EfficientHRNet-H0通過保持高分辨組合不同特征尺度中的關鍵點,實現精確的人體姿態估計;DEKR通過解開每個關鍵點獨立回歸,在檢測物體面積大于像素96 px×96 px的指標中取得了最佳。
由表2,3可知:MTDPN通過調整不同視覺任務的特征關注方向,有效提升了姿態估計方法的準確率;空間依賴卷積能夠增強不同任務的表達能力和學習效果,對乘客特征的關注具有正向作用。
為實現自動扶梯場景下姿態估計方法的快速響應和準確估計,提出一種基于空間依賴的多任務解耦姿態網絡,將檢測網絡解耦為分類、定位兩個不共享的任務分支,以滿足不同視覺任務的特征關注方向差異的需求,從而實現分類和定位任務各自的最優性能,提高人類檢測器的精確度。通過設計空間依賴卷積和空間非依賴卷積網絡搭建MTDPN的多分支結構,相比全卷積網絡,其參數量減少了48%,浮點計算量減少了59%,每張圖片檢測時間僅為73.3 ms。相比原始網絡YOLOPOSE,MTDPN在扶梯危險行為關鍵點數據集的精度指標ηmAP0.5和ηmAP0.95分別提高了0.3%和4.4%,在COCO關鍵點數據集的ηAP提高了6.2%。推理速度和精度的提升保證了基于自動扶梯危險行為檢測的準確估計和速度優勢。然而,多分支檢測架構會增加模型訓練的時間消耗,因此,下一階段的研究目標是在訓練階段并行融合檢測和估計分支,以縮短多分支姿態估計網絡的時間訓練成本。