陳慶澎,管雪梅*,徐崗翔,讓博慧,周一鳴
(1.東北林業大學 信息與計算機工程學院,黑龍江 哈爾濱;2.東北林業大學 機電工程學院,黑龍江 哈爾濱)
處于學前階段的兒童,活動能力尚弱,活動范圍小,根據《中國兒童傷害報告》的報告表明,3~6 歲的兒童每天在室內的時間占比高[1-2],而此階段的兒童對于危險的感知較弱,無法及時辨認環境危險。
針對室內情況下的兒童動作識別可以對即將到來的危險進行預警,從而避免悲劇的發生。
當前,姿態評估的數據集常見數據集有KTH 數據集[3],HMDB 數據集[4]。KTH 數據集人物背景單一,不適合室內的復雜情況,HMDB 數據集中人物背景復雜,但兒童部分數據過少。本文使用室內場景較多且包含兒童的A2D 數據集。
本文采用2D 卷積網絡[5],以殘差網絡Resnet(Residential network)[6]作為分類網絡,對圖像中的人物動作進行分類。由于室內環境復雜,物品多,因此,人物背景信息的冗余信息多。為解決傳統殘差網絡在訓練的過程中無法很好地學習標簽特征,其對測試集的準確率低,泛化性能差,過擬合現象嚴重的問題,本文引入CABM (Convolutional Block Attention Module)注意力模塊[7-9],通過注意力機制向不同的樣本,將注意力圖與輸入特征圖相差以進行自適應特征優化,從而緩解過擬合現象。
殘差網絡Resne 是何凱明等人在2015 年提出的模型,作者通過加入殘差結構解決退化問題。Resnet在處理深層網絡表現出較好的效果,見圖1。

圖1 殘差結構
Mnih 等最初在圖像處理方面引入了注意力機制概念,通過計算輸入數據的權重,突出某個關鍵輸入對輸出的影響。
注意力機制是將模型注意力集中在局部關鍵信息的機制,分成兩步:首先,全局掃描發現局部有用信息;其次,對有用信息增強同時抑制冗余信息。
CBAM 是一種注意力機制模塊,結合了空間(spatial)和通道(channel)的注意力機制模塊。相比于Senet 只關注通道(channel)的注意力機制可以取得更好的效果。
根據圖2 可以看到,從卷積層輸出的結果,先通過一個通道注意力模塊,進行加權之后,再通過一個空間注意力模塊,加權得到最終結果。

圖2 CBAM 模塊
本實驗采用A2D 公開數據集。相對于KTH,HMDB 公開數據集,A2D 數據集中來自日常生活數據,人物背景更加復雜,更貼近真實情況。
A2D 數據集中的兒童部分包含三類動作共計343個視頻,并且視頻同時標有像素級actor 和采樣幀的action。本文采用等間隔截取視頻幀,將視頻數據集圖片集。轉化為其中,前80 段為訓練集,后20 段為測試集。其中訓練集,訓練測試集,訓練結束測試集按照4:1 的比例劃分,見表1。

表1 兒童數據集介紹
數據增強技術很大程度上減小了網絡過擬合問題,提高了模型的泛化性[10]。
此外,與數據增強后的實驗結果相比,數據增強處理前的訓練集與測試集準確率的差值更大,數據增強使得模型泛化能力得到提升,同時改善模型的過擬合,見表2。

表2 數據增強
見表3。

表3 實驗環境
本文通過將Resnet 網絡模型和添加CBAM 的Resnet 識別效果進行對比,對模型的精準度進行測試。二者在訓練過程中的準確率見圖3,損失值見圖4。

圖3 訓練過程中的準確率

圖4 訓練過程中的損失值
可以看出,添加CBAM后的Resnet 訓練過程中的準確率與損失沒有明顯變化。
二者在測試集的數據見圖5,可以看到,Resnet 在測試集的準確率在到達60%開始波動,但訓練集的準確率依舊上升,表明模型陷入過擬合,在添加CBAM后Resnet 的準確率開始上升,最高可達到79.6%。實驗表明,添加CBAM后的Resnet 很好地緩解了過擬合現象。

圖5 測試集的正確率
兒童動作的識別可以很好地為兒童無人監管情況下的安全問題引入一個新的思路。由于數據集數據量小,模型無法避免過擬合現象,但通過引入CBAM結構,可以很好地緩解模型過擬合問題。通過改進殘差網絡,對兒童動作進行識別,其正確率滿足實際要求。