徐世文,王 姮,張 華,龐 杰
一種基于關鍵點的紅外圖像人體摔倒檢測方法
徐世文,王 姮,張 華,龐 杰
(西南科技大學 信息工程學院,四川 綿陽 621000)
針對已有人體摔倒檢測方法在復雜環境場景下易受光照影響、適應性差、誤檢率高等問題,提出了一種基于關鍵點估計的紅外圖像人體摔倒檢測方法。該方法采用紅外圖像,有效避免了光照等因素的影響,經過神經網絡找到人體目標中心點,然后回歸人體目標屬性,如目標尺寸、標簽等,從而得到檢測結果。使用紅外相機采集不同情況下的人體摔倒圖像,建立紅外圖像人體摔倒數據集并使用提出的方法進行檢測,識別率達到97%以上。實驗結果表明提出的方法在紅外圖像人體摔倒檢測中具有較高的精度與速度。
紅外圖像;關鍵點估計;摔倒檢測;神經網絡
隨著醫療保障的提高,人口老齡化已是當今社會的一個問題。根據相關調查表明,老年人受到意外傷害的主要原因之一就是摔倒。因此,防止老年人摔倒也變得越來越重要。世界衛生組織報告說,每年因跌倒造成的嚴重傷害超過3730萬人次,死亡64.6萬人[1]。摔倒是一個重要的公共健康問題,其傷害很大程度上取決于救助響應時間的長短。智能的摔倒檢測系統可以全天候工作,及時做出反應,實時保護人們的安全。
現在主流的人體摔倒檢測方法根據檢測傳感器的不同大致分為基于穿戴式的摔倒檢測、基于環境式的摔倒檢測以及基于計算機視覺的摔倒檢測3類。基于穿戴式檢測法通常將加速度計以及陀螺儀等傳感器佩戴在身體上,收集運動數據[2-4],使用采集得到的傳感器數據訓練MLP[5](multilayer perceptron)、SVM[6](support vector machines)等機器學習算法進行人體摔倒檢測。基于外部傳感器的摔倒檢測方法需要隨身穿戴傳感器,存在用戶穿戴起來不方便和不自在,容易脫落等問題。基于環境式的摔倒檢測是提前在指定的區域布置好諸如壓力傳感器、聲音傳感器等,通過傳感器采集到的數據進行檢測,這種方法存在容易被環境噪聲影響[7],成本高等問題。另外,基于計算機視覺的摔倒檢測法通常對攝像頭拍攝到的圖像進行目標的提取,獲取其特征,再通過對特征的分析從而得到摔倒檢測結果。文獻[8]將行人用矩形框表示,通過矩形框的長寬比例來說明行人的姿態,從而進行摔倒檢測;文獻[9]將目標的輪廓擬合成橢圓,提取其幾何與運動兩種特征,組成一個新的特征,使用SVM進行摔倒判斷;文獻[10]使用高斯混合模型得到人體目標,提取多幀特征并融合得到基于時間序列的運動特征,使用一個簡單的卷積神經網絡判斷摔倒。文獻[11]中提出一種基于人體骨骼關鍵點和神經網絡的人體摔倒檢測方法,通過Alphapose檢測人體骨骼關鍵點,并用來訓練LSTM(long short term memory)神經網絡,實現人體摔倒的檢測。
上述人體摔倒檢測研究中使用的視頻與圖像均是可見光圖像,然而在生活中應用人體摔倒檢測的往往是老人和容易出現情況的病人,這些地方一般都是需要24h監控。可見光圖像在夜晚和光照條件不好的場景中不能很好地呈現出圖像,在這些情況下不能做到準確地檢測摔倒情況。紅外圖像目標識別技術是指通過對紅外圖像進行預處理,然后提取目標特征,最后實現目標的定位與識別[12]。與可見光圖像相比,紅外圖像直觀反映的是物體的溫度,一般而言紅外圖像中行人的亮度比背景亮度要高,且紋理、顏色和光照對紅外圖像幾乎沒什么影響,這使得紅外圖像在進行人體檢測方面具有很大的優勢和潛力。
針對上述問題,本文提出了一種基于關鍵點估計的紅外圖像人體摔倒檢測方法。該方法采用紅外相機采集圖像,圖像經過全卷積網絡得到人體目標中心點,并在中心點位置回歸出目標位置以及狀態屬性等,從而實現人體摔倒檢測。
目標檢測識別往往在圖像上將目標以軸對稱的框形式框出,大多數成功的目標檢測器都是羅列出大量的候選框并對其分類。這樣做法浪費時間,并且低效,還需要額外的后處理。本文中提出采用一種不同的方法,構建模型是將目標作為一個點,即目標的中心點。檢測器通過熱力圖尋找中心點然后回歸目標的其他屬性,比如大小,3D位置坐標,方向甚至姿態。相比較于基于目標框的檢測器,基于中心點的檢測網絡centernet[13]是一個端到端的、獨特的、簡單而快速的目標檢測器。
在網絡中,僅僅將圖像傳入全卷積網絡,得到高維特征圖,然后在特征圖上進行卷積操作得到熱力圖,確定目標中心點、中心點偏移值以及目標尺寸大小。網絡整體架構如圖1所示。

圖1 Centernet網絡整體架構


式中:和是損失函數的超參數;是圖像中的關鍵點個數,式中除以是為了將所有焦點損失歸一化。在實驗中,一般選取=2,=3。




在此方法中,不用歸一化目標尺寸而是直接使用原始像素坐標。為了調節總的loss的影響,分別對損失函數中的偏移損失和尺寸損失乘以一個影響系數,整個訓練的目標損失函數如式(4)所示:
det=L+sizesize+offoff(4)



目前基本上所有的基于視覺的摔倒檢測研究都是在可見光圖像上基礎上進行的,為了避免復雜光照條件影響以及能在夜晚和白天24h工作,本文研究了基于紅外圖像下的人體摔倒檢測。因為沒有公開的紅外圖像人體摔倒數據集,為此在這對公開的人體摔倒數據集進行分析,了解其數據集中的人體行為,摔倒場景,圖像分辨率等內容。在此基礎上,搭建人體摔倒場景,設定行為內容,然后使用紅外成像設備獲取紅外數據,制作紅外圖像人體摔倒數據集。
本文主要研究了MuHAVi-MAS17和Le2i兩個公開數據集,這兩個摔倒數據集在摔倒檢測中使用最多,其數據量大,內容豐富,是目前主流的人體摔倒檢測數據庫。
MuHAVi-MAS17是一個行為識別數據集,其中包含了人們在生活中的常做的行為,諸如走路、坐、奔跑以及需要的摔倒動作。此數據集使用8個攝像頭在不同的方位來錄制數據,內容豐富且樣本多樣化。數據集中每個人都有多個不同視角的摔倒圖像,有左摔和右摔姿勢,分辨率為720×576。
Le2i摔倒數據集是法國學者們使用一個分辨率為320×240的相機在一個擬真的場景中錄制而來。數據集中有200多個視頻序列,包含辦公室、咖啡室、客廳以及演講室等不同場景。在各種場景中的人進行了多種日常動作和摔倒行為,日常動作有下蹲、行走以及彎腰等,摔倒姿勢有前后摔和左右摔等,內容豐富,數據充足。
通過對上述摔倒數據集的分析與研究,本文使用紅外圖像設備自行采集紅外圖像人體摔倒圖像,建立摔倒數據集。選擇在一間場景較為簡單的房間為摔倒場景,將紅外相機放置在房間的不同角落以獲得不同方向的圖像。紅外相機分辨率為640×480,輸入電壓12V,是一款高清單目熱紅外成像儀。紅外相機如圖2所示。

圖2 紅外相機以及電源
通過電腦讀取紅外相機獲取的原始實時流數據,由于原始紅外數據是14位的,無法使用電腦顯示出來,所以使用OpenCV對其進行預處理,轉為8位數據,并對圖像線性拉伸,提高對比度。整套錄制場景如圖3所示。

圖3 紅外數據錄制場景
本文實驗平臺是一臺Intel Xeon 八核E5- 2620V4(2.1GHz,QPI速度8.0GT/s),64G內存的高性能計算工作站。為了驗證本文提出的檢測方法,邀請了幾位成人模擬室內日常活動以及摔倒行為,圖像中包含單人活動、兩人活動以及多人(3~4人)活動,共錄制了4組數據,共獲取到30000多張紅外圖像。對已經獲取的紅外人體摔倒數據集進行篩選,考慮到獲取數據時幀率很高,導致相鄰的圖像內容變化不大,經過觀察選擇每10張中提取一張作為有效數據,提取大約3000張圖像作為訓練與測試數據,其中訓練集2500余張,測試集約260余張。部分數據集如圖4所示。
通過使用本文提出的檢測方法在制作的紅外行人摔倒數據集上進行測試,經過參數的調整,得到比較好的結果,部分實驗結果如圖5所示。

圖4 部分人體摔倒數據集

圖5 人體摔倒檢測效果
在以往的人體摔倒檢測中,摔倒的狀態往往是平躺或者側躺的姿勢,本文為了提高樣本的多樣性,更加真實地模擬現實場景中的摔倒,添加了例如趴著、跪著摔倒以及由于摔倒而腳抬升等不同的摔倒姿勢。通過圖5中的實驗結果可以看出,算法能夠準確地檢測出各種摔倒姿態與正常兩狀態。對于在摔倒時發生前有行人或物體遮擋情況下亦能準確檢測,能夠滿足在一定場景內的行人摔倒檢測需求。
為了分析本文提出算法的性能和實時性,通過使用YOLO v3、Faster RCNN算法與之做對比實驗,測試結果如表1所示。

表1 對比實驗結果
從表中可以看出,Yolo v3與本文算法的運行速度很快,而Faster RCNN算法速度較慢。由于本文方法網絡的整個輸出都是直接從關鍵點估計得出,因此不需要基于IOU(intersection over union)的非極大值抑制NMS(non max suppression)或者其他后續處理,這對整個網絡的檢測速度有了很大的提升。表中可以看出本文方法在紅外圖像人體摔倒檢測中準確率達到了98%以上,比其他兩種方法高,對有遮擋和各種不同姿態的摔倒方式等較為復雜的情況下都能有效定位與識別。
為了進一步分析實驗結果的可靠性,選擇摔倒檢測中常用的準確率和召回率來對本文訓練的模型進行評判。通過改變識別閾值,得到不同閾值下的準確率與召回率,最后得到P-R(precision-recall)曲線,如圖6所示。

圖6 本文算法的P-R曲線
對于P-R曲線來說,曲線下的面積越大,即AP(average precision)值越大,證明模型的性能越好。從圖6曲線中能夠看出,在使用的較少的測試數據下本文訓練的模型性能優越,能夠準確進行紅外圖像下的人體摔倒檢測。
針對人體摔倒檢測問題,本文提出了一種基于關鍵點估計的紅外圖像人體摔倒檢測方法。基于目前人體摔倒檢測所使用的數據集特點,搭建紅外圖像采集系統與環境,建立了自己的紅外圖像人體摔倒數據集。通過關鍵點估計來找到人體目標中心點,然后回歸人體目標屬性,如目標尺寸、標簽等,從而得到檢測結果。實驗結果表明,本文提出的方法在紅外圖像上能實時地進行人體摔倒檢測,有較好的準確性和魯棒性,具有較高的實際應用價值。在未來的工作中,擴展自建的紅外圖像人體摔倒數據集,豐富人體摔倒的場景和姿態,進一步研究紅外圖像下人體摔倒檢測問題是未來工作的重點研究內容。
[1] Santos G , Endo P, Monteiro K , et al. Accelerometer-based human fall detection using convolutional neural networks[J]., 2019, 19(7): 1644.
[2] Gia T N, Sarker V K, Tcarenko I, et al. Energy efficient wearable sensor node for IoT-based fall detection systems[J]., 2018, 56: 34-46.
[3] Nadee C, Chamnongthai K. Multi sensor system for automatic fall detection[C]//, 2015: DOI: 10.1109/APSIPA.2015.7415408.
[4] Tzeng H W, CHEN M Y, CHE J Y. Design of fall detection system with floor pressure and infrared im age[C]//2010, 2010: 131-135.
[5] Kerdegari H, Samsudin K, Rahman Ramli A, et al. Development of wearable human fall detection system using multilayer perceptron neural network[J]., 2013, 6(1): 127-136.
[6] LIU Chengyin, JIANG Zhaoshuo, SU Xiangxiang, et al. Detection of human fall using floor vibration and multi-features semi-supervised SVM[J]., 2019, 19(17): 3720(doi: 10.3390/s19173720).
[7] Mazurek P, Wagner J, Morawski R Z. Use of kinematic and mel- cepstrum-related features for fall detection based on data from infrared depth sensors[J]., 2018, 40: 102-110.
[8] MIN W, CUI H, RAO H, et al. Detection of human falls on furniture using scene analysis based on deep learning and activity characteristics[J/OL]., 2018, 6: 9324-9335.
[9] FENG W, LIU R, ZHU M. Fall detection for elderly person care in a vision-based home surveillance environment using a monocular camera[J].,, 2014, 8(6): 1129-1138.
[10] 鄧志鋒, 閔衛東, 鄒松. 一種基于CNN和人體橢圓輪廓運動特征的摔倒檢測方法[J]. 圖學學報, 2018, 39(6): 30-35.
DENG Zhifeng, MIN Weidong, ZOU Song.A fall detection method based on CNN and human elliptical contour motion features[J]., 2018, 39(6): 30-35.
[11] 衛少潔, 周永霞. 一種結合Alphapose和LSTM的人體摔倒檢測模型[J]. 小型微型計算機系統, 2019, 40(9): 1886-1890.
WEI Shaojie, ZHOU Yongxia.A human fall detection model combining alphapose and LSTM[J]., 2019, 40(9): 1886-1890.
[12] 趙芹, 周濤, 舒勤. 飛機紅外圖像的目標識別及姿態判斷[J]. 紅外技術, 2007, 29(3): 167-169.
ZHAO Qin, ZHOU Tao, SHU Qin.Target recognition and attitude judgment of aircraft infrared image[J]., 2007, 29(3): 167-169.
[13] ZHOU X, WANG D , Krhenbühl P. Objects as points [J/OL]. [2019- 04-25]. arXiv:1904.07850(https://arxiv.org/ abs/1904.07850).
[14] YU F, WANG D, Shelhamer E, et al. Deep layer aggregation[J/OL]. [2019-01-04]. arXiv:1707.06484(https://arxiv.org/abs/1707.06484)
[15] Law H, DENG J . CornerNet: detecting objects as paired keypoints[J]., 2020, 128(3): 642-656.
[16] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]., 2017: DOI: 10.1109/ICCV.2017.324.
Human Fall Detection Method Based on Key Points in Infrared Images
XU Shiwen,WANG Heng,ZHANG Hua,PANG Jie
(,,621000, China)
To address the problems with existing human fall detection methods for complex environments, which are susceptible to light, poor adaptability, and high false detection rates, an infrared image human fall detection method based on key point estimation is proposed. This method uses infrared images, which effectively eliminates the influence of factors such as lighting; first, the center point of the human target is found through a neural network, and second, the human target attributes, such as the target size and label, are regressed to obtain detection results. An infrared camera was used to collect human body fall images in different situations and establish datasets containing infrared images of human falls. The proposed method was used for experiments; the recognition rate exceeded 97%. The experimental results show that the proposed method has a higher accuracy and speed than other two methods in infrared image human fall detection.
infrared image, key point estimation, fall detection, neural network
TP391.4
A
1001-8891(2021)10-1003-05
2020-02-18;
2020-02-21.
徐世文(1994-),男,四川省成都市人,碩士研究生,主要研究方向為計算機視覺與圖像處理、深度學習。E-mail:1411761943@qq.com。
王姮(1971-),女,碩士,教授,主要研究方向為機器人技術及應用、自動化技術研究。E-mail:wh839@qq.com。