







摘" 要:對(duì)于現(xiàn)有跌倒行為識(shí)別算法在復(fù)雜的居家環(huán)境條件下,出現(xiàn)算法精度低、實(shí)時(shí)性差等問(wèn)題,文章提出一種基于YOLOv8的居家環(huán)境跌倒行為識(shí)別方法。該方法通過(guò)網(wǎng)絡(luò)攝像頭獲取視頻圖像,使用基于YOLOv8的目標(biāo)檢測(cè)算法識(shí)別監(jiān)控視頻中每一幀畫(huà)面的人體與跌倒特征,再結(jié)合時(shí)序狀態(tài)特征處理,設(shè)定規(guī)則判別跌倒行為,并進(jìn)行跌倒預(yù)警。實(shí)驗(yàn)證明,改進(jìn)的方法精確率達(dá)94.9%,召回率達(dá)95.7%,F(xiàn)PS為40,算法識(shí)別準(zhǔn)確率高、實(shí)時(shí)性強(qiáng),為跌倒行為識(shí)別提供了一種簡(jiǎn)單而有效的方法。
關(guān)鍵詞:YOLOv8;居家環(huán)境;目標(biāo)檢測(cè);跌倒特征;跌倒行為識(shí)別
中圖分類號(hào):TP391.4" " 文獻(xiàn)標(biāo)識(shí)碼:A" 文章編號(hào):2096-4706(2024)21-0029-06
Fall Behavior Recognition in Home Environment Based on YOLOv8
YUE Liyun, OU Jian'gang, CHEN Guohao, FANG Sixue, SHI Chenguang
(Guangdong Branch of China United Network Communications Co., Ltd., Guangzhou" 510627, China)
Abstract: For the algorithm problems of low accuracy and poor real-time performance of existing fall behavior recognition algorithms in the complex home environment conditions, this paper proposes a fall behavior recognition method in home environment based on YOLOv8. This method obtains video images from webcams, uses object detection algorithm based on YOLOv8 to identify the human body and fall features in each frame of surveillance video, and then combines the processing of sequential state features to set rules to identify fall behaviors and conduct fall warning. The experimental results show that the precision rate of the improved method is 94.9%, the recall rate is 95.7%, and the FPS is 40. The algorithm has high recognition accuracy and strong real-time performance, which provides a simple and effective method for fall behavior recognition.
Keywords: YOLOv8; home environment; object detection; fall feature; fall behavior recognition
0" 引" 言
國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,60歲以上老年人口占比從21年底的18.9%驟升到23年底的21.1%,并且有相關(guān)研究表明,老年人一年中至少發(fā)生一次跌倒的概率大約在20%,需要就醫(yī)的比例大約也在20%,且超過(guò)一半以上的跌倒發(fā)生在居家環(huán)境中[1]。老年人的身體機(jī)能隨著年齡增長(zhǎng)而下降,很容易因?yàn)榈苟鴮?dǎo)致輕者骨折、殘疾或活動(dòng)受限等身心健康影響,重者甚至危及生命,存在較大的安全風(fēng)險(xiǎn)[2]。龐大的人口基數(shù),疊加較高的發(fā)生概率和容易出現(xiàn)嚴(yán)重安全風(fēng)險(xiǎn),老年人在居家環(huán)境中跌倒的問(wèn)題更加引起人們的廣泛關(guān)注。因此,開(kāi)發(fā)一種準(zhǔn)確而高效的居家環(huán)境跌倒行為識(shí)別方法,從而實(shí)現(xiàn)跌倒識(shí)別與及時(shí)救助報(bào)警,對(duì)于更好保障老年人的生命健康,降低跌倒帶來(lái)的危害具有重要意義。
跌倒檢測(cè)的常見(jiàn)方法主要包括基于物理傳感器檢測(cè)和基于視覺(jué)分析識(shí)別兩種[3],考慮近些年深度學(xué)習(xí)技術(shù)的高速發(fā)展,基于深度卷積神經(jīng)網(wǎng)絡(luò)的視覺(jué)識(shí)別技術(shù)性能實(shí)現(xiàn)了質(zhì)的提升,同時(shí)考慮物理傳感器易受干擾和便利性方面的不足,本文主要考慮基于視覺(jué)特征分析的識(shí)別技術(shù)實(shí)現(xiàn)跌倒行為識(shí)別。而在基于視覺(jué)特征的跌倒識(shí)別技術(shù)中,又包括通過(guò)圖像分類[4-5]、目標(biāo)檢測(cè)[6]、人體骨架[7-8]、多特征融合[9-10]、及視頻分析和多算法融合[11]等多種方法。單純的多特征融合方法、圖片分類、目標(biāo)檢測(cè)和人體骨架方法雖然在單圖識(shí)別上取得了良好的識(shí)別效果,但進(jìn)行視頻跌倒行為識(shí)別時(shí)并沒(méi)有利用到時(shí)序特征,且因?yàn)樽R(shí)別圖像數(shù)量大,整體識(shí)別準(zhǔn)確率相對(duì)過(guò)低。而基于視頻分析和多算法融合是當(dāng)前使用最為廣泛的跌倒行為視頻分析方法,在具備跌倒行為識(shí)別能力且比較熱門(mén)的開(kāi)源模型中,包括通過(guò)目標(biāo)檢測(cè)、目標(biāo)追蹤和視頻目標(biāo)行為分類的YOLO-slowfast[12]實(shí)時(shí)動(dòng)作(含跌倒)檢測(cè)模型,以及通過(guò)目標(biāo)檢測(cè)、目標(biāo)追蹤、關(guān)鍵點(diǎn)識(shí)別和時(shí)空特征動(dòng)作識(shí)別實(shí)現(xiàn)的HumanFallDetection[13]跌倒檢測(cè)模型和PaddleDetection的PP-Humanv2[14]摔倒檢測(cè)模型。這些模型經(jīng)過(guò)了多步算法串聯(lián)融合,每一步算法都存在一定的精度損失,導(dǎo)致不但整體跌倒行為識(shí)別的計(jì)算量巨大,難以達(dá)到實(shí)時(shí),且識(shí)別精度相對(duì)較低。
本文方法綜合了單純的圖像識(shí)別算法與基于視頻分析和多算法融合的方法兩種不同視覺(jué)算法的優(yōu)缺點(diǎn),并根據(jù)自定義的目標(biāo)檢測(cè)方法以及時(shí)序特征處理與分析方法,提出一種使用基于目標(biāo)檢測(cè)模型YOLOv8的跌倒行為識(shí)別算法。該算法相對(duì)單純的圖像識(shí)別方法增加了全局空間跌倒特征,以及時(shí)間域特征處理用于跌倒判別;而相對(duì)基于視頻分析和多算法融合的方法在目標(biāo)檢測(cè)階段增加了全局空間跌倒特征,并只保留了目標(biāo)檢測(cè)與時(shí)空特征跌倒行為識(shí)別兩個(gè)步驟,精簡(jiǎn)了算法的流程復(fù)雜度。特別是,人體局部特征與全局空間跌倒特征的特征提取與組合分析處理,使得跌倒行為識(shí)別不完全依賴人體識(shí)別的準(zhǔn)確性,考慮在一定程度上減少?gòu)?fù)雜居家場(chǎng)景下目標(biāo)檢測(cè)階段人體的誤檢和漏檢對(duì)后續(xù)跌倒行為識(shí)別帶來(lái)的嚴(yán)重不良影響。本文方法通過(guò)對(duì)網(wǎng)絡(luò)攝像頭視頻圖像幀進(jìn)行目標(biāo)檢測(cè)識(shí)別,提取視頻幀中的跌倒相關(guān)特征,進(jìn)而通過(guò)時(shí)序特征分析判斷是否出現(xiàn)跌倒事件,實(shí)現(xiàn)實(shí)時(shí)的跌倒識(shí)別與及時(shí)救助報(bào)警,從而為居家環(huán)境中的老年人生命健康提供更好的保障。
1" 跌倒行為識(shí)別算法
1.1" 算法流程
本文提出一種基于網(wǎng)絡(luò)攝像頭視頻圖像識(shí)別分析的跌倒行為識(shí)別算法,算法主要包括圖像YOLOv8目標(biāo)檢測(cè)和視頻統(tǒng)計(jì)特征分析判別兩個(gè)部分,整體算法實(shí)現(xiàn)的流程如圖1所示。
具體的跌倒行為識(shí)別算法流程為:
1)定義YOLOv8目標(biāo)檢測(cè)的任務(wù)為識(shí)別圖像中的人體及確認(rèn)畫(huà)面是否存在人體躺下?tīng)顟B(tài),使用目標(biāo)檢測(cè)算法提取人體目標(biāo)特征與人體躺下?tīng)顟B(tài)特征;
2)對(duì)視頻幀中的目標(biāo)人體特征與跌倒?fàn)顟B(tài)特征進(jìn)行特征處理,然后按時(shí)間順序設(shè)置數(shù)幀為一段視頻段,分段存儲(chǔ)視頻段特征,并根據(jù)經(jīng)驗(yàn)參數(shù)對(duì)視頻片段進(jìn)行狀態(tài)分類識(shí)別;
3)根據(jù)視頻片段分類結(jié)果中的鄰近歷史片段狀態(tài)變化特性設(shè)定識(shí)別規(guī)則,判定當(dāng)前片段是否存在跌倒行為。
1.2" 目標(biāo)檢測(cè)算法YOLOv8
YOLO系列算法[15-22]以高效的一階段目標(biāo)檢測(cè)機(jī)制著稱,由于省去了區(qū)域推薦生成步驟,直接在圖像特征圖上進(jìn)行密集的區(qū)域邊界框和類別預(yù)測(cè),因此速度極快,而YOLOv8是在2023年由Ultralytics平臺(tái)發(fā)布的YOLO系列算法。YOLOv8主要基于YOLOv5,同時(shí)參考了YOLOX[19]、YOLOv6[21]和YOLOv7[22]等算法,在融合多種數(shù)據(jù)增強(qiáng)、訓(xùn)練方式提升、網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化、損失函數(shù)改進(jìn)等多方面策略加持下,算法的速度和精度性能也有了大幅度的提升。并且,由于引入了一些列新的改進(jìn),使得YOLOv8在目標(biāo)檢測(cè)之外的圖像分類、實(shí)例分割和姿態(tài)估計(jì)等任務(wù)上同樣展現(xiàn)出卓越的性能。
本文使用YOLOv8實(shí)現(xiàn)人體目標(biāo)與人體躺下?tīng)顟B(tài)目標(biāo)檢測(cè),實(shí)現(xiàn)跌倒行為相關(guān)特征提取。目標(biāo)檢測(cè)任務(wù)定義為人體局部區(qū)域,以及存在人體躺下行為全局區(qū)域的目標(biāo)檢測(cè),從而提取局部和全局空間的跌倒相關(guān)特征。
令目標(biāo)包圍框使用VOC格式[x_min,y_min,x_max,y_max]進(jìn)行標(biāo)注,視頻圖像尺寸大小為寬度W高度H,則人體目標(biāo)包圍框Pi定義為[x1_i,y1_i,x2_i,y2_i],其中,x1_i lt; x2_i且x1_i,x2_i ∈[0,W-1];y1_i lt; y2_i 且y1_i,y2_i ∈[0,H-1]。而圖片中可能存在唯一的人體躺下目標(biāo)對(duì)應(yīng)的包圍框Ld定義為定值 [0,0,W-1,H-1]。
如圖2所示,分別選取只包含背景的圖片,只存在人體目標(biāo)的圖片,以及包含人體目標(biāo)和人體躺下目標(biāo)的圖片,三類圖片共同組成數(shù)據(jù)集,按照本文設(shè)定的包圍框定義方法進(jìn)行數(shù)據(jù)標(biāo)注和處理,然后進(jìn)行YOLOv8模型訓(xùn)練與調(diào)優(yōu),得到用于人體目標(biāo)與人體躺下?tīng)顟B(tài)特征提取的YOLOv8目標(biāo)檢測(cè)模型。
1.3" 視頻片段狀態(tài)識(shí)別
視頻片段狀態(tài)識(shí)別依據(jù)YOLOv8目標(biāo)檢測(cè)得到的特征序列進(jìn)行特征處理和判斷識(shí)別。具體的操作流程是:
1)按FIFO方式存儲(chǔ)每一幀圖像識(shí)別結(jié)果,得到人體目標(biāo)特征序列與人體躺下?tīng)顟B(tài)特征序列,存儲(chǔ)容量總為L(zhǎng)。
2)每當(dāng)序列更新長(zhǎng)度達(dá)到N(N<L,且N的常數(shù)a倍約等于L,即a×N≈L),且如果序列總長(zhǎng)度為L(zhǎng),則進(jìn)行一次視頻片段識(shí)別。
3)長(zhǎng)度為L(zhǎng)的視頻片段識(shí)別的流程包括,使用窗寬為Wd的滑窗對(duì)人體目標(biāo)特征序列人體有無(wú)的狀態(tài)進(jìn)行滑動(dòng)窗口濾波,再根據(jù)視頻幀中人體目標(biāo)有無(wú)進(jìn)行人體躺下特征序列的狀態(tài)確認(rèn),進(jìn)而對(duì)序列中人體目標(biāo)有無(wú)情況與人體躺下?tīng)顟B(tài)的變化情況進(jìn)行分段統(tǒng)計(jì)。
4)當(dāng)長(zhǎng)度為N的序列分段中,人體目標(biāo)出現(xiàn)幀計(jì)數(shù)Pm與人體目標(biāo)出現(xiàn)的幀頻率Pr滿足Pr = Pm/N>α,α∈[0.5,1),且人體目標(biāo)出現(xiàn)幀計(jì)數(shù)Lm與人體躺下出現(xiàn)的幀頻率Lr滿足Lr = Lm/N>β,β∈[0.5,1),則該分段標(biāo)志為1,否則為0。
5)統(tǒng)計(jì)視頻片段序列中各個(gè)分段的標(biāo)志特征,具體為,統(tǒng)計(jì)分段標(biāo)志0~1或1~0變化的次數(shù)Cm,及根據(jù)分段標(biāo)志的頭標(biāo)志值Sx和尾標(biāo)志值Sy,確認(rèn)當(dāng)前視頻片段狀態(tài)識(shí)別結(jié)果,具體的識(shí)別判斷如式(1)所示。
(1)
由此,得到視頻片段識(shí)別結(jié)果,分為正常(Normal),躺地(Fallen),跌倒瞬間(Falling),站起(Upping),波動(dòng)(Waving)五種視頻片段識(shí)別結(jié)果,片段識(shí)別示例如圖3所示。
如圖3,每一個(gè)矩形表示分段視頻幀集合,時(shí)間順序?yàn)閺淖蟮接遥瑥暮蟮角啊F渲校G色表示分段標(biāo)志為0,紅色表示分段標(biāo)志為1,按照式(1),根據(jù)分段標(biāo)志變化次數(shù)和頭尾分段標(biāo)志值對(duì)視頻片段進(jìn)行識(shí)別并得到五種識(shí)別結(jié)果之一。
1.4" 跌倒行為識(shí)別
跌倒行為識(shí)別依據(jù)視頻片段狀態(tài)識(shí)別與片段間狀態(tài)關(guān)系進(jìn)行經(jīng)驗(yàn)判斷實(shí)現(xiàn)。保存1.2得到視頻片段識(shí)別結(jié)果,得到片段識(shí)別結(jié)果時(shí)間序列,根據(jù)該序列與跌倒強(qiáng)相關(guān)的狀態(tài)轉(zhuǎn)移關(guān)系進(jìn)行跌倒行為識(shí)別。由1.2,與跌倒強(qiáng)相關(guān)的片段識(shí)別結(jié)果是躺地(Fallen)和跌倒瞬間(Falling),由此,本文使用簡(jiǎn)單的邏輯判斷躺地片段前記錄的X個(gè)狀態(tài)中,是否存在跌倒瞬間來(lái)確定是否存在跌倒行為,如當(dāng)前Fallen片段的前X個(gè)狀態(tài)中存在Falling則判定為跌倒行為,否則判定為非跌倒行為。
對(duì)于算法的整體實(shí)現(xiàn),此處以一個(gè)視頻中的跌倒行為識(shí)別為例,展示視頻識(shí)別中的視頻片段行為狀態(tài)變化過(guò)程,對(duì)跌倒行為識(shí)別算法的實(shí)現(xiàn)過(guò)程進(jìn)行說(shuō)明。
如圖4所示,使用目標(biāo)檢測(cè)算法對(duì)每一幀圖像進(jìn)行識(shí)別,提取圖像中的人體目標(biāo)和跌倒?fàn)顟B(tài)目標(biāo),當(dāng)視頻幀數(shù)量更新長(zhǎng)度達(dá)到指定長(zhǎng)度N時(shí),對(duì)視頻分段進(jìn)行分段標(biāo)志0/1判斷,圖中所示每一張圖像畫(huà)面代表一個(gè)分段標(biāo)志,綠色代表0,黃色代表1;當(dāng)前分段與前面數(shù)個(gè)分段共同組成長(zhǎng)度為L(zhǎng)的視頻幀構(gòu)成視頻片段,對(duì)該視頻片段進(jìn)行一次片段狀態(tài)識(shí)別,得到當(dāng)前視頻片段的行為狀態(tài),如圖4(a)、圖4(b)和圖4(c)所示,若當(dāng)前視頻片段狀態(tài)為Fallen,則判斷前X歷史狀態(tài)中是否存在Falling狀態(tài),若存在,則確認(rèn)存在跌倒行為,向外部發(fā)起一次報(bào)警,并在接下來(lái)的一個(gè)視頻片段范圍內(nèi)結(jié)果均展示為確認(rèn)跌倒,即跌倒?fàn)顟B(tài)框使用紅色展示,如圖4(d),直至新的視頻片段識(shí)別中,確認(rèn)存在跌倒行為的條件判斷不成立,則重新展示分段標(biāo)志及其對(duì)應(yīng)畫(huà)面結(jié)果顏色。
2" 實(shí)驗(yàn)分析
2.1" 數(shù)據(jù)集處理
數(shù)據(jù)主要包含兩部分,分別是YOLOv8目標(biāo)檢測(cè)訓(xùn)練與驗(yàn)證數(shù)據(jù)集,及跌倒行為識(shí)別視頻數(shù)據(jù)集。本文跌倒行為識(shí)別主要應(yīng)用于居家環(huán)境,適應(yīng)于目標(biāo)任務(wù),跌倒目標(biāo)檢測(cè)數(shù)據(jù)主要為基于室內(nèi)場(chǎng)景圖片數(shù)據(jù),跌倒行為識(shí)別評(píng)估也主要為基于室內(nèi)場(chǎng)景視頻數(shù)據(jù)。
目標(biāo)檢測(cè)數(shù)據(jù)集中包含各種姿態(tài)的人體躺下、其他常規(guī)人體行為、以及背景圖三類。首先進(jìn)行數(shù)據(jù)收集與預(yù)處理,數(shù)據(jù)主要來(lái)源于Multiple Cameras Fall Dataset[23],F(xiàn)allDataset[24],COCO[25]數(shù)據(jù)集及其他網(wǎng)絡(luò)數(shù)據(jù)。其中,COCO數(shù)據(jù)集主要用于補(bǔ)充人物多樣性與誤識(shí)別對(duì)象及其他背景,如補(bǔ)充貓和狗這些可能會(huì)識(shí)別成人體的目標(biāo),而網(wǎng)絡(luò)圖片主要補(bǔ)充人體躺地?cái)?shù)據(jù)集。
數(shù)據(jù)處理過(guò)程分為對(duì)視頻數(shù)據(jù)集的處理和對(duì)圖片數(shù)據(jù)集的處理。在Multiple Cameras Fall Dataset和FallDataset的視頻數(shù)據(jù)集處理中,先把數(shù)據(jù)集中的視頻數(shù)據(jù)對(duì)非跌倒片段以較大間隔隨機(jī)采樣,對(duì)跌倒片段進(jìn)行較小間隔隨機(jī)采樣,并使用圖像相似性過(guò)濾相似過(guò)高的圖片,得到數(shù)量較少的圖片數(shù)據(jù)集。把視頻統(tǒng)一轉(zhuǎn)換成圖片數(shù)據(jù)集后,再對(duì)所有圖片進(jìn)一步篩選,最終得到目標(biāo)檢測(cè)數(shù)據(jù)集,目標(biāo)檢測(cè)數(shù)據(jù)集的樣例如圖5所示。
按1.2節(jié)所描述的方法,及圖2所示方式進(jìn)行數(shù)據(jù)標(biāo)注和處理。其中,人體躺地的標(biāo)簽定義為人體軀干貼近地面,而濾除存在歧義的跌倒過(guò)程軀干未貼近地面的過(guò)程圖。最終得到一個(gè)總量為2 269張圖片的數(shù)據(jù)集,數(shù)據(jù)集劃分后得到訓(xùn)練集1 928張和測(cè)試集341張。考慮背景圖只訓(xùn)練分類分支,主要用于降低誤檢率,控制比例在10%以內(nèi)。而具體到各類別的數(shù)據(jù)中,訓(xùn)練集的人體躺下圖片1 082張、其他常規(guī)人體行為656張、背景圖190張;測(cè)試集的人體躺下圖片182張、其他常規(guī)人體行為123張、背景圖36張。最后經(jīng)過(guò)轉(zhuǎn)換后把標(biāo)注好的VOC格式目標(biāo)檢測(cè)數(shù)據(jù)集轉(zhuǎn)換成YOLO格式,用于YOLOv8訓(xùn)練。
而對(duì)于跌倒行為識(shí)別測(cè)試數(shù)據(jù)集,主要使用自行拍攝的視頻小片段,另外包含少量網(wǎng)絡(luò)視頻進(jìn)行跌倒行為評(píng)估。其中,各種方式的跌倒行為視頻共349個(gè),包括但不限于行走、掃地、拿東西、坐起、彎腰或蹲下?lián)鞏|西等各種非跌倒行為視頻共396個(gè),視頻平均時(shí)長(zhǎng)為8.7秒,平均幀率為28.8FPS,平均幀數(shù)為252幀。
2.2" 評(píng)估指標(biāo)
本文主要考量跌倒行為識(shí)別的視頻分類效果評(píng)估,主要使用的評(píng)估指標(biāo)包括精確率、召回率和F2-Score[26],用于全面客觀地了解視頻跌倒行為識(shí)別模型的性能,具體指標(biāo)定義如下。
1)精確率Precision。精確率指模型預(yù)測(cè)結(jié)果是正例的所有樣本中,實(shí)際標(biāo)簽也是正例的樣本比例。令TP是準(zhǔn)確預(yù)測(cè)的正樣本,F(xiàn)P是錯(cuò)誤預(yù)測(cè)成正例的樣本,則精確率公式表示為:
(2)
2)召回率Recall。召回率指實(shí)際標(biāo)簽是正例的所有樣本中,模型預(yù)測(cè)結(jié)果也是正例的樣本比例。令FN是實(shí)際標(biāo)簽為正例,但模型預(yù)測(cè)誤識(shí)別成負(fù)例的樣本,則召回率公式表示為:
(3)
3)F2-Score。指標(biāo)F-Score是用于綜合評(píng)估模型性能的精確率和召回率調(diào)和值。F-Score公式為:
(4)
對(duì)于本文跌倒識(shí)別任務(wù),期望最大程度識(shí)別出跌倒行為,即使會(huì)導(dǎo)致更多的誤識(shí)別,所以召回率相對(duì)精確率更為重要,本文使用F2-Score作為綜合衡量分類模型性能的指標(biāo)。令γ = 2,則有F2-Score計(jì)算公式為:
(5)
2.3" 實(shí)驗(yàn)與結(jié)果分析
模型的訓(xùn)練與評(píng)估實(shí)驗(yàn)均基于Windows系統(tǒng),在一張RTX 3080顯卡上進(jìn)行。
在YOLOv8實(shí)驗(yàn)中,嘗試了不同大小的YOLOv8模型,綜合考慮本文數(shù)據(jù)集對(duì)應(yīng)模型精度、模型大小和推理速度等情況,本文使用YOLOv8n作為跌倒行為識(shí)別的目標(biāo)檢測(cè)特征提取模型。按Ultralytics庫(kù)規(guī)范處理好已標(biāo)注完成的目標(biāo)檢測(cè)數(shù)據(jù)集,并對(duì)應(yīng)寫(xiě)好模型訓(xùn)練配置文件,取模型為YOLOv8n,設(shè)置好訓(xùn)練參數(shù),訓(xùn)練輪數(shù)為150,批處理數(shù)量為16,圖像尺寸為640,其他模型超參數(shù)、訓(xùn)練超參數(shù)和數(shù)據(jù)增強(qiáng)超參數(shù)使用默認(rèn)配置,對(duì)模型進(jìn)行訓(xùn)練和評(píng)估,得到最優(yōu)的圖像目標(biāo)檢測(cè)模型。
基于最優(yōu)YOLOv8n目標(biāo)檢測(cè)模型,串行構(gòu)建跌倒行為識(shí)別算法模型,設(shè)置視頻片段識(shí)別和跌倒行為識(shí)別的對(duì)應(yīng)參數(shù)。按照本文模型設(shè)計(jì),每L/4片段,即一個(gè)分段視頻幀長(zhǎng)度N(即0.5秒)識(shí)別一次,需要參考?xì)v史片段長(zhǎng)度為X = 3,即視頻總共需要大于總長(zhǎng)度L(即2秒)才能正確實(shí)現(xiàn)跌倒行為識(shí)別,本文使用的跌倒識(shí)別視頻測(cè)試集均滿足要求。其中,在視頻段狀態(tài)識(shí)別中,設(shè)置總長(zhǎng)度L = 2FPS,片段更新長(zhǎng)度N = round(L/4)≈L/4,人體目標(biāo)序列濾波窗寬Wd = 3,取人體目標(biāo)幀頻率和人體躺下幀頻率α = β = 0.75;在跌倒行為識(shí)別中,記錄片段識(shí)別狀態(tài)X = 3,而后進(jìn)行模型跌倒識(shí)別評(píng)估。
由于基于單圖識(shí)別的算法用在視頻行為識(shí)別中效果欠佳,且本文算法屬于對(duì)基于視頻分析和多算法融合的視頻行為識(shí)別方法的一種簡(jiǎn)化處理,本文也只選取了基于視頻分析和多算法融合的跌倒行為識(shí)別算法作為算法評(píng)估對(duì)照。本文選取前文提及的YOLO-slowfast、HumanFallDetection和PP-Humanv2,這幾個(gè)可用于跌倒檢測(cè)且質(zhì)量相對(duì)優(yōu)質(zhì)的開(kāi)源模型進(jìn)行實(shí)驗(yàn)比較。其中,YOLO-slowfast實(shí)時(shí)動(dòng)作檢測(cè)的算法實(shí)現(xiàn)則基于視頻序列識(shí)別,具體包括目標(biāo)檢測(cè)、目標(biāo)跟蹤、視頻行為識(shí)別;而HumanFallDetection和PP-Humanv2跌倒檢測(cè)的算法實(shí)現(xiàn)主要為基于關(guān)鍵點(diǎn)的行為識(shí)別,具體包括目標(biāo)檢測(cè)、目標(biāo)跟蹤、關(guān)鍵點(diǎn)識(shí)別、時(shí)序特征行為識(shí)別,而本文算法只包含了其中的目標(biāo)檢測(cè)和時(shí)序特征行為識(shí)別兩個(gè)步驟。在實(shí)驗(yàn)測(cè)試中,由于對(duì)照實(shí)驗(yàn)的三個(gè)模型識(shí)別結(jié)果均以視頻幀為識(shí)別單位,本文選取連續(xù)檢測(cè)到跌倒的最大幀次數(shù)中,各個(gè)模型對(duì)應(yīng)的最優(yōu)參數(shù)作為視頻識(shí)別的判別閾值,即片段中連續(xù)識(shí)別為跌倒的幀數(shù)為大于等于閾值則判斷存在跌倒行為。在不同模型的最大連續(xù)跌倒幀數(shù)判別對(duì)應(yīng)的最優(yōu)閾值中,對(duì)于YOLO-slowfast跌倒識(shí)別的最優(yōu)閾值為1,對(duì)于HumanFallDetection跌倒識(shí)別的最優(yōu)閾值為5,對(duì)于PP-Humanv2摔倒檢測(cè)的最優(yōu)閾值為20,分別進(jìn)行實(shí)驗(yàn)用于跌倒識(shí)別評(píng)估。
跌倒行為識(shí)別視頻分類實(shí)驗(yàn)的評(píng)估指標(biāo)包括Precision、Recall、F2-Score,以及視頻識(shí)別速度指標(biāo)FPS(Frames Per Second),各模型的視頻跌倒識(shí)別結(jié)果如表1所示。
根據(jù)實(shí)驗(yàn)結(jié)果,在識(shí)別速度表現(xiàn)方面,PP-Humanv2識(shí)別速度最慢,而YOLO-slowfast和HumanFallDetection接近實(shí)時(shí),本文算法則完全達(dá)到實(shí)時(shí)速率。在識(shí)別精度方面,YOLO-slowfast由于不是主要用于跌倒行為識(shí)別,所以對(duì)跌倒行為的召回率很低,而精確率為最高,但F2-Score為最低;HumanFallDetection和PP-Humanv2都是為跌倒行為識(shí)別而設(shè)計(jì),但考慮跌倒行為識(shí)別又多個(gè)模型串聯(lián)構(gòu)建,同時(shí)需要保證一定的實(shí)時(shí)性,整體算法精度本身相對(duì)弱一些,并且使用的訓(xùn)練數(shù)據(jù)集相對(duì)單一,模型泛化能力也不夠好,F(xiàn)2-Score評(píng)分為一般;而本文所提出的基于目標(biāo)檢測(cè)的視頻跌倒行為識(shí)別算法在精確率、召回率和F2-Score等方面均表現(xiàn)優(yōu)異,尤其是具有較高的召回率和F2-Score評(píng)分。本文算法在識(shí)別速度和精度方面均表現(xiàn)出色,切合跌倒行為識(shí)別的目標(biāo)任務(wù)需求。
3" 結(jié)" 論
本文提出一種基于目標(biāo)檢測(cè)算法YOLOv8的居家環(huán)境跌倒行為識(shí)別方法,通過(guò)YOLOv8目標(biāo)檢測(cè)識(shí)別圖像空間域的跌倒相關(guān)全局與局部特征,進(jìn)行時(shí)間域序列特征處理,進(jìn)一步實(shí)現(xiàn)跌倒行為視頻閾值分類,從而綜合跌倒行為的時(shí)間和空間特征構(gòu)建了一個(gè)高效且準(zhǔn)確的跌倒行為識(shí)別系統(tǒng),實(shí)現(xiàn)對(duì)監(jiān)控視頻中的跌倒行為識(shí)別和進(jìn)行預(yù)警。
實(shí)驗(yàn)證明,相對(duì)其他已有算法,本文方法具有明顯更高的跌倒行為識(shí)別速度和精度,證明了本文使用局部與全局空間跌倒特征提取及時(shí)間域跌倒特征的處理組合實(shí)現(xiàn)跌倒行為識(shí)別的有效性。并且,由于本文方法主要基于YOLOv8目標(biāo)檢測(cè)算法,整體算法邏輯簡(jiǎn)單,能達(dá)到較高的識(shí)別速度和精度性能的同時(shí),需要的算力很小,具有更低的硬件要求,易于部署到嵌入式AI攝像頭中,從而有效解決算法部署與應(yīng)用中的算力資源欠缺問(wèn)題,也使得本文方法具有更廣泛的居家場(chǎng)景適用性。
本文方法為居家環(huán)境下視頻跌倒行為識(shí)別提供了一種可用新的思路,為跌倒行為的發(fā)生提供及時(shí)有效的救助報(bào)警,給老年人居家生活安全添置了一份重要保障。而與此同時(shí),當(dāng)前跌倒行為識(shí)別技術(shù)仍面臨很多不同的挑戰(zhàn),如遮擋等復(fù)雜場(chǎng)景下的識(shí)別準(zhǔn)確性、跌倒形式的多樣性、及與其他特殊角度下蹲等生活行為存在高度相似性,等等。
因此,在未來(lái)的研究中,有待進(jìn)一步深化對(duì)跌倒行為的特性理解,提取和融合更多的行為特征,以及采用更多不同的形式探索與構(gòu)建更加先進(jìn)的識(shí)別模型,以進(jìn)一步提高跌倒行為識(shí)別系統(tǒng)的識(shí)別精度和泛化能力。
參考文獻(xiàn):
[1] 劉悅,米紅.居住環(huán)境對(duì)老年人跌倒風(fēng)險(xiǎn)的影響分析——基于中國(guó)城鄉(xiāng)老年人生活狀況抽樣調(diào)查2015年數(shù)據(jù) [J].人口與發(fā)展,2021,27(3):123-132+109.
[2] 王志灼,谷莉,周謀望.中國(guó)老年人跌倒風(fēng)險(xiǎn)因素識(shí)別及評(píng)估工具應(yīng)用的研究進(jìn)展 [J].中國(guó)康復(fù)醫(yī)學(xué)雜志,2021,36(11):1440-1444.
[3] 高青,陳洪波,馮濤,等.老年人跌倒檢測(cè)系統(tǒng)的研究現(xiàn)狀與發(fā)展趨勢(shì) [J].醫(yī)療衛(wèi)生裝備,2015,36(12):102-105.
[4] 汪大峰,劉勇奎,劉爽,等.視頻監(jiān)控中跌倒行為識(shí)別 [J].電子設(shè)計(jì)工程,2016,24(22):122-126.
[5] 羅海峰,佐研.基于VGG16Net的人體跌倒識(shí)別研究 [J].山西電子技術(shù),2022(2):68-70.
[6] 雷亮,尹衍偉,梁明輝,等.基于改進(jìn)YOLOv5s的老人跌倒識(shí)別算法研究 [J].重慶科技學(xué)院學(xué)報(bào):自然科學(xué)版,2023,25(1):85-90.
[7] 韓錕,黃澤帆.基于人體姿態(tài)動(dòng)態(tài)特征的跌倒行為識(shí)別方法 [J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2020,47(12):69-76.
[8] 張程,祝凱,趙德鵬,等.基于人體骨架的跌倒行為識(shí)別研究 [J].電子技術(shù)與軟件工程,2020(23):85-86.
[9] 張涵,歐陽(yáng)俊斌,鄭榮佳,等.基于多特征學(xué)習(xí)融合級(jí)聯(lián)分類的跌倒識(shí)別 [J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2023,55(3):110-118.
[10] 彭玉青,高晴晴,劉楠楠,等.基于多特征融合的跌倒行為識(shí)別與研究 [J].數(shù)據(jù)采集與處理,2016,31(5):890-902.
[11] 程淑紅,謝文銳,張典范,等.基于多算法融合的跌倒行為識(shí)別 [J].計(jì)量學(xué)報(bào),2022,43(1):107-113.
[12] WU F. A Realtime Action Detection Frame Work Based on Pytorch Video [EB/OL].(2021-12-27).https://github.com/wufan-tb/yolo_slowfast.
[13] TAUFEEQUE M,KOITA S,SPICHER N,et al. Multi-camera, Multi-person, and Real-time Fall Detection Using Long Short Term Memory [C]//Bildverarbeitung für die Medizin 2021.Regensburg:Springer,2021:124.
[14] PaddlePaddle. PaddleDetection, Object Detection and Instance Segmentation Toolkit based on PaddlePaddle [EB/OL].[2024-06-25].https://github.com/PaddlePaddle/PaddleDetection.
[15] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified, Real-Time Object Detection [C]//Computer Vision amp; Pattern Recognition.Las Vegas:IEEE,2016:779-788.
[16] REDMON J,F(xiàn)ARHADI A. YOLO9000: Better, Faster, Stronger [C]//IEEE Conference on Computer Vision amp; Pattern Recognition.Honolulu:IEEE,2017:6517-6525.
[17] REDMON J,F(xiàn)ARHADI A. YOLOv3: An Incremental Improvement [J/OL].arXiv:1804.02767 [cs.CV].(2018-04-08).https://arxiv.org/abs/1804.02767.
[18] BOCHKOVSKIY A,WANG C Y ,LIAO H Y M .YOLOv4: Optimal Speed and Accuracy of Object Detection [J/OL].arXiv:2004.10934 [cs.CV].(2020-04-23).https://arxiv.org/abs/2004.10934.
[19] GE Z,LIU S,WANG F,et al. YOLOX: Exceeding YOLO Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].(2021-07-18).https: //arxiv.org/abs/2107.08430.
[20] XU S,WANG X,LV W,et al. PP-YOLOE: An Evolved Version of YOLO [J/OL].arXiv:2203.16250 [cs.CV].(2022-05-30).https: //arxiv.org/abs/2203.16250.
[21] LI C Y,LI L L,JIANG H L,et al.YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications [J]. arXiv:2209.02976 [cs.CV].(2022-09-07).DOI:10.48550/arXiv.2209.02976.
[22] WANG C Y ,BOCHKOVSKIY A ,LIAO H Y M .YOLOv7: Trainable Bag-of-freebies Sets New State-of-the-art for Real-time Object Detectors [J/OL].arXiv:2209.02976 [cs.CV].(2022-07-06).https://arxiv.org/abs/2207.02696.
[23] AUVINET E,ROUGIER C,MEUNIER J,et al. Multiple Cameras Fall Dataset [R/OL].(2010-07-08).https://www.researchgate.net/publication/267693256_Multiple_cameras_fall_data_set.
[24] CHARFI I,MITERAN J,DUBOIS J,et al. Optimized Spatio-temporal Descriptors for Real-time Fall Detection: Comparison of Support Vector Machine and Adaboost-based Classification [J/OL].Journal of Electronic Imaging,2013,22(4):041106(2013-07-22).https://doi.org/10.1117/1.JEI.22.4.041106.
[25] LIN T Y,MAIRE M,BELONGIE S,et al. Microsoft COCO: Common Objects in Context [J/OL].arXiv:1405.0312 [cs.CV].(2014-05-01).https://arxiv.org/abs/1405.0312?context=cs.
[26] GOUTTE C,GAUSSIER E. A Probabilistic Interpretation of Precision, Recall and F-Score,with Implication for Evaluation [C]//27th European Conference on IR Research,ECIR 2005.Santiago de Compostela:Springer,2005:345-359.
作者簡(jiǎn)介:岳麗云(1972—),女,漢族,四川內(nèi)江人,工程師,碩士研究生,研究方向:圖像處理及大數(shù)據(jù)應(yīng)用;通信作者:歐劍港(1996—),男,漢族,廣東肇慶人,工程師,碩士研究生,研究方向:計(jì)算機(jī)視覺(jué)。