何 密 平欽文 戴 然(陸軍軍醫大學生物醫學工程與影像醫學系 重慶 400038)
我國是老年人口規模最大的國家,也將是人口老齡化速度最快的國家。2021年第7次人口普查顯示,60歲及以上人口為26402萬人,占總人口的18.70%,65歲及以上人口為19064萬人,占總人口的13.50%。根據聯合國人口預測,到2037年,我國60歲及以上老年人口將占到總人口的30%以上[1,2]。而隨著年齡的增長,老年人的體質衰退,聽力、視力、平衡協調能力等方面下降,常常會導致老人突然失去平衡和行動能力而發生跌倒。據世界衛生組織(World Health Organization,WHO)報道每年65歲以上老人出現跌倒的概率為28%~35%,并隨著年齡增加而逐步提高;且跌倒是79歲以上老人意外傷害死亡最主要的原因之一,經歷跌倒的老人比未跌倒過的老人更易死亡,風險比值為5.11[3]。研究顯示,老人跌倒后如能得到及時救助,可以有效降低80%的死亡風險和26%的長期住院治療風險[4]。因此跌倒檢測技術具有重要的研究意義和社會價值。
根據不同的工作原理,跌倒檢測系統可分為接觸式(即可穿戴式)和非接觸式(即環境感知式)兩大類[5–13]。環境感知式傳感器—雷達不受光照、聲音、溫度變化的影響,能較好地保護用戶隱私,近年來開始應用于人體行為和步態識別的研究[14]。由于窄帶多普勒雷達結構簡單、造價低廉,已廣泛應用于非接觸式跌倒檢測研究[15–17]。相比窄帶多普勒雷達,超寬帶(Ultrawideband,UWB)雷達不僅能夠較好地分辨多普勒速度,還具備良好的距離分辨力,因此能夠給跌倒行為檢測提供更多維度的信息,以提高跌倒識別準確率[18]。近年來,面向人體行為識別和智慧家居的超寬帶生物雷達實現了集成化、小型化和量產化,開始應用于室內跌倒識別的研究中[19,20]。
在早期的雷達跌倒檢測算法研究中,多采用人工模式提取特征,如從雷達的距離多普勒譜圖和時間多普勒譜圖中提取多普勒帶寬、步伐頻率、多普勒最大值或最小值及其比值、小波變換系數、余弦變換系數、Mel-倒譜、線性預測編碼系數等特征[21],并結合機器學習進行分類[22]。與人工提取特征模式相比,基于數據驅動的深度學習方法能自動提取特征,一般能獲得更好的分類效果。但如果將雷達信號原始數據直接輸入深度學習網絡,往往會導致網絡的結構偏大[23]。因此,目前大多數研究一般會對雷達原始數據做一些預處理再輸入深度學習網絡[18],常用的預處理方法如小波變換、短時傅里葉變換(Short Time Fourier Transform,STFT)、稀疏自編碼器、主成分分析(Principal Component Analysis,PCA)等。Jokanovi?等人[24]通過連續波雷達采集3個受試者117 次跌倒和291次非跌倒數據,利用堆疊稀疏自編碼器自動提取雷達時頻域和距離域信息的特征,再用多元邏輯回歸進行分類,最高的準確率為97.1%,但對應的靈敏度僅為79.0%。Erol等人[25]利用多維PCA自動提取4個受試者的109次跌倒、105次坐下、95次彎腰和76次行走的3D距離-多普勒-時間數據的特征,檢測跌倒準確率可達96%以上。Wang等人[26]提出了一種用于雷達微多普勒時序數據分類的堆疊式門控循環單位(Gated Recurrent Units,GRU)網絡,用于識別人體運動類型,在對整個序列進行分類時,GRU的表現明顯優于卷積神經網絡(Convolutional Neural Network,CNN)。Taylor等人[27]利用CNN和PCA對數據集中198次跌倒和1435次非跌倒的多普勒時間譜圖像進行訓練和驗證,準確率可達95.3%。Anishchenko等人[28]利用兩個窄帶多普勒雷達進行跌倒檢測,結合小波變換和AlexNet網絡,對5個受試者175次摔倒和175次非摔倒數據進行訓練和測試,準確率為99.3%,但數據偏少,網絡結構復雜,數據劃分不互斥。Arab等人[29]利用連續小波變換預處理1000例動作(其中跌倒125例)的雷達正交通道信號,得到去噪尺度圖,將其和原始信號輸入雙通道CNN中進行跌倒檢測,準確率為96%,但存在類別嚴重不平衡和數據泄露等問題。
從目前的國內外研究現狀來看,基于雷達的非接觸跌倒檢測的樣本量普遍偏少,一般為2~5個受試者的數據,且不公開;現有數據集的動作類型普遍偏少且場景單一[29];因此,對于深度學習而言,現有數據集數據往往不足以訓練網絡結構和參數,可能會導致網絡泛化能力差、通用性能低。以前的研究多采用窄帶多普勒雷達,導致行為識別精度不夠高。有些研究在網絡參數訓練時存在數據泄露問題,往往將同一人的動作數據既用在訓練集也用在驗證集,而有些研究沒有測試集,也沒有采用多種場景中的數據進行驗證,模型的通用性和泛化能力未得到驗證;Anishchenko等人[28]未對雷達數據做預處理,導致訓練的深度學習網絡結構普遍龐大,不適宜線上實時處理;有些算法僅使用了超寬帶雷達在某個距離單元的時間多普勒譜信息,同時浪費了距離時間譜和距離多普勒譜的信息,在識別準確率上還有待提高[20,30]。
因此本文將采用調頻連續波(Frequency Modulated Continuous Wave,FMCW)超寬帶雷達在多個真實的室內復雜場景下采集多名受試者的日常行為和跌倒的回波數據,設計深度學習網絡融合3種圖譜的信息,從而提高跌倒識別的準確率,網絡訓練、驗證和測試過程中始終保證數據的互斥性。本文的整體研究框圖如圖1所示,超寬帶雷達在場景1下采集的數據用于網絡訓練和交叉驗證,場景2下采集的數據用于網絡測試,雷達采集的回波經去斜處理、距離壓縮、動目標顯示(Moving Target Indication,MTI)等預處理,生成包含互補信息的距離時間譜、距離多普勒譜和時間多普勒譜3種圖譜,然后利用輕量級深度學習網絡MobileNet-V3基本結構設計數據級、特征級和決策級3種融合方式下的深度學習網絡,最后給出是否跌倒的判斷。

圖1 深度學習融合超寬帶雷達圖譜檢測跌倒的整體研究框圖Fig.1 Overall research block diagram of deep learning fusing ultrawideband radar spectrograms for fall detection
本研究中FMCW雷達發射和接收的信號為三角波形,如圖2所示。其中紅色線條為發射波形,藍色線條為接收波形,T為線性調頻信號的周期,PRT為脈沖重復周期,B為雷達發射信號的帶寬,fc為雷達中心頻率。

圖2 FMCW雷達發射和接收波形示意圖Fig.2 Schematic diagram of transmitting and receiving waveforms of the FMCW radar
FMCW雷達對接收回波Sr(t)進行去斜處理,得到差頻信號Sb(t)[31]
其中,?表示共軛轉置,St(t)是發射信號。通過去斜處理,回波信號與發射信號之間的延時就轉換為不同差頻信號的頻率,對應目標的距離。差頻信號再經傅里葉變換,從而得到目標的一維距離像,如式(2)所示:
一個發射周期的信號經上述處理后得到一個一維距離像,將其離散化,按照距離單元排成行向量,如圖3中的行向量。多個周期的信號經相同處理后,可以得到多個一維距離像,按照時間先后排列可形成一個距離時間矩陣RT,如圖3所示,其中行方向為距離單元,列方向為慢時間采樣(采樣率為1/PRT)。距離時間矩陣為

圖3 距離時間矩陣RT的排列示意圖Fig.3 Arrangement diagram of range-time matrix RT
其中,ts是慢時間采樣,R(ts)是慢時間的函數。
對距離時間矩陣RT先進行MTI處理,抑制靜態雜波,然后再歸一化,并將歸一化幅值轉化為分貝表示,得到距離時間譜RTS,跌倒和行走的RTS分別如圖4所示:

圖4 跌倒和行走的距離時間譜圖Fig.4 Range-time spectrograms of fall and walk
其中,|·|表示取絕對值,max(·)表示求所有元素中的最大值。
沿距離時間矩陣RT的慢時間方向(列方向)進行Nfft點FFT變換,得到距離多普勒矩陣RD,如圖5所示,行方向為距離單元,列方向為多普勒頻率。對距離多普勒矩陣RD歸一化,并將歸一化幅值轉化為分貝表示,得到距離多普勒譜RDS,跌倒和行走的RDS分別如圖6所示。

圖5 距離多普勒矩陣RD的排列示意圖Fig.5 Arrangement diagram of range-Doppler matrix RD

圖6 跌倒和行走的距離多普勒譜圖Fig.6 Range-Doppler spectrograms of fall and walk
對距離時間矩陣RT的第m個距離單元的時序信號RTm(n)(n=1,2,···,N),進行時頻分析(如STFT),可以得到時間多普勒矩陣TD。為了更好地反映運動目標特征,采用文獻[30]中的方法選取最優距離單元上的信號RTm(n) 進行STFT。
其中,n是慢時間采樣,k是頻率采樣,W(·)是滑窗函數,K是加窗傅里葉變換的點數。
同理,對時間多普勒矩陣TD歸一化,并將歸一化幅值轉化為分貝表示,得到距離多普勒譜TDS。跌倒和行走的TDS分別如圖7所示。

圖7 跌倒和行走的時間多普勒譜圖Fig.7 Time-Doppler spectrograms of fall and walk
MobileNet-V3是由Google團隊在2019年提出的專注于移動端或者嵌入式設備中的輕量級CNN網絡,分為Large和Small兩個版本,網絡參數大小分別為5.4 MB和2.5 MB[32]。本文后面提及的MobileNet-V3網絡特指參數更小的Small版本。
3.1.1 MobileNet-V3網絡
MobileNet-V3相比CNN,能在準確率小幅降低的前提下大大減少模型參數與運算量是因為包含3個重要結構:深度可分離卷積、倒殘差結構和輕量級注意力模塊[32],如圖8所示。具體包括:(1)深度可分離卷積中一個卷積核只作用一個輸入通道,逐點卷積運算類似標準卷積,使用尺寸為1×1的卷積核擴大輸出特征的通道數,在提取雷達圖譜特征時減少了參數量和計算量。(2)倒殘差結構在特征提取時首先使用標準卷積對特征進行擴維,然后使用深度可分離卷積進一步提取特征且輸出通道維度與標準卷積輸出通道維度一致。倒殘差結構能夠很好地保留雷達圖譜中的行為動作重要特征信息,且對輸入特征重用,可避免模型在訓練時出現梯度消失。(3)輕量級注意力模塊與倒殘差結構相結合,調整不同通道的權重,從而保證模型更加關注雷達圖譜中的關鍵信息。

圖8 MobileNet-V3的核心結構Fig.8 Core structure of MobileNet-V3
此外,MobileNet-V3采用h-swish激活函數能夠提高網絡精度[32],其具體表達式為
其中,函數ReLU6 (x)=min(6,max(0,x))。Softmax交叉熵損失函數L用于衡量預測值與實際值之間的相似程度,其具體表達式為
其中,Ns是用于訓練的樣本個數,pi是網絡輸出的概率。
3.1.2 數據級融合網絡
數據級融合網絡的結構設計如圖9所示,該網絡將UWB雷達的距離時間譜、距離多普勒譜和時間多普勒譜3種圖譜分別讀取成灰度圖像,經過統一尺寸變化后,然后將3個圖譜按初始權重相等的組合方式疊加融合在一起組成3通道數據。基于數據級融合的網絡由于結合了輕量級注意力模塊與倒殘差結構,訓練過程中可調整3種圖譜所在通道的權重,提高跌倒行為的識別能力。

圖9 數據級融合網絡的結構示意圖Fig.9 Structure diagram of data level fusion network
3.1.3 特征級融合網絡
特征級融合網絡的結構設計如圖10所示,共分3個支路,每個支路均采用MobileNet-V3網絡結構,輸入3種圖譜的灰度圖像,分別提取每種圖譜的特征。在全連接層將3個支路提取的特征拼接作為分類器的輸入,為了防止過擬合,提升網絡性能,再加入兩級Dropout層和全連接層,最后分類器給出識別結果。

圖10 特征級融合網絡的結構示意圖Fig.10 Structure diagram of feature level fusion network
3.1.4 決策級融合網絡
決策級融合網絡結構如圖11所示,輸入也為3種圖譜的灰度圖像,分為兩部分:第1部分采用MobileNet-V3網絡分別對3種圖譜進行特征提取并初步分類,第2部分采用投票機制將分類結果重新投票得出最終預測結果。投票機制采用多數投票的方式,將得分最高的結果作為最終預測結果。

圖11 決策級融合網絡的結構示意圖Fig.11 Structure diagram of decision level fusion network
3.2.1 模型訓練和測試
為了訓練出可靠的網絡模型,本文采用K折交叉驗證的方法,即每輪訓練中選擇場景1中(K–1)/K數據作為訓練集,1/K的數據作為驗證集。另外,為了測試訓練模型的泛化能力,本文將場景2下新受試者的數據作為測試集,對參數優化后的模型進行測試。
3.2.2 評價指標
模型性能評價指標主要包括靈敏度(Sensitivity,Se)、特異性(Specificity,Sp)、準確率(Accuracy,Ac)、精密度(Precision,Pr)和F1-Score,計算公式如下:
其中,P表示真實跌倒的次數,N表示真實非跌倒的次數,TP表示判斷正確的跌倒次數,TN表示判斷正確的非跌倒次數,FN表示將真實跌倒判斷為非跌倒的次數,FP表示將真實非跌倒判斷為跌倒的次數。分別計算模型在交叉驗證集和測試集中上述指標的結果,以評估不同分類模型的效果。
本實驗采用K波段UWB雷達探測系統,如圖12所示,工作帶寬設置為2 GHz,發射功率為12 dBm,發射波形為三角波,重復周期設置為0.5 ms,對應的脈沖重復頻率為2000 Hz,快時間采樣頻率為500 kHz,天線方位和俯仰波束寬度分別為30°和20°。

圖12 K波段UWB雷達跌倒檢測系統Fig.12 K band UWB radar fall detection system
實驗盡可能全方位地考慮現實生活中的跌倒和日常行為動作。日常行為動作包括常見的行走、坐下、躺下、起立、慢速上下樓梯等的動作,其特點是行動速率較慢、速率變化幅度較小且頻率較低,與人體跌倒時速率急速變化區別較大,比較容易區分。此外,增加了較為劇烈的日常行為動作,如慢跑、爬行等。跌倒動作包括暈倒、跌倒、滑倒、上下樓梯絆倒等。考慮到現實生活中行為動作發生位置的隨意性和方向的隨機性,動作數據將在距離雷達不同位置、不同方位上采集。實驗方案通過了陸軍軍醫大學倫理委員會批準(批準號:AF/sc-03/1.0,2021年),由于跌倒實驗本身存在一定危險因素,考慮到老人普遍的身體狀況,本實驗中的受試者均為青壯年,且跌倒在提供足夠緩沖的海綿墊上。實驗共收集了36名受試者的數據,受試者男女的性別比例為23:13。實驗中統計了受試者的年齡、身高、體重和體質指數(Body Mass Index,BMI)信息,經Shapiro-Wilk統計分析,除年齡以外其他參數均滿足正態分布。受試者統計信息如下:年齡為Q2(Q1,Q3)=22.0(20.0,24.75),身高為169.1±8.0 cm,體重為59.9±9.5 kg,BMI為20.8±2.1 kg/m2。
本實驗設計了常見的20種日常行為動作及10種跌倒動作,部分動作示意圖如圖13所示。為增加樣本的多樣性,受試者每個動作需重復測量3次,且每次動作受試者可隨意發揮以增加隨機性。每條數據采集的時長至少為5 s,參考文獻[18,33],目前截取4 s時長的數據進行后續分析。場景1的房間尺寸為640 mm×492 mm×246 mm(長×寬×高),場景2的房間尺寸為560 mm×247 mm×263 mm(長×寬×高)。為了模擬真實房間場景,兩個房間中隨機擺放了各種辦公桌椅、病床、沙發、鐵皮文件柜等,如圖14所示。

圖13 實測實驗設計的日常行為與跌倒部分動作示意圖Fig.13 Schematic diagram of daily behaviors and a part of falls designed in the experiment

圖14 實測實驗多場景示意圖Fig.14 Multi-scene schematic diagram of the experiment
本文數據庫K-UWB-MSHA-1.0共包含兩個場景下36名受試者共3240例UWB雷達行為測量數據,其中場景1采集的數據作為訓練集(共2700例來自前30名受試者),場景2采集的數據作為測試集(共540例來自后6名受試者)。附錄提供了數據集KUWB-MSHA-1.0的下載和使用說明鏈接。為了提高訓練模型的泛化能力,本文對訓練集的樣本進行數據增強處理,但考慮到雷達圖譜與自然圖像之間的差異,僅對3種圖譜進行水平和垂直翻轉。因此數據增強后,5折交叉驗證中訓練集和驗證集的樣本數量分別為6480和1620。
訓練集、驗證集和測試集的數據劃分遵循互斥原則,即不僅數據樣本互斥,而且每個受試者的所有樣本只能劃分至一個數據集,從而避免了驗證和測試時的數據泄露。
深度學習網絡模型訓練的工作站采用專業版Windows10 64位操作系統,配置為Intel Xeon 6核CPU,191 GB運行內存,NVIDIA Quadro RTX 6000顯卡。深度學習框架采用Pytorch 1.10.1,環境Python版本為3.7.12,CUDA版本為11.1。
為了公平測試不同網絡的性能,模型訓練階段采用固定的隨機數種子保證每種網絡模型劃分時訓練集和驗證集一致。此外輸入圖譜的尺寸、訓練輪數、學習率等超參數也保持一致。具體而言,圖譜的輸入尺寸統一設置為224×224,每種網絡模型訓練輪數皆為30,學習率為0.01,采用Adam優化函數,每輪訓練迭代的批樣本數為256,訓練過程中利用GPU加速計算,權重衰減系數為10–5。模型訓練完成后,利用場景2下的數據對模型進行測試。表1分別列出了本文所用到的MobileNet-V3網絡(以距離時間譜為例)、數據級融合網絡、特征級融合網絡和決策級融合網絡的訓練耗時,訓練好后網絡模型的大小,以及利用這些網絡進行單張圖片測試的平均耗時(1000張圖片耗時的平均值)。可以看出,單個MobileNet-V3網絡和數據級融合網絡在大小和單張圖片測試耗時基本是一致的。決策級的網絡最大,約17.7 MB,單張圖片測試需要耗時0.1 s左右,可以做到實時處理。

表1 MobileNet-V3網絡和融合網絡的大小及耗時對比Tab.1 Comparison of size and time consumption of MobileNet-V3 network and fusion networks
圖15展示了利用場景1中單個圖譜的數據進行5折交叉驗證時準確率(圖15(a)、圖15(c)和圖15(e))和交叉熵損失值(圖15(b)、圖15(d)和圖15(f))隨訓練輪數的變化曲線。圖16展示了融合場景1中3種圖譜的數據進行5折交叉驗證時準確率(圖16(a)、圖16(c)和圖16(e))和交叉熵損失值(圖16(b)、圖16(d)和圖16(f))隨訓練輪數的變化曲線。可以看出,無論是單種圖譜還是融合方法經過30輪的訓練,準確率和交叉熵損失值均趨于穩定。相對于單個圖譜和其他兩種融合方法,特征級融合方法在不同折上性能差異比較大,從而表明該方法對數據的依賴較大,容易過擬合。

圖15 僅用單圖譜檢測跌倒的5折交叉驗證的準確率及交叉熵損失隨訓練輪數的變化曲線Fig.15 Curves of accuracy and cross entropy loss of 5-fold cross-validation using one kind of spectrograms for fall detection

圖16 融合方法檢測跌倒的5折交叉驗證的準確率及交叉熵損失隨訓練輪數的變化曲線Fig.16 Curves of accuracy and cross entropy loss of 5-fold cross-validation using fusion methods for fall detection
表2列出了單種圖譜和融合方法檢測跌倒的5折交叉驗證的平均結果。可以看出,單種圖譜中檢測性能最優的是距離時間譜,其5折交叉驗證的準確率為0.9923,其次是時間多普勒譜(準確率為0.9893)。數據融合方法和決策融合方法的檢測性能都比單種圖譜方法的效果有所提升,決策模型在相同條件下檢測效果最佳,其5折交叉驗證的準確率可達0.9956。但特征級融合在5折交叉驗證結果中,平均性能較單種圖譜有所下降,其原因是在某些折上檢測性能變差。
表3列出了僅用單種圖譜和融合方法在場景2的測試結果。可以看出,僅用距離時間譜的數據能夠獲得單種圖譜最高的檢測性能,準確率為0.9537,但距離多普勒譜的準確率只有0.9167,說明其泛化能力較差。融合方法中,數據級和決策級融合相比于單種圖譜具有更好的預測性能。在新的場景下,決策級融合的方法具有最高的檢測性能,準確率可達0.9778,F1-score可達0.9659。但特征級融合方法的性能相對于單種圖譜沒有提升,說明其泛化能力差。另外表3與表2的結果具有一致性。

表2 跌倒檢測5折交叉驗證評價指標對比(場景1)Tab.2 Comparison of evaluation indicators for 5-fold cross-validation of fall detection (Scene 1)

表3 不同模型之間跌倒檢測性能的對比(場景2)Tab.3 Comparison of fall detection performance between different models (Scene 2)
圖17分別給出了用單種圖譜和融合方法對場景2的數據進行測試時的混淆矩陣。為了驗證不同方法在新場景下對新的受試者數據中檢測跌倒的準確率之間是否存在統計性差異,本文將采用配對設計4表格資料卡方檢驗(McNemar檢驗)。為此,分別計算需要對比的兩種方法中方法1判斷正確但方法2判斷錯誤的個數a,方法1判斷錯誤但方法2判斷正確的個數b。構造統計量,χ2=(a ?b)2/(a+b),則假設檢驗為

圖17 用場景2數據測試各種模型時得到的混淆矩陣Fig.17 Confusion matrix obtained when testing various models using data of Scene 2
按顯著性水平α=0.05拒絕H0。本文的統計分析通過軟件統計產品與服務解決方案(Statistical Product and Service Solutions,SPSS)實現,結果表明決策級融合方法優于單種圖譜方法(3個P值均<0.001)、數據級融合方法(P=0.003)和特征級融合方法(P<0.001)。數據級&特征級融合方法與單用距離時間譜(兩個P值均為1.000)和時間多普勒譜(P=0.152,P=0.690)的方法之間沒有顯著性差異,但優于單用距離多普勒譜的方法(兩個P值均<0.001)。特征級與數據級融合方法之間沒有統計性差異(P=0.367)。
為克服窄帶雷達獲取動作行為信息有限以及現有數據集數據量偏少等問題,本研究采用UWB雷達在2個真實的室內復雜場景下采集36名受試者的日常行為和跌倒的回波數據,建立了動作類型豐富、多場景、多受試者的數據集,設計了基于MobileNet-V3的輕量級深度學習網絡融合3種雷達圖譜的信息以提高跌倒識別的性能。網絡模型在訓練、驗證和測試過程中始終保證數據的互斥性,防止了數據泄露的問題。采用了多種指標衡量比較不同融合模型的效果,并與單種圖譜的識別效果進行了比較。通過統計分析發現,本文提出的決策級融合方法相對于單種圖譜、數據級、特征級融合方法,能夠提高跌倒檢測性能(統計分析表明所有P值不超過0.003),其5折交叉驗證的準確率為0.9956,F1-score為0.9933,在新場景下測試的準確率為0.9778,F1-score可達0.9659,具有較強的泛化能力。
由于雷達的型號參數和觀察角度會影響現有模型的識別性能,因此不同參數的雷達需要重新訓練網絡,為了完善數據集,今后將增加更多的探測角度(如垂直雷達視線的角度)。在數據處理方面將考慮數據流的形式,以真正實現實時跌倒檢測,并進一步分析不同圖譜對于不同動作的識別性能是否存在差異。
附錄
K波段超寬帶雷達跌倒檢測圖譜數據集1.0(K-UWB-FDHA-1.0)依托《雷達學報》官方網站發布(附圖1),網址為https://radars.ac.cn/web/data/getData?dataType=DatasetinthePaper。

附圖1 K波段超寬帶雷達跌倒檢測圖譜數據集-1.0發布網頁App.Fig.1 Release webpage of K band UWB radar spectrogram dataset-1.0 for fall detection