AHNNet:融合注意力機制的行為識別混合神經網絡模型

2021-05-11 07:05:16曹仰杰李昊段鵬松王福超王超

西安交通大學學報 2021年5期

曹仰杰,李昊,段鵬松,王福超,王超

(1.鄭州大學信息工程學院,450000,鄭州;2.鄭州大學軟件學院,450000,鄭州)

隨著人口老齡化進程加快,保障老年人特別是獨居老人的健康生活,并對他們的日常行為進行監測是社會和家庭的一項長期義務[1]。目前,已有不少算法可以實現跌倒[2]和某些疾病的檢測識別,如帕金森[3]等,為醫療機構提供了及時救治時機和精準救治依據。為實現人體行為的有效檢測識別,研究者們通常使用行為感知技術。行為感知技術是通過硬件或軟件獲取目標當前位置、行為和運動軌跡等信息,并對該信息進行分析與理解,實現對目標行為的感知。根據感知信息載體的不同,行為感知技術可以分為基于計算機視覺、基于專用傳感器以及基于無線信號。

基于計算機視覺的感知技術是通過采集人體行為的圖像序列或視頻信息,利用計算機圖形圖像處理技術,從中提取出人體行為序列。常見應用有行為識別[4]、跌倒檢測[5]、手勢識別[6]、步態識別[7]等。該技術識別準確率高、應用范圍廣,缺點是易受光照和障礙物的影響,并且存在侵犯用戶隱私和有監測死角等問題。

基于專用傳感器的感知技術使用專用傳感器或可穿戴設備采集相關人體行為,從而實現人體行為感知。文獻[8]使用專用傳感器來檢測跑步、走路、轉圈等多種人體行為。該技術可以實現細粒度的行為感知,準確率較高,但專用傳感器安裝和維護成本高,難以廣泛應用。

基于計算機視覺和基于專用傳感器的感知技術雖然識別精度高,但存在侵犯個人隱私及需隨身攜帶等缺點,限制了應用范圍。基于無線信號的感知技術可以克服這些不足,近年來得到了研究者的廣泛關注。基于無線信號的感知技術可簡單分為基于特制射頻信號和基于Wi-Fi信號兩種。基于特制射頻信號的感知技術需要特殊定制的設備,安裝維護成本較高,不利于大規模使用[9-10]。近年來,隨著Wi-Fi熱點的廣泛部署[11],利用Wi-Fi信號實現人體行為感知受到研究者的廣泛關注。2011年,Halperin等發布了CSI Tool工具,極大方便了從商用Wi-Fi設備中提取信道狀態信息(CSI)[12]。CSI包含豐富的振幅、相位信息,可以應用在細粒度的人體行為識別系統中,如睡眠檢測[13]、跌倒檢測[2]、手勢識別[14]、步態識別[15-16]和行為識別[17-19]等。

Wi-Fi信號在傳播過程中受多徑效應影響,導致采集數據中包含環境和其他噪聲,因此原始CSI數據不足以表征不同的人體行為。在實際應用中,傳統機器學習方法,如文獻[18]中提到的隨機森林、隱馬爾科夫模型,從原始CSI數據中人工提取相關行為特征,以區分不同人體行為。但是,這些方法不能充分挖掘時序數據中隱藏特征之間的關系,并且容易丟失特征,從而導致識別準確率不高。

隨著深度學習技術的快速發展,大量深度學習模型用于人體行為感知技術中,以自動提取特征并提高識別性能[17-19]。文獻[18]利用長短期記憶網絡(LSTM)自動提取CSI數據中的人體行為特征并進行自主學習,該方法結果優于傳統機器學習方法的。文獻[19]采用雙向循環神經網絡ABLSTM從CSI數據中提取人體行為特征進行動作識別。文獻[17]提出WiSDAR方法,將CSI數據中提取到的特征處理成圖像幀,輸入到二維卷積網絡(CNN-2D)和LSTM拼接后的網絡中,以實現人體行為識別。

LSTM和ABLSTM使用循環神經網絡(RNN)結構,以單一時間順序方式提取人體行為數據特征,不能充分挖掘數據潛在特征之間的關系,并且模型的復雜度較高。雖然WiSDAR通過融合CNN-2D和LSTM使得網絡結構更有效,但需要指定并按照前后順序拼接兩個獨立的模型,而每個獨立模型都有各自的復雜性,會阻止提取更細微的長期時空關系[20]。

為解決傳統機器學習方法特征提取困難、深度學習方法特征提取方式單一,導致潛在特征關系提取不充分、識別準確率不高等問題,本文設計了融合注意力機制的混合神經網絡模型AHNNet。該模型通過融合雙向循環門控網絡(BiGRU)和時序卷積網絡(TCN)充分提取數據潛在特征。在BiGRU中,本文設計了引入注意力機制的雙向循環門控網絡ABiGRU,以強化數據特征。實驗結果表明,AHNNet在本文采集的數據集上平均準確率較高,并且在保持高精度同時參數量更少。

1 人體行為識別模型

基于AHNNet的人體行為識別模型如圖1所示,其主要包括數據處理模塊和網絡模塊。在數據處理模塊,使用單發射端-單接收端構建數據采集平臺,獲取包含不同人體行為特征的CSI數據,并對采集到的數據使用滑動窗口,以提取更豐富的特征數據。網絡模塊實現融合注意力機制的混合神經網絡模型AHNNet,通過并行的兩種不同特征提取方式的網絡,充分挖掘CSI數據中的人體行為特征,提高模型準確率。之后,使用分類器對融合后的特征進行分類,實現不同人體行為的識別。

1.1 信道狀態信息

CSI是正交頻分復用(OFDM)技術中估計通信鏈路信道屬性的信息[21]。如果將物理空間(包括環境對象和人)描述為無線信道,則信號在無線信道中傳播會發生折射、衍射及散射現象。CSI數據綜合了信號在無線信道中傳播的時間延遲、幅度衰減及相移的所有影響。在頻域中,具有多個發射和接收天線的無線信道被描述為

y=Hx+θ

(1)

式中y、x、θ、H分別表示接收向量、發送向量、噪聲向量以及信道矩陣。信道矩陣H是對CSI的估計,當環境中有人體移動時,信道矩陣會改變。因此,通過分析信道矩陣的變化,可以實現人體行為檢測。

在OFDM技術中,CSI以子載波的形式呈現,其中單個子載波可表示為

d=|d|exp(jsinα)

(2)

式中:|d|表示振幅;α表示相位。可以看出,CSI能刻畫子載波級別的信號擾動,提供了細粒度的無線信道描述。

1.2 時間滑窗

數據處理模塊中使用時間滑動窗口,有助于提取更加豐富的特征信息,并丟棄標記為NoActivity(無動作)的冗余數據。在滑動窗口內,如果超過40%的采樣數據被標記為NoActivity,則該滑窗內的所有數據將被丟棄。隨著滑動窗口后移,標記為有效活動的數據被不斷地選擇用于訓練或測試。圖2是時間滑窗及滑動步長示意。

圖2 時間滑窗及滑動步長示意Fig.2 Schematic of time sliding window and sliding step

滑動窗口將長時間人體活動序列數據分割成短時間序列,然后從中提取數據特征。該處理方式可以關聯活動序列的上下文信息,克服了全局人體行為數據非實時、數據量固定的缺點。

1.3 AHNNet模型

AHNNet采用的主要技術包括BiGRU、TCN及注意力機制等,本小節將詳細介紹這些技術及模型構建細節。

1.3.1 雙向循環門控網絡傳統RNN及其變體(如長短期記憶網絡[22]、LSTM)在提取時序數據特征時,只能記憶過去的信息,而對于人體行為數據,未來信息對當前時刻也有重要意義。因此,本文在AHNNet中采用以GRU[23]為基本神經元的BiGRU[24],用于同時提取人體行為數據過去和未來的信息,提高模型識別性能。GRU是LSTM的一種變體,其內部只有兩個信息控制單元(更新門和重置門),而LSTM有3個信息控制單元(輸入門、遺忘門和輸出門)。因此,GRU減少了網絡單元內部計算復雜度,從而加快了網絡訓練和收斂速度。另外,本文中的行為數據經過滑動窗口處理后變得不那么“長”,亦比較適用GRU的運行。GRU的內部結構如圖3所示。

xt—輸入;zt—更新門;rt—重置門;σ—激活函數; ht-1—前一時刻狀態信息;候選信息;ht—狀態信息。圖3 GRU的內部結構Fig.3 The internal structure of GRU

如果用ot表示當前時刻t的GRU輸出值,→表示提取過去信息,←表示提取未來信息,⊕表示信息拼接,則BiGRU的輸出為

(3)

1.3.2 時序卷積網絡 TCN在時序數據特征提取上已經證明是有效的[20]。行為數據也是時序數據的一種,因此本文嘗試將TCN引入到AHNNet中。GRU以時間順序提取行為數據特征,而TCN在時間尺度上分層提取行為數據特征。本文將兩者有效融合,能充分挖掘數據特征之間的關系,從而提高模型性能。

(4)

式中:〈·〉表示相關函數;frelu(·)表示激活函數ReLu。

1.3.3 注意力機制傳統人體識別模型(如LSTM等)在提取人體行為數據特征時,認為所有特征同等重要。但是,人體行為數據不僅包含行為信息,還包含大量噪聲(如墻壁、家具等靜態物體的反射信號)。為使AHNNet更多關注于人體行為特征,本文將注意力機制[25]融合到網絡。注意力機制和人類視覺的注意力類似,就是在眾多信息中把注意力集中放在重要的部分,選出關鍵信息而忽略其他不重要的信息。注意力機制最早應用在圖像識別中,近年來已經被大量應用于時序數據處理中(如自然語言處理[26]等)。本文將注意力機制應用到人體行為識別中,讓模型更關注當前信息對當前動作的重要程度,從而提高模型識別性能。

注意力機制的核心是權重參數,首先學習每個元素的重要程度,然后按重要程度為每個元素分配權重,權重越大則重要程度越高。假設輸入數據為bt=[b1,b2,…,bn],0

Ct=f(bt)

(5)

式中f(·)可以是CNN、RNN或全連接網絡等。然后,計算Ct向量中每個特征所占權重向量

(6)

最后,將輸入數據bt與其權重向量wt相乘求和,得到最終輸出結果

o=∑bt·wt

(7)

1.3.4 分類器模塊在AHNNet中,人體行為類別由pi∈{1,2,…,c}給出,根據輸入數據x可以預測出可能的人體行為類別p。AHNNet旨在解決多分類問題,因此使用Softmax函數更為合適,公式為

(8)

(9)

經過多次迭代,Adam優化器可以找到較優模型參數,實現對人體行為的精準識別。

1.3.5 模型構建
圖4是AHNNet模型結構,輸入數據經過輸入層后分別輸入左分支TCN網絡和右分支ABiGRU網絡進行特征提取,然后將兩分支提取到的特征進行融合,最后輸入到Softmax分類器進行分類。

圖4 AHNNet模型結構Fig.4 Structure of AHNNet model

TCN分支主要由3個TCN塊組成,每個TCN塊包含1個一維卷積層、1個歸一化層[27]和1個激活層。其中:第1個TCN塊中不添加Dropout層,以最大可能保留低級特征,防止特征丟失;第2個和第3個TCN塊后添加Dropout層[28],以防止模型過擬合。數據輸入到一維卷積層進行特征提取后,為防止數據分布在訓練過程中發生改變,AHNNet使用批歸一化對數據進行處理,然后將數據輸入到激活層進行非線性變換,再輸入到Dropout層,最后使用全局平均池化[29],其優點是可以對整個TCN網絡分支進行正則化,防止過擬合且可以減少模型參數量。

ABiGRU分支由兩部分組成。使用GRU神經元為基礎的BiGRU同時提取人體行為數據過去和未來的特征,并輸入到Dropout層;將提取的特征應用注意力機制,為不同特征分配不同權重,以區分不同特征對當前動作的重要程度;使用全局平局池化調整數據維度,方便后面兩個分支特征進行融合。

為實現注意力機制,先使用全連接層提取輸入數據特征,并使用Softmax函數計算權重向量,最后將輸入數據與其權重向量相乘求和得到輸出結果。注意力機制結構如圖5所示。

圖5 注意力機制結構Fig.5 Attention mechanism structure

得到TCN分支和ABiGRU分支的輸出特征后,AHNNet將二者融合,輸入到Softmax分類器進行分類。

2 實驗

2.1 實驗設置

本文實驗使用深度學習框架Keras實現。AHNNet模型中3個TCN塊所使用的卷積核數分別為128、256和128,長度分別為8、5和3,ABiGRU的神經元數為128,Dropout rate設置為0.7。本文使用Adam優化器,學習率的初始值設置為η=0.001,動量參數設置為β1=0.9,β2=0.999,ε=10-8。為加快模型訓練和收斂速度,將batch_size設置為16。本文中數據集分為訓練集、驗證集和測試集,比例分別為0.8、0.1和0.1,其中驗證集用來調整模型超參數。

2.2 數據集描述

本文使用5個數據集評估AHNNet的性能,其中一個是公共數據集,其余4個是本文在不同環境下采集自建的數據集。

公共數據集[29]在室內辦公區域采集。發射器和接收器在視距條件下相距3 m。接收器是配備商用Intel 5300網卡的筆記本計算機。在數據采集過程中,每個實驗者的活動時間為20 s,并需要在視距條件下進行一項活動。在該時間段的開始和結束,實驗者保持靜止。整個數據收集過程由攝像機記錄,以便對數據進行標記。該數據集包括6個人的6個活動,分別為躺下、跌倒、走路、跑步、坐下和站起。公共數據集在使用時間滑窗去除無動作的時間片段后,剩下有效(即包含動作)時長約3 s。

為綜合評估環境對AHNNet性能的影響,本文另外采集了5個不同環境的數據集。采集環境分別是標準數據采集室、會議室、展廳、心理咨詢室和臥室,其布局如圖6所示。5種環境使用相同設備及配置進行數據采集:TP_LINK AC1750路由器為發射器,配備Intel 5300網卡的臺式計算機為接收器。為使數據標記更準確,在數據采集過程中,要求實驗者在一段時間內重復某項動作,每次采集其中5 s的數據片段作為一個動作序列。為減少操作開始和結束對數據的影響,將動作序列前后1 s視為無動作。為使數據更加多樣化,本文收集10名實驗者的6種常見行為,包括無動作、走路、慢跑、坐下、站起和蹲下。

(a)標準數據采集室 (b)會議室

(c)展廳 (d)心理咨詢室

(e)臥室圖6 不同實驗環境布局Fig.6 Different experimental environment layout

所有數據集采樣頻率均為1 kHz。接收器有3根天線,每根接收30個子載波。數據集規模方面,公共數據集經處理后有3 400條數據用于訓練,本文5個數據集處理后各有3 600條數據。經實驗驗證,本文所用數據集規模適合輕量級的AHNNet模型。

2.3 評價指標

分類模型的評價指標通常為準確率A、精準率P、召回率R、綜合評價指標F1分數。準確率A表示算法所有分類正確的樣本占所有數據樣本的比率,A越高則算法檢測數據樣本真實情況的能力越強。精準率P和召回率R都表示在不同分類情況下對該類別的判斷能力,P和R越高,則該算法對該類別的分類能力越強。為了避免P和R一個為1而另一個為0的極端情況,使用P和R的調和平均值F1來評估模型的性能。各項評價指標公式為

(10)

式中:STP為屬于該類且被分類器分為該類的樣本數;SFP為不屬于該類但被分類為該類的樣本數;SFN為屬于該類但被分類為不屬于該類的樣本數;STN為不屬于該類且被分類為不屬于該類的樣本數。

2.4 實驗結果

為綜合評估AHNNet的性能,本文從滑窗參數設置、模型結構選擇、不同數據集上模型性能、不同環境下模型適應能力共4個方面出發,設計了一系列實驗進行驗證。另外,還從參數量和浮點計算次數方面將AHNNet與同類模型的復雜度進行了對比分析。

2.4.1 時間滑窗長度及滑動步長選擇不同長度的時間滑窗對行為數據細化程度不同,窗口內包含的特征完整度不同,對模型性能有較大影響。為選擇合適的時間滑窗長度,本文進行多組實驗,結果如圖7所示。可以看出,當時間滑窗長度T=800時,AHNNet模型性能最佳。因此,本文選擇T=800。

圖7 不同時間滑窗長度下的實驗結果Fig.7 Experimental results for different sliding window lengths

此外,本文進行另一組實驗來選擇合適的滑動步長。選擇滑動步長為100、200、300、400、600、800共6組數據進行實驗。隨著滑動步長的增加,每個CSI序列被分割成的子序列數量和子序列之間的重疊率將減少。不同滑動步長和重疊率下的模型準確率如表1所示,可以看出,當滑動步長為200時,模型性能比較好。因此,本文選擇200作為滑動步長。

表1 不同滑動步長和重疊率下的模型準確率

2.4.2 模型結構對比模型結構對模型性能有重要影響。為驗證注意力機制、Dropout層和GRU的效果,設計了不添加注意力機制、不添加Dropout層、使用LSTM神經元和AHNNet這4種網絡結構。在標準數據采集室采集的數據集上測試了4種主要的網絡結構,結果如表2所示。可以看出:在不添加注意力機制的情況下,模型性能有所下降,說明注意力機制可以提升模型對主要特征的感知程度,提高模型性能;Dropout層能夠明顯提升模型的泛化性能;GRU神經元的性能指標略微高于LSTM的。

表2 不同網絡結構的實驗結果

圖8是GRU和LSTM的損失函數,可以看出,在訓練過程中GRU比LSTM更穩定且收斂更快。綜合表2和圖8,本文選用GRU作為神經元。

(a)GRU (b)LSTM圖8 GRU和LSTM的損失函數Fig.8 Loss function of GRU and LSTM

(a)LSTM

(b)ABLSTM

(c)AHNNet圖9 LSTM[18]、ABLSTM[19]和AHNNet在公共數據集上的混淆矩陣Fig.9 Confusion matrix of LSTM[18],ABLSTM[19] and AHNNet on common dataset

2.4.3 公共數據集上的對比混淆矩陣可以直觀呈現模型對每個類別的分類性能。本文以LSTM[18]和ABLSTM[19]為基準實驗,驗證在公共數據集上各模型的性能。LSTM[18]、ABLSTM[19]和AHNNet在公共數據集上的混淆矩陣如圖9所示。可以看出,AHNNet不僅在整體分類性能上表現更好,而且在各個類別上也取得了相對較好性能。這主要由于ABiGRU和TCN分別提取數據特征再融合的機制,使得網絡特征提取能力增強。另外,混淆矩陣顯示每個類別分類錯誤都是在相似動作上,這是因為相似動作的特征相似度更高,更容易導致分類錯誤。

2.4.4 不同環境實驗下的對比為驗證模型在不同環境下的適應性,本文在5個環境中的數據集使用AHNNet進行實驗,結果如圖10所示。可以看出:標準數據采集室的結果最好,這是因為標準數據采集室是一個理想的實驗環境,障礙物最少,無關信號反射對人體行為影響最小;會議室和展廳的結果稍差,這是因為這兩種環境中有與實驗無關的障礙物,但相對較少;臥室和心理咨詢室的結果最差,這是因為這兩種環境最為復雜,有許多非實驗因素。綜合分析可知,雖然AHNNet模型的性能會受障礙物的影響,但在不同實驗環境中具有良好的適應性和魯棒性。

圖10 不同環境下的實驗結果Fig.10 Experimental results in different environments

2.4.5 復雜度分析評估模型復雜度常用的指標是模型參數量和浮點計算次數。LSTM、ABLSTM及AHNNet的參數量分別為0.802×106、2.04×106、1.08×106,浮點計算次數分別為1.28×106、3.44×106、1.97×106。可以看出,AHNNet模型在復雜度上相對偏低,原因有兩點:①LSTM和ABLSTM的神經元數為200,而AHNNet的ABiGRU分支神經元數為128,并且使用參數量較少的GRU,從整體上減少了模型參數量及計算量;②相比于GRU在計算時因保存每步信息而占據大量內存,TCN網絡層內卷積核是共享的,因此參數量和計算量更少,對內存的占用也更低。雖然AHNNet模型結合了兩種不同的網絡,但是其復雜度并沒有大幅度增加,反而相對比較輕量化,同時擁有較高精度。

3 結論

本文提出一種用于日常行為健康監測的融合注意力機制的混合神經網絡模型AHNNet。該模型將融合注意力機制的雙向循環門控網絡與時序卷積網絡并行,以不同方式提取數據特征,并且在保持高識別精度的情況下能有效降低模型規模。在公共數據集和本文不同環境數據集上,AHNNet均表現出良好的識別和分類性能。不同環境下的實驗結果表明了AHNNet良好的魯棒性。

未來可從以下3方面進行進一步研究:①多人行為檢測;②CSI的相位信息在人體行為識別中的有效性及使用方法;③提高模型的環境自適應能力。