喻 劍,李至霖,龐鵬矚,李 潔,c
(同濟大學a.電子與信息工程學院;b.計算機與信息技術國家級實驗教學示范中心;c.上海市養志康復醫院(上海市陽光康復中心),上海 201804)
人體運動識別作為智能康復機器人[1]、智能外骨骼機器人[2]和智能假肢[3]等關鍵技術之一,引起了學術界的廣泛興趣。針對運動識別的發展經歷了多個階段,從基于規則的方法到模板匹配[4]、機器學習[5]的方法,再到目前深度學習方法的廣泛應用。隨著算法的不斷迭代更新,針對運動識別模型的準確率和泛化能力要求也日益嚴苛。盡管深度學習模型在分類能力上具有顯著優勢,但由于表面肌電數據的通道有限,稀疏的信息量成為限制深度學習模型實際應用效果的瓶頸[6]。
為了解決肌電信號通道數量限制對深度學習模型的影響,提高運動識別準確率,本文提出了一種表面肌電與三軸加速度[7]多模態息融合(將多種感官信息進行融合)的實驗流程與方法:利用多層小波分析,從肌電信號中提取出不同頻域的特征;并將分離出的不同頻域的肌電信號特征與空間運動特征相融合,構建融合特征圖序列;再在動作識別階段引入狀態自動機。從而有效地擴展肌電信號的信息量,提高對多模態運動識別的準確性。
為了實現對多模態信號的識別,本文設計了如圖1所示的信號處理流程。整個實驗流程包含了信號采集、信息處理與融合、深度卷積神經網絡訓練以及運動判斷幾個步驟:①信號采集部分主要是同步采集表面肌電信號(Electromyography,EMG)和三軸加速度信號,由于信號融合時間窗口很小,因此對兩種信號采集需保證毫秒級的同步;②數據處理與融合由滑動窗口采樣[8]、時頻分析、向量拼接3 個處理步驟構成,主要是將兩種信號進行多頻域的特征提取與深度融合;③神經網絡訓練可選Conv1d 或Conv2d 網絡[9]進行,使用上一步驟生成的融合特征圖對深度學習網絡進行訓練,對當前的運動狀態進行快速判斷;④使用一個狀態機對運動狀態的轉換條件進行判斷,保證了運動識別的穩定性。

圖1 信號處理步驟
由于信號融合處理需要確保來自不同傳感器的異構數據保持較高的同步性和實時性,因此選用了如圖2 所示的ESen-2518 肌電手環作為有線EMG 信號采集設備和gForceDual腕帶手環作為三軸加速度信號采集設備。

圖2 信號采集設備
信號采集時,受試者需要同時佩戴肌電手環和三軸加速度腕帶,根據實驗流程完成指定的實驗范式動作。受試者可以在電腦屏幕上看到當前的動作指令,并且可以同時看到各通道采集到的信號波形以確保當前的動作信號都被準確采集,如圖3 所示。

圖3 EMG信號和三軸加速度信號采集
數據處理與融合的分為滑動窗口處理、時頻特征提取、特征融合3 個步驟,如圖4 所示。滑動窗口處理主要對采集的肌電信號進行滑動采樣,對每個滑動窗口生成1 張特征圖;時頻特征提取主要使用多層離散小波變換對表面肌電信號進行時頻分解,提取出一組低頻特征信息;特征融合處理則將肌電信號中提取現的低頻特征信息與三軸加速度信息以向量的形式進行拼接,形成融合特征圖。

圖4 信息處理與信號融合示意圖
(1)滑動窗口采樣。滑動窗口采樣時,將滑動窗口的大小設定為200 ms,滑動步長設置為窗口大小的一半,即100 ms。這一設置能夠確保每次滑動窗口都有一定的重疊,以充分利用時序數據中的信息,提高采樣的覆蓋范圍。保持窗口大小不變,可以更準確地對比不同實驗條件下不同信息融合處理方法的性能。
由于采集得到的信號中包含了大量的休息狀態信號。為了提高算法的針對性,設計的滑動窗口跳過靜止狀態的信號[10],從而避免在休息狀態下產生的冗余信息對算法性能的干擾。
(2)時頻特征提取。采用小波變換時頻分析(Discrete Wavelet Transform,DWT)方法對肌電信號進行多分頻域分解。這樣的處理方式不僅可以充分提取時序信息,還增強了信號的頻譜信息,使得模型更具魯棒性。
在DWT中,采樣尺度和平移參數被離散化,其中尺度通常進行冪級數的離散化,而位移進行均勻離散取值[11]。這個過程的離散化是為了適應連續小波變換(Continuous Wavelet Transform,CWT)的不足,因為CWT需要連續信號,而實際信號是離散的。設x(n)為實驗采集的離散EMG 信號,則x(n)的DWT 計算式為:
式中:DWT[x(n)]為對采集信號x(n)進行離散小波變換的結果;n為時間序列索引;ψ(n)為母小波;ψj,k(n)為母小波進行縮放平移操作得到的小波基函數,ψj,k(t)=∶j為縮放尺度參數;k為平移位置參數。
離散小波變換的分解過程可以看作是使用一組低通和高通濾波器,分離出低頻信號和高頻信號。隨后,對低頻信號再進行循環的分解操作直到預定的分解層數。低頻信號保留了原信號的概貌和輪廓,而高頻信號則代表了原信號中的細節信息和一部分噪聲[12]。在實驗中,使用每次分解得到的低頻信號部分,將其合并為新的融合信號,以增強同一類別動作的相似性。圖5 所示為在信號處理中,每個通道的表面肌電信號會分別進行5 層離散小波分解,得到5 個低頻信號。這5 個低頻信號與空白信號進行重構,形成一個局部的融合單元。同時,融合特征窗口信號則是每個通道各自分解形成的小融合單元所合并的大融合單元。

圖5 時頻分析處理示意圖
通過采用滑動窗口結合小波變換,每個通道的原始信號都變換為一組時序信號,12 個通道的原始信號拓展為60 個時序信號,從而將圖片尺寸從200 ×12 拓展到了200 ×60 的大小,豐富了特征信息。
(3)向量特征融合。相較于表面肌電信號,三軸加速度傳感器的信息變化較慢,但是它為模型補充了重要的空間運動信息[13]。表面肌電與三軸加速度的特征融合采用了特征向量拼接合并的方法,通過將離散小波變換處理后的表面肌電信號與原始的三軸加速度信號拼接在一起,形成了更為豐富的特征圖,如圖6所示。經離散小波變換后的表面肌電圖尺寸為200 ×60,而三軸加速度信號以原始信號的形式拼接在表面肌電圖下方,最終得到了200 ×96 尺寸的融合特征圖。

圖6 信號融合特征圖像示意圖
在拼接的過程中,為了保證信號之間的相關性,需要確定一個合適的拼接順序。實驗中將同一通道表面肌電信號分解得到的子信號看作1 個獨立的融合單元,將這12 個融合單元拼接得到一個更大的表面肌電融合單元;同時,三軸加速度傳感器所采集的加速度信息中,同1 個節點加速度的3 個維度被看作1 個融合單元,將這12 個傳感器的融合單元拼接成1 個更大的加速度融合單元;最后,將表面肌電融合單元與加速度融合單元進行拼接,得到最終的融合特征圖像。
這種向量拼接的特征融合方法充分融合了表面肌電和空間運動信息,為深度學習模型提供了更全面的特征信息。通過將不同維度的信息相互關聯,使模型更具泛化能力。
深度卷積神經網絡訓練過程對輸入的融合特征信息進行學習與訓練。為體現不同的深度神經網絡對信號的學習不同效果,選擇使用Conv1d 和Conv2d 2 種不同卷積神經網絡進行實驗。
Conv1d為一維卷積神經網絡模型,主要用于處理序列數據或時間序列數據。在生理信號分析中,Conv1d常用于處理一維信號,比如EMG,能夠捕獲信號在時間軸上的特征變化,適用于需要關注信號時間信息的任務。Conv2d為二維卷積神經網絡模型,主要用于處理圖像等二維數據。可以有效地捕捉信號的空間特征,對于需要分析信號在不同空間維度上的模式和關聯性的任務有一定優勢。在生理信號分析中,Conv1d和Conv2d的主要區別在于其處理信號的維度和特征捕獲方式。Conv1d 更適合處理單一維度的信號,例如時間序列信號,能夠較好地捕捉信號在時間軸上的變化和模式;而Conv2d則更適用于考慮信號在多個維度(例如空間維度)上的特征[14],能夠同時關注不同維度間的關聯性和模式。該模塊的示意如圖7 所示。可以通過選擇不同的網絡進行多模態信號的識別,從而對比分析不同方法的差異。

圖7 神經網絡訓練示意圖
動作判斷的任務是將神經網絡得到的運動分類結果,通過狀態機轉移規則層面的推理實現對當前運動動作的判斷。本模塊設計考慮了歷史運動狀態的穩定性,通過狀態機的方法實現了對運動狀態的連續判斷。
人體的運動狀態往往是一個連續的過程,而不是瞬時突變的動作。因此,引入狀態機[15]可以通過連續跟蹤運動狀態的變化,推斷出當前的動作。這種連續性的狀態機設計使得模塊能夠更加穩定地判斷用戶的運動狀態,避免了一些由于神經網絡的分類錯誤造成運動狀態判斷錯誤。狀態機的轉移條件是動作判斷模塊設計中的關鍵。靜止狀態和運動狀態2 種基本狀態間的切換是通過判斷隊列中元素的數量和出現情況來實現的。
圖8 所示為2 種狀態轉移條件。在靜止狀態轉移到運動狀態時,需要滿足隊列中出現得最多元素數量大于閾值p1,且這些元素不為占位符。這樣的設計是為了排除偶然的分類異常結果,確保在短時間內能穩定完成某一動作。而從運動狀態轉移到靜止狀態的條件包括隊列中占位符的數量大于閾值p2,或者隊列中出現得最多元素數量小于閾值p3。這2 個條件的設置是為了應對系統在一段時間內的判斷概率低或者分類混亂的情況,從而可以使系統恢復靜止狀態。

圖8 2種狀態轉移條件
實驗招募了10 位被試人員,并對應采集了相應的數據,分別使用本文提出的實驗方法和常用4 種信號融合的處理方法,在2 種卷積神經網絡模型上完成了訓練與評估。本實驗方法與對比處理方法的準確率結果對比如表1 所示。

表1 不同信號融合方法準確度比較
由表1 的數據對比分析可得如下結論:
(1)多模態信號的融合提高了運動判斷準確性。圖9 所示為多模態融合信號與單一信號對比。由圖9可知,僅通過表面肌電信號進行分類,最高準確率為81.9%;而在二維卷積神經網絡中,準確率達到了95.4%;在一維卷積神經網絡中,準確率為89.2%。多模態信號在多種網絡中均呈現出更高的準確率,驗證了多模態數據融合在提升模型性能方面的有效性。

圖9 多模態融合信號與單一信號對比
(2)信號特征提取有效。圖10 所示為時頻特征的工程對比。由圖10 可知,將原始表面肌電信號圖像直接輸入CNN中進行訓練,準確率僅為63.6%;而使用小波變換將最終準確率提高至81.9%。表明通過對原始信號進行時頻分析并提取特征,可以更充分地反映信號的動態特性,提高模型的分類性能。

圖10 時頻特征工程對比
(3)動作判別實時性。實時性是運動判別系統的關鍵性能之一。在實驗流程中,主要的計算復雜度來自特征圖構造和模型分類。通過以大小為100 ms 的滑動窗口進行采樣,對長度為80 s 的時序信號進行800 次數據處理和模式識別進行實時性測試。結果顯示,每次數據處理的平均時間為9.2 ms,而使用二維和一維卷積神經網絡進行圖像分類的平均時間分別為44.7 和41.5 ms。
圖11 所示為標簽與動作識別結果對比。由圖11可知,輸出信息中實驗系統對動作的識別速度,實驗系統在運動發起的初期就可以迅速完成對運動動作的判斷,并成功將狀態機從靜止轉移到相應的運動狀態;在運動結束后,也能及時將狀態機從運動狀態轉移到靜止狀態。這也表明了深度學習方法在表面肌電信號分類問題上有著更高的上限。

圖11 標簽與動作識別結果對比
本文設計的信息融合流程與方法能充分融合肌電信號和三軸加速度信號的運動特征,結合卷積神經網絡與自動狀態機,實現了對運動狀態的準確、穩定識別。通過實驗表明,設計的算法總體識別精度分別達到了95.4%和89.2%,取得了較好的實時運動判斷準確率。這種信息融合的方法也可以用于生物信號處理、多源信號融合、神經網絡訓練等項目,為探索新的多源信息融合方法提供有益的參考。