李自由 趙新剛 張 弼 丁其川 張道輝 韓建達 ,5
表面肌電信號(Surface electromyography,sEMG)是由運動關聯肌肉的運動單元動作電位(Motor unit action potential,MUAP)沿著肌纖維方向傳播,在人體皮膚表面形成的疊加電信號.該信號直接反映了引起肢體運動的肌肉收縮狀態,可從中解碼出運動直接關聯意圖,其中蘊含豐富的肌肉收縮力、關節力矩等信息,廣泛應用于識別數十種肢體狀態或預測關節連續信息[1];sEMG 相對于刺入式肌電信號(Intramuscular EMG,iEMG)而言,采集方式簡單,易于構建集成系統和開發可穿戴設備.
因此,sEMG 廣泛應用于助力機器人、康復機器人與智能假肢等系統中,在人機協作型機器人中也逐漸成為研究熱點[2-3].與傳統的程式控制機器人交互方式相比,基于sEMG 的人機交互方式賦予了機器人智能性與認知能力,具有主動感知人行為意圖的能力,有利于實現人機的自然、直覺與準確交互.尤其對殘疾人而言,肌電假肢自然直覺的控制方式,能夠極大地提高他們的生活質量.
為了滿足不同場景下的人機交互需求,基于sEMG 的人體意圖識別方法,從起初基于幅值的閾值判別法,慢慢發展為基于模式識別和機器學習的研究思路,其主要遵從有監督學習的基本范式,如圖1 所示.其處理流程一般包含:離線的模型訓練和在線的意圖識別.第1 階段如該圖的虛線箭頭所示,首先要求用戶根據實驗場景需求,獲取已知動作標簽對應的肌電信號數據,經數據預處理和特征提取等環節,肌電信號特征與動作標簽共同完成模型的訓練.而在第2 階段的在線意圖識別中,已經訓練完成的識別模型對在線的肌電信號進行同樣數據預處理和特征提取等環節,最后對輸入的肌電信號輸出識別結果.

圖1 基于監督學習的sEMG 識別模型訓練與測試框架Fig.1 The training and testing framework of sEMG recognition model based on supervised learning
依據識別模型的輸出類型可分為兩類問題:離散動作分類和連續運動估計.在離散動作分類識別方面,由起初的張手和閉合的二分類問題,逐漸發展成對幾十種手部/腕部動作識別[4-5];針對其中10種左右的常見手勢識別,其基本識別精度高達90%.在連續運動估計方面,對人體上/下肢多關節的角度估計誤差約為5° 或更低[6-7].
采用閾值判別法或模式識別方法的一個基本假設,即訓練集與測試集符合相同的分布.然而在實際日常生活的肌電交互過程中,往往會存在多種差異或干擾,造成肌電信號的訓練集與測試集的分布明顯不同,最終導致肌電識別準確性低、交互效果差[8].目前大部分比較好的識別結果往往來自于無干擾情況或實驗室理想環境,未充分考慮肌電交互系統在日常使用中的潛在差異或干擾.相對于實驗室的理想環境,本文將肌電系統在實際中可能涉及到的差異或干擾統稱為“非理想因素”,存在“非理想因素”的日常環境即為“非理想條件”.這些非理想因素包括:電極偏移、個體性差異、肌肉疲勞、姿態干擾、其他干擾或多種因素的綜合干擾.
前期已有學者總結了sEMG 的一般處理方法或應用場景,多側重在理想場景或無干擾的情況下如何識別更多類別,通過對比分析不同特征處理、降維方法和識別模型等環節,以提高肌電識別的精度和準確性[1];對目前大量克服單個干擾的研究,鮮有文獻總結肌電系統魯棒性方面的研究現狀和進展,更缺乏對實際應用中存在的諸多干擾因素給出應對方案的歸納和建設性的技術展望.
因此,本文首先綜述了在各種非理想條件中非理想因素干擾的影響程度或性質,并總結歸納了目前研究針對各個干擾的消除與克服方法;然后整體性討論了各個非理想因素之間的耦合性和過渡性,以及目前研究中存在的主要問題;最后本文從構建統一的數據集測試平臺等作為切入點,對未來該領域的研究內容提出了一些展望,為進一步推廣肌電交互系統提供切實可行的技術方案.
本節主要針對肌電識別系統的準確性和魯棒性問題,分別從肌電采集技術的差異性和源于人的差異性兩方面綜述了相關干擾因素.前者主要表現為電極偏移的干擾,后者包括人與人之間的個體性差異,以及源自人體內部的肌肉疲勞、肢體姿態等干擾.
諸多非理想場景下,電極偏移是其中較為普遍出現的干擾因素之一,主要源于電極或肌電假肢接受腔多次粘貼、固定后的位置不完全一致.對使用者而言,一方面嚴格要求與之前相同的粘貼位置,既不現實且增加使用難度;另一方面,每次重新粘貼肌電電極或再次穿戴肌電假肢后,重新獲取大量有監督標簽下的訓練數據,重新訓練分類模型,也比較費時費力.這些方式都對用戶不友好,造成使用門檻過高,或因訓練時間過長而增加學習負擔,最終放棄使用肌電交互系統或假肢.
電極偏移最根本性的影響,即偏移前后同一電極測量的肌肉位置不同,導致特征分布明顯不同.由于各通道肌電信號變化而引起的特征空間分布變化,傳統基于模式識別方法的固定模型表現較差,大大降低了肌電識別系統的準確性.
Hudgins 等[9]最早利用單通道的差分電極用于識別4 類動作,針對電極偏移的精度影響開展了實驗性探究,實驗結果表明在假肢固定接受腔小范圍內的偏移(小于1 cm)時,電極偏移對精度影響不大,而當偏移距離變大時會明顯降低肌電識別精度.Stango 等[10]利用高密度表面肌電傳感器(Highdensity sEMG,HD-sEMG),研究了不同位置下的肌電信號空間相關性和受電極干擾的影響程度,表示為

其中,E(·)表示數學期望,Z(x)和 Z(x+h)表示兩個隨機位置處的采集結果,h 表示兩個位置之間的空間距離,γ(·)定義為一種空間分布結果的變異函數(Variogram).
大量相關研究更加細致地對比了在肌纖維橫向、縱向、旋轉等方向或距離維度上的干擾程度,主要研究結果表明:1)在電極布局上,平行于肌纖維方向的差分電極更容易捕獲準確的肌電信號,而非垂直于肌纖維方向(即,沿著肌肉方向固定電極,目前已成為該領域的一般做法);2)平行方向上的電極偏移干擾效應小于垂直方向偏移干擾;3)電極與肌肉的接觸面積越大,越有利于提高肌電識別準確率和保證系統魯棒性[11–14].
盡管假肢的接受腔在一定程度上能通過穿戴方式保證小范圍的電極偏移,但在實驗室和日常條件下,涉及的電極類型或偏移形式多種多樣,如離散稀疏單通道肌電電極,類似于Myo 肌電手環類的環形多通道電極和高密度表面肌電電極HD-sEMG[13–15](如圖2 所示).因此,在諸多實際使用場景中,肌電電極偏移現象是一個易出現且影響較大的干擾因素.

圖2 不同電極的偏移形式Fig.2 The offset form of different electrodes
因此,為了克服電極偏移引起的識別精度下降和系統魯棒性降低問題,按照如圖1 所示肌電識別框架內的關鍵環節,分別探討在數據、特征和模型等不同環節內用于消除或解決電極偏移干擾問題的方法.
1)融合不同偏移位置下的多模數據.在有監督學習的模型訓練中,一方面可以增加訓練數據的數量,通過引入更多電極測量更多或更精細的肌肉位置,這種方式通過豐富訓練數據集或包含更多電極場景,來拓展模型的覆蓋能力或泛化性能.Hargrove 等[13,16]提出一種模型訓練策略,采集所有電極偏移位置上的數據用于模型訓練,相對于一般模型訓練方式提高了10%的識別精度.He 等[12]利用HD-sEMG 采集系統,實驗表明多通道相對于少通道而言,更有利于提高干擾下的肌電識別精度,32通道的肌電信號在電極偏移情況下(最大偏移1 cm)獲得比少通道肌電更好的識別精度.另一方面,將肌電信號與其他類型傳感器融合,如慣導(Inertial measurement unit,IMU)等,也能提高模型在電極偏移干擾的魯棒性[17-18].
2)提取電極偏移不敏感的特征.在特征提取環節,如果能構造具有電極偏移無關的特征空間,將極大地提高系統的魯棒性;同時,也能夠降低因為數據量或數據類型擴增而引起的數據采集階段和模型訓練階段的耗時.研究表明,自回歸系數特征(Autoregressive features,AR)、時域與自回歸系數結合的特征(Combination of time-domain and AR feature,TDAR),比TD (Time-domain)特征對電極偏移干擾具有更好的魯棒性,在10 類常見的手部或腕部動作中,識別誤差由30%下降為10%左右[16,19];Tkach 等[20]提出了EMG 的自回歸系數特征和倒頻譜系數(cepstrum coefficients)特征,Stango 等[10]提出了Variogram 特征,Boschmann等[21]利用結構相似性特征(Structural similarity index);Pan 等[22]提出了共空間模式(Common spatial patterns,CSP)特征,并與傳統的TDAR和Variogram 等特征進行了對比,取得了更高的識別精度,表明該特征具有更好的電極偏移等干擾的不敏感性.更進一步,He 等[14]借鑒了圖像處理領域的紋理信息——灰度共生矩陣,提取二維肌電信號中所構成肌肉活躍圖的紋理信息,并將陣列式電極首尾連接,進一步改進了紋理特征,表現出明顯的電極位置無關優勢.另一方面,Huang 等[23]利用非負矩陣分解(Nonnegative matrix factorization,NMF)技術,提出了一種半監督方式,將原特征空間映射到隱變量新空間,表現出對通道數目和偏移位置不敏感的優點.
3)更新模型適應不同偏移位置.遷移學習(Transfer learning)或領域自適應(Domain adaptation)技術常常被引入以解決這類干擾變化,使得模型具有更新能力,以適應不同的信號特征.Amsuss 等[24-25]在識別模型的結果上進行后處理作為模型自修正,降低模型因為電極干擾引起的誤分類,或采用協方差偏移適應(Covariate shift adaptation)等遷移學習方法適應電極偏移等干擾.Prahm 等[15,26]和Paaβen 等[27]針對Myo 的旋轉偏移干擾問題,采用期望最大化的遷移學習(Expectation maximization transfer learning)估計因電極偏移前后肌電信號在特征空間中分布的關系(假設為一種線性映射),僅利用少量訓練數據將預訓練模型適用于不同干擾下的肌電識別場景.丁其川等[28-29]提出一種自適應增量式混合分類器(Adaptive incremental hybrid classifier,AIHC)用于應對因重復穿戴后引起的電極偏移干擾.李自由等[30]針對環形Myo 肌電傳感器,提出一種基于極坐標系內的活躍極角概念,用于估計不同旋轉位置之間的偏移程度,并基于該偏移程度提出了自適應校正方法,無需識別模型的再次訓練,僅利用少量單類別數據,實現了常見手部8 動作識別.Amma 等[31]基于HD-sEMG 構建了CSL-HDEMG 數據集,并針對會話間的電極偏移問題,提出了兩種偏移估計方法:利用少量校正數據估計小臂尺骨位置和肌肉活躍中心位置,并以此進行偏移干擾的sEMG 校正,將識別精度由未校正的59%提升至75%.Ameri 等[32]通過卷積神經網絡和遷移學習的方法,僅利用少量肌電更新數據,同時克服了個體性差異與電極偏移的綜合干擾.
盡管人體的骨骼和肌肉分布大致相同,但個體間在諸多方面的差異性(既包括個體的身高、體重、身體質量指數(Body mass index,BMI)、肌肉表層的脂肪含量等差異,也包括不同個體在執行動作時的肌肉收縮方式和肌肉收縮力大小等方面的差異,以及截肢患者的殘肢肌肉功能或通過目標肌肉神經分布重建方法(Target muscle rehabilitation,TMR)的肌電信號差異[33]),尤其是健康者與肢體殘疾者之間的肌電特征差異[34],都極大地限制了傳統固定識別模型在不同用戶之間的通用性.大量的實驗和研究表明,傳統基于有監督學習的固定識別模型,在處理新用戶的肌電信號識別問題上表現不佳,因此個體差異問題逐漸成為阻礙肌電交互系統推廣應用的主要問題之一,引起研究者們的廣泛關注[35].而為了應對這種個體性差異導致的模型識別率下降問題,本節總結當前文獻的主要研究工作,分別在數據、特征和模型等不同環節,歸納用于消除或解決個體差異性問題的方法.
1)融合不同個體的多模數據.即增加有監督學習模型中訓練數據的數量或類型.Guo 等[36]將多人的數據融合后訓練一個通用識別模型,在新用戶上的識別準確率可達85%,其主要的優點是新用戶無需采集數據重新訓練或校正的過程,方便即時使用.Stival 等[37]在回歸問題研究方面引入IMU 信息,利用慣導所補充的個體特點降低識別模型在個體差異性方面的約束.Phinyomark 等[38]將個體相關的12個形態參數(如BMI 等)用于更新模型權重因子或特征歸一化,提高了識別模型在不同用戶上的適用性.
2)提取肌電分解與協同特征.即通過肌電分解、多特征融合等方式構建統一化的共同特征空間.Xiong 等[39]利用肌電信號的逆向分解原理,將不同個體的肌電信號分解到運動單元動作電位的信號空間.通過MUAP 的無監督聚類,找到用于個體無關的表征方式,降低個體之間的差異性.Ison 等[40]提出了基于多分辨率肌肉協同特征(Multire-solution muscle synergy)提取技術,以構建個體適應的魯棒特征.Chattopadhyay 等[41]探究了個體之間的相似性,利用領域適應方法盡可能保持個體肌電信號的分布特征,通過映射到共同空間,以提高模型適應性.
3)采用少量數據更新通用模型.Tommasi 等[42-43]在基于遷移學習的個體模型適應性研究方面做出了一系列研究成果,主要是在一般模型的基礎上,通過利用新用戶的少量數據,更新已知多用戶的支持向量機(Support vector machine,SVM)識別模型的權重因子,設計了一種低代價的權重更新方法

Khushaba[44]利用典型相關分析(Canonical correlation analysis,CCA)方法,將不同個體的肌電特征映射到一個低維的同一空間(unifiedstyle space)訓練初始模型;并對新用戶的少量肌電信號與預訓練模型的專家特征(Expert features)做典型相關分析,將測試集數據更新至預訓練模型高相關性空間,提高了模型的適用性和泛化能力.Matsubara 等[45]采用形式和內容分離(Style and content spearation)的思想,基于用戶依賴因子(User-dependent factor)和動作依賴因子(Motion-dependent factor)構建用戶無關特征(User-independent feature)的雙線性模型(如圖3 所示),針對新用戶時僅需單類別的更新數據,完成模型對新用戶的多類別動作識別.Pan 等[46]僅利用個體的最大收縮力信息將個體模型拓展為通用模型,其更新方式代價較低.而Cote-Allard 等[47]利用深度學習中的卷積神經網絡(Convolutional neural network,CNN)將模型遷移適用不同個體.

圖3 基于用戶依賴因子和動作依賴因子構建用戶無關特征的雙線性模型[45]Fig.3 User-independent bilinear model based on userdependent factor and motion-dependent factor[45]
從生理機制而言,一方面肌肉在長期進行超負荷或持續收縮過程中,即產生肌肉疲勞.如圖4 所示,其中最主要的表現就是肌肉所能夠產生的最大輸出力降低[48-49];另一方面,研究表明功能性電刺激(Functional electrical stimulation,FES)也能夠誘發肌肉疲勞[50].在有監督學習的肌電信號動作識別的一般框架下,基于sEMG 的意圖識別與智能系統交互控制中,研究者往往通過一定的實驗條件或交互約束,盡量避免在假肢等控制交互過程中的使用者產生肌肉疲勞[51].然而在實際日常生活或臨床應用中,長時間佩戴肌電假肢、使用肌電助力或康復系統不可避免地導致使用者產生肌肉疲勞.因此,肌肉疲勞是在長時間使用中不可避免的重要問題之一[52].

圖4 疲勞狀態下肌電信號中值頻率與肌肉輸出力變化[52]Fig.4 Changes of median frequency of EMG signal and muscle output force under fatigue condition[52]
研究表明,肌肉疲勞在肌電信號的潛在表現主要包括但不限于:1)幅值特征增加;2)頻譜能量下降;3)傳導速度下降[48,53-54];由于肌電幅值往往與肌肉收縮力正相關,容易受使用者發力影響,因此肌肉疲勞評估或監測更為關注頻譜能量變化.De Luca[52]通過要求被試者的第一骨間背肌持續收縮進行肌肉疲勞實驗,在該實驗范式下,該肌肉的肌電信號反映出頻譜分析中值頻率(Median frequency,MDF)在疲勞前后下降超過50%.研究表明,肌肉疲勞的肌電信號中包含了頻譜能量、傳導速度的下降趨勢和幅值特征的上升趨勢以及傳導速度正比于肌電信號中值頻率[51].
sEMG 的MNF和MDF 的計算式為

其中,P 表示信號的功率譜密度,MNF 表示均值頻率,MDF 表示中值頻率.
然而,頻譜分析的方法主要采用快速傅里葉變換(Fast Fourier transform,FFT),其假設時間序列具有平穩特性,在先前的大多數研究中也主要是等長收縮的實驗范式.這種實驗范式及分析方法具有一定的局限性,因此基于短時傅里葉變換(Shorttime Fourier transform,STFT)和基于小波變換(Wavelet transform,WT)等時頻域的特征,改進的中值頻率或均值頻率也逐漸引入到肌肉疲勞監測中,尤其適用于被試者的動態收縮過程[55].綜述當前的研究,為處理非理想場景下的肌肉疲勞干擾,主要從頻域等疲勞特征與疲勞分類兩方面提出解決方案.
1)頻域等疲勞特征.為應對肌肉在周期性、動態收縮下的肌肉疲勞監測,Bonato 等[56]在大拇指周期性動態收縮力下提出基于時頻域變換的瞬時中值頻域(Instantaneous MDF,iMDF)和瞬時均值頻率(Instantaneous MNF,iMNF);Cao 等[57]提出循環平穩性特征作為疲勞因子;Thongpanja 等[58]提出了一種改進的頻域特征(Time dependence of MNF,TD-MNF),在肘關節不同負載下進行了多組重復性疲勞實驗,結果表明,相對于MNF、MDF特征而言,TD-MNF 可作為一種更為全局準確的肌肉疲勞評估方法,并且與肌肉負載力之間具有線性關而非基于傳統MNF、MDF 非線性耦合關系.肌肉疲勞源自比較復雜的生理過程,并依賴于實驗范式等,因此有關肌肉疲勞評估的研究也不僅僅局限于上述幾個方面的時域或頻域特征.除此之外,Al-Mulla 等[59]提出一維頻譜—標準差(1D specto std)特征,Xu 等[60]在疲勞時的肌肉力估計中通過NMF 分解技術提取疲勞因子;Sheng 等[61]提出多模態生理信號融合的方法克服肌肉疲勞.
2)疲勞分類.研究人員將疲勞監測或克服疲勞問題作為一個“分類”問題研究.如Al-Mulla 等[59,62]在選用更多特征的基礎上,進一步與分類器相結合以區分非疲勞(Non-fatigue)、過渡疲勞(Transitionto-fatigue)和疲勞(Fatigue)等三類階段;Wu 等[63-64]提出混合細菌覓食—粒子群優化方法(Bacterial foraging and particle swarm optimization,BFPSO)和模糊SVM (Fuzzy SVM)等方法監測疲勞狀態.
因此,為克服肌肉疲勞所帶來的的不良影響,一般是在特征提取過程時對特征進行預處理,如基于MNF 或MDF 的特征歸一化處理[65],或采用概率模型和基于疲勞監測因子查表方式,對多種識別模型進行切換控制[66-67];此外,Mainardi 等[68]通過自主設計改善電極等配置,避免商業采集系統的過多濾波環節,保留更多肌肉疲勞有關頻帶信息;而Peternel 等[69]則更加關注在人機協作場景中,通過調整協作機械臂的不同剛度,以適應人體的不同疲勞狀態,開拓了肌電識別與協作交互的新應用.
在智能假肢的實際場景中,肢體的姿態干擾一般可歸納為兩種類型:1)不同靜態姿勢下,同一個末端(如手部)動作的差異;2)靜態、動態或不同肌肉收縮力對同一動作產生的差異[70].傳統基于有監督學習范式的sEMG 識別系統,僅將少部分姿態下的肌電信號作為訓練集,得到的分類模型往往容易受到多種姿態干擾.如Liu 等[71]揭示了靜態—動態手臂姿勢對手部分類動作的影響;Jiang 等[72]在研究肌電連續估計時也發現手臂位置對識別精度的負面影響.研究表明,在針對不同姿態下的手部/手指動作分類時,其中腕部和大臂的姿態均對手部動作識別產生較大的影響[73-74].目前,針對肢體姿態不同而引起的干擾問題,大量研究工作與解決方法主要集中在數據和特征兩方面:
1)融合不同姿態下的多模數據.即增加訓練數據集的數量或類型.一方面可以通過采集更多場景下的數據作為模型的訓練集,使得模型能夠覆蓋更多的肌電識別場景.大量的研究表明,與僅利用單一位置下的數據作為訓練集相比,將更多(或所有)位置下的肌電數據引入到模型的訓練集中,能夠取得比單一位置更好的識別準確率[75–77].然而這種方式要求覆蓋盡可能多的姿態場景,當訓練后的模型應用于從未出現的姿態數據時,模型的泛化能力依然較弱[78].并且這種通過豐富訓練數據集以覆蓋更多姿態的方法,很明顯將要求受試者在使用肌電交互系統時,花費更多的時間用于訓練集數據采集.這種要求增加了用戶學習和使用負擔,是導致用戶棄用肌電假肢等設備的主要原因之一.而在這種通過多姿態場景豐富訓練數據集的數據采集范式下,Scheme 等[70]和Radmand 等[78]將多個靜態姿態位置組合成動態的日常生活動作(如圖5),提出了“動態訓練”(Dynamic training)方法.訓練數據采集時間由原來超過10 分鐘下降為1~2 分鐘.另一方面,通過增加其他類型傳感器,補充更多有關肢體姿態的信息,增強系統判別能力,如引入肢體的加速度信息[17].肌電信息和加速度信息的融合方式包括兩種類型:串聯和并聯方式.1)串聯方式.包含兩階段的層級結構.即首先利用加速度信息訓練分類器并用于識別肢體姿態或位置信息;在判別了不同位置或姿態的基礎上,利用各自的肌電識別模型,進一步確定手部動作類型[75-76,79].2)并聯形式.即使用加速度信息和肌電信息,或其相關特征,共同拓展模型的輸入維度.通過擴維的數據融合方式提升識別系統對姿態干擾的魯棒性[75].

圖5 動態訓練方法的不同姿態Fig.5 Different postures of dynamic training approach
2)提取肢體姿態不敏感特征.不同于豐富訓練集數量和類型的方式,對肢體姿態不敏感的肌電信號魯棒性特征方式由于降低對用戶的學習和使用門檻,將適用于更多交互場景.Khushaba 等[80-82]提出了頻域的多個特征,如譜矩(Spectral moments)、譜稀疏性(Spectral sparsity)、譜通量(Spectral flux)、不規則因子(Irregularity factor)、信號功率譜相關性(Signals power spectrum correlation)等,以及用于量化位姿角度的特征等,探究了這些特征對姿態干擾的魯棒性.而Betthauser 等[83-84]提出了肌電信號的稀疏表達特征與基于稀疏特點的自適應校正方法,在新姿態下進行了離線和在線測試,顯著提高了新姿態下的識別精度和識別魯棒性.另外值得一提的是,肢體姿態對識別結果的干擾影響,正常人與截肢患者有明顯不同,對正常人的干擾性更為明顯一些[72,79].因此,在進行實驗設計與方法驗證時,應盡可能包含更多用戶數據,使結果具有更強的說服力.
在日常復雜的實際人機交互應用中,針對sEMG 識別的非理想因素,不僅僅局限于前述多個常見且影響嚴重的干擾,還包括電極脫落導致的數據丟失問題[85-86]、皮膚表面的汗液或溫度變化導致的電極阻抗變化問題[87]、工頻干擾[88-89]等,以及實際應用中對新動作的需求等因素或多種因素的綜合干擾,依然制約著sEMG 識別系統的應用與推廣.
綜上所述,基于sEMG 的識別方法在實際應用場景中面臨著諸多的非理想干擾因素,研究者們針對各個干擾因素,提出了豐富的干擾估計和干擾克服方法,在很大程度上提高了肌電識別系統的魯棒性.
然而,在前述的諸多文獻中,多數研究內容主要集中在克服單個干擾因素的影響;且通過特定的實驗范式,控制單變量地僅引入單個干擾因素,與實際肌電交互場景有明顯差異.因此,針對實際肌電交互場景的諸多干擾因素,現有研究弱化或忽略了各個干擾因素之間不同組合而帶來的耦合性,以及由場景變化或肌電信號的時變特點而引起的過渡性.
1)耦合性.指同一肌電交互場景中存在多種干擾因素,且無法判斷各類干擾的影響程度.如當預訓練識別模型應用于新用戶時,其中顯而易見會引入個體性差異的干擾;不同人在完成動作時的姿態信息、肌肉收縮方式和收縮力大小也存在差異;而在穿戴過程中由于粘貼位置的不同,也會耦合電極偏移的問題.并且,這些實際日常生活中耦合的諸多干擾之間,較難判斷究竟是由哪一種干擾因素在起主導作用.
2)過渡性.指長時間肌電交互場景中,某些因素的干擾程度在不斷變化,或不同場景中對肌電識別模型的目標變化.在長時間的肌電意圖識別與交互控制中,一方面主要由于肌肉的長時間反復收縮容易引入不同程度的肌肉疲勞問題;另一方面用戶在使用過程中,尤其是通過視覺等方式不斷接收實際交互效果的反饋后,大腦或中樞神經在刺激肌肉收縮時也會逐漸適應這種交互方式,不自主地改變肌肉發力方式或大小[90].因此,傳統有監督模型,受限于一經訓練完成模型固定的特點,將無法適用于實際應用中這類變化因素.這一點在前述諸多干擾的應對方法中已有所體現,部分研究者在傳統有監督模型中引入自適應變量或引入遷移學習,以增強模型的適應性,但距離克服實際應用中的諸多干擾因素過渡性仍有較大差距.
如前文對諸多非理想因素的本質分析,以及相關克服方法的綜述,如表1 所示,為克服實際應用中的諸多非理想因素,相關研究方法可以歸納為三種基本內容:數據擴增、魯棒特征與模型更新.

表1 非理想因素及解決方案Table 1 Non-ideal factors and solutions
1)數據擴增.主要是擴增更多場景下的肌電數據量,或與其他模態傳感器數據相融合;其中擴增數據量,一定程度上花費大量時間,需要綜合考慮個體用戶的學習成本與使用負擔.而多傳感器數據融合,提供了更多人體意圖的冗余和互補信息,代表著人機交互的未來趨勢之一.
2)魯棒特征.雖然在某些單一非理想場景中,精心設計的魯棒特征表現良好,但是其推廣性較差,且在新的場景中探尋魯棒特征較為困難.因此,應當結合特征工程或特征學習等方法,為提高系統的魯棒性提供通用的理論指導.
3)模型更新.該方面的研究成果較為豐富,是肌電識別研究的重要環節與主要內容.但模型更新的代價問題,如所需的新樣本量或模型更新時間等,則是其不得不考慮的重要因素;另外,多數研究中的模型更新策略通用性較差,僅適用于特定的分類模型,如SVM 等.
最后,即使針對同一類非理想干擾因素,由于采用了各自的實驗設備、實驗范式和實驗數據等,所提方法之間未進行充分的對比.大部分研究僅相對于未采取任何措施的方法進行對比,驗證了算法的可行性和有效性.以往方法鮮有在當前實驗中進行復現,方法之間缺乏直接對比.
因此,本文在綜述了非理想肌電的諸多干擾因素與現有文獻方法的基礎上,將當前研究所面臨的關鍵問題總結為:1)缺乏統一的算法比較平臺,2)忽略了干擾之間的耦合性和過渡性.
本節將針對上述問題,進一步總結分析并提出了“一個平臺+兩種方法”的關鍵技術展望(見圖6),包括:

圖6 非理想肌電的關鍵技術展望Fig.6 The key technology prospects of non-ideal EMG
1)構建統一開放的肌電等多傳感器數據集作為基準平臺,使得不同研究方法之間能夠進行統一比較;
2)探索基于“機器學習”和“機理建模”的肌電識別方法,分別從特征層面與機理層面,研究肌電信號在非理想場景下的過渡變化與多干擾之間的耦合關系.
大規模有標簽數據集作為主要的推動力之一,促進了以深度學習為核心的機器學習技術,在語音識別、圖像處理與識別、自然語言處理等領域的飛速發展.該技術主要利用了大規模有監督數據集與深層神經網絡,突破了傳統機器學習算法中依賴于手工特征的局限性.
而在肌電信號識別領域,雖然基于機器學習和模式識別的方法已經非常普遍,但是統一開放的肌電識別數據集仍然非常鮮見.究其原因,一方面受限于肌電信號采集設備,目前實驗室用高精度肌電傳感器普遍非常昂貴,且采集設備在電極配置、調理電路和采樣率等方面存在較大差異;另一方面,有別于常見的語音信號、圖像、視頻、文本等信息,原始肌電信號的可理解性較差,無法直接驗證數據的真實性和可靠性,僅能通過合理的實驗范式保證數據的有效性與準確性;并且囿于不同的應用場景和識別目標,數據采集范式也有一定的差異.
如同語音識別或圖像處理等領域,肌電信號識別領域亟需統一開放的數據集.經調研,在該領域僅存在少量公開的肌電信號相關數據集,如NinaPro[4],CSL-HDEMG[31],CapgMyo[95]等,其簡要介紹如表2 所示.其中以NinaPro 的數據集最為系統、豐富和完整,涉及正常人和不同截肢患者的數十種手部常見動作(高達52 類離散動作),數據采集過程采用了多種常見肌電采集系統(如Delsys,Myo等),同時引進了數據手套、力矩傳感器等其他類型傳感器采集,更豐富而全面的獲取手部運動信息.目前,已有部分研究利用該數據集進行方法測試與比較.而CSL-HDEMG和CapgMyo 等數據集,參考了NinaPro 類似的實驗數據采集范式,但更側重在新型高密度陣列式表面肌電信號傳感器,如CSLHDEMG 重點采集了更精細手指運動范式下的肌電信號.

表2 sEMG 數據集Table 2 Surface EMG signal datasets
然而,現有的大部分公開數據集目前仍然局限于研究理想場景下的準確性方面,對非理想場景下的魯棒性研究借鑒意義有限,僅對個體性差異等干擾可以直接測試比較.面對更多如電極偏移、肌肉疲勞、姿態干擾等非理想因素,則無法直接處理.因此,針對非理想干擾的統一開放肌電數據集仍然非常重要和迫在眉睫,需要通過系統的實驗范式有目的地引入更多的干擾,覆蓋更多實際應用場景.同時,由前面綜述的諸多非理想干擾應對方法可知,通過融合IMU 等其他類型數據是克服諸如電極偏移和姿態干擾等因素的重要途徑之一.尤其是大多數的商用sEMG 傳感器一般都內置IMU 等傳感器,因此通常無需增加肌電交互系統的硬件成本,可通過多傳感器融合技術的方式提高人機交互的魯棒性和穩定性.因此,以肌電信號為核心,盡可能地融合更多其他類型傳感器數據,如腦電信號、眼電信號和視覺信息等,構建統一開放的肌電等多傳感器數據集,越來越成為肌電識別與人機交互的基礎研究內容之一.
借助于機器學習的識別技術(如深度學習和遷移學習等),研究人員逐漸克服了語音識別中的個體差異問題,圖像領域中的目標檢測與分割問題,和自然語言處理中的上下文問題等,然而類似的科學問題在基于sEMG 的人體意圖識別中同樣存在,尤其存在于非理想場景下的sEMG 識別中.因此,探索基于機器學習的肌電識別方法,以解決非理想肌電的諸多干擾問題,具有重要研究價值與實用意義.
深度學習在圖像處理等領域近期的諸多研究進展和文獻綜述表明,深度學習方法之所以有效地解決了其中許多關鍵問題,其最核心在于摒棄了傳統機器學習方法中的手工特征等環節.深度學習方法采用多層次的神經網絡結構,能夠自主地進行特征學習和層級特征表示.而歸納肌電識別領域的研究進展,目前大多數的研究者,仍然依賴于傳統的機器學習范式,尤其是依賴于大量的手工設計特征,如時域特征、頻域特征與時頻域特征[1].目前已有部分研究開始借鑒其他領域的深度學習方法進行特征學習方面研究,如采用時序卷積網絡(Temporalconvolutional networks,TCN)提取肌電信號時序、層級特征,提高肌電識別的準確度[98](如圖7 所示);針對多通道肌電時間序列構造二維輸入,或對單通道肌電序列提取小波變換轉換成二維時頻域特征表示,進而采用類圖像處理方法中的CNN 網絡結構,進行特征學習[99];更進一步,將傳統特征與學習特征進行比較,以實現更準確、更本質的肌電特征描述[100].因此采用深度學習方法,聚焦在肌電信號的特征學習與層級特征表示方面,是未來提高肌電識別準確性和保證非理想場景下肌電識別魯棒性的重要研究內容之一.

圖7 基于TCN 網絡結構的肌電信號時序、層級特征提取框架[98]Fig.7 Sequential and hierarchical feature extraction framework of EMG signal based on TCN network[98]
但目前受限于肌電信號有限的數據集,無法有效地在大規模的肌電數據集中通過深度神經網絡進行特征學習和特征表示.退而求其次,更系統全面的特征提取方法研究,對基于深度學習的肌電識別仍然具有鋪墊與遞進意義.一方面傳統特征提取方法具有明確的生理和物理意義.盡管目前已有部分文獻對特征提取及其他環節等進行了討論,但涉及的特征數量較少(一般不超過20 個),未來仍然需要更加全面和系統的特征對比、討論和探究.如采用TSFRESH (Time series feature extraction based on scalable hypothesis tests)等開源庫進行大量的特征提取、假設性檢驗和特征選擇等[101-102].另一方面,在現有有限的數據集上,利用已知的大量有效肌電特征作為深度神經網絡的輸入,提高肌電信號的表征能力,拓展深度神經網絡的輸入類型,并降低深度神經網絡的特征學習壓力,也是非常有意義的未來研究內容之一.
相對于非理想因素引起的樣本分布差異問題,非理想場景下訓練集與測試集之間仍然潛在著較強的關聯關系或不變特征,同樣具有重要的研究意義.如遷移學習基本框架(如圖8 所示),即利用源域的相關知識或特征,來提高模型在目標域上的識別性能(目標域雖然與源域不同但是包含相關的信息)[103].如前文綜述,在解決電極偏移和個體性差異等問題上,已有部分研究者沿著這類子空間對齊[104]的遷移學習方法開展了相關的研究工作.其原理如式(5)和式(6)所示,以優化的思路求解特征空間的映射關系.

圖8 基于遷移學習的理想場景與非理想場景之間肌電識別模型的更新與適應Fig.8 Update and adaptation of sEMG-based recognition model between ideal and non-ideal scenarios based on transfer learning

其中,Xs表示源域的特征,Xt表示目標域的特征,F(·)為損失函數,M即在特征空間中源域與目標域之間的線性變換矩陣.
因此,基于遷移學習的肌電識別研究,尤其是結合深度神經網絡的特征表示方法,為肌電識別的準確性與魯棒性研究提供了新的研究思路.
采用遷移學習解決非理想因素的干擾問題時,目前主要挑戰之一是遷移學習或模型更新的代價,其常常需要大量額外的樣本數據用于求解源域與目標域之間的映射,如式(5)和式(6)中的線性變換矩陣.而主動學習(Active learning)可用于挑選最具有信息量和判別性的樣本,在未來的研究工作中,將有利于采用最少的有監督樣本與最低標注成本,完成理想模型在非理想場景下的遷移或更新[105–107].
前述的多種研究思路或方法,主要從機器學習或模式識別角度展開,但肌電信號的形成機理與肌肉收縮機制仍然具有重要的啟發意義,可用于開展基于機理建模的肌電識別研究.
圖9 展示了肌電信號分解的生理機制:位于皮膚表面的肌電信號傳感器所采集到的電信號,實際上是由來自多個運動單元動作電位序列(MUAP trains),在皮膚表面疊加而成的綜合信號.因此,肌電分解正是將傳感器采集到的sEMG 還原成多個MUAP,是肌電信號形成的逆過程.基于肌電分解的精細建模方法將基于對運動單元的刺激收縮作為研究切入點,在更精細和微觀的層次進行肌肉收縮建模研究,從而在生理本質上保證識別模型的可解釋性和準確性,開拓了肌電識別在機理建模方面的重要研究方向[108].

圖9 sEMG 分解與MUAP[109]Fig.9 Surface EMG signal decomposition and MUAP[109]
基于肌電分解等生理機制的研究思路,由因導果(按照機體的意圖產生和作用的因果關系,逐步推導或建立肢體受刺激的動力學模型);相對而言,基于機器學習或模式識別的研究思路,則是由果索因(利用已知或標定的動作標簽或更高精度傳感器數據作為“參考真值”,通過識別模型的參數訓練等方式,反向建立以肌電信號為輸入、運動信息為輸出的模型).兩者的側重點不同,但對于肌電識別研究均具有重要的研究意義和實用價值.尤其是以生理機制為基礎的研究方法,在解決非理想場景中各類干擾問題時,更易于在機理上探索出解釋性合理與魯棒性強的肌電識別方法.
但目前而言,基于機理建模的肌電識別方法,除了在肌肉疲勞等方面有部分相關研究外,在克服其他干擾方面的研究比較鮮見.因此,在肌電分解與肌肉機理建模的研究方面,仍有大量的未知研究內容,這類機理方面的研究不僅僅直接有助于更準確與更穩定的肌電識別結果;對深度學習模型的網絡設計與遷移學習的映射求解,也將具有十分顯著的啟發意義.
隨著智能假肢、可穿戴外骨骼與助力設備等康復機器人系統在本體機械結構設計與控制系統方面的不斷完善,以及高精度肌電信號硬件采集系統的性能提升,如何實現人—機的準確、自然與穩定交互,越來越成為人機共融系統中的瓶頸環節,也已經逐漸成為研究熱點問題.目前,大量基于機器學習和模式識別的肌電意圖解碼方法不斷推陳出新,將意圖識別的準確率或精度不斷提升.
然而當基于肌電信號的諸多康復機器人系統從實驗室環境推廣到實際日常使用時,卻面臨著大量的非理想因素干擾.本文主要聚焦在電極偏移、個體性差異、肌肉疲勞、肢體姿態和其他綜合性干擾方面,詳細歸納了當前研究的干擾及其應對方法;接著總結并討論了研究現狀中的關鍵問題;最后,提出了“一個平臺+兩個方法”的未來關鍵技術展望,包括構建統一開放的多傳感器融合數據集、探索深度學習的特征學習和基于遷移學習的模型更新與適應,以及肌電分解研究等技術內容,旨在為后續深入研究提供潛在的研究思路.