基于視頻的上肢外骨骼行為預判方法

2022-05-23 07:25:36馬六章程子均

計算機工程與設計 2022年5期

馬六章，蔣磊，吳越，程子均

(中國礦業大學(北京) 機電與信息工程學院，北京 100083)

0 引言

近年來，在上肢外骨骼機器人的算法研究中，如何使外骨骼機器人更加智能地預測人類的行為是研究的熱點問題。李瀟[1]利用動力學分析模擬手臂搬運物體時的關節受力情況，利用自抗擾控制算法設計了自抗擾控制器，實現了對外骨骼動力關節的控制。

隨著深度學習以及計算機視覺技術的發展，上肢外骨骼機器人的人機交互預測有了新的發展方向。Christoph等[2]使用改進雙流法(Two-Stream)來實現視頻動作識別，設計了由時間網絡和空間網絡組成的Two-Stream卷積網絡結構，分別將RGB圖像和光流圖像送入兩支神經網絡并融合，最終分類結果驗證了在多幀密集光流上訓練的卷積網絡[3]，在有限的數據集上仍然能夠獲得好的性能，但其不能對長時間的視頻進行建模。Ker, J等[4]提出改進的C3D(3-dimensional convolution)網絡結構，用三維的卷積核代替二維卷積核處理視頻，在UCF101數據集上的準確率稍低于雙流法，但是由于其簡單的網絡結構使得該模型的收斂及推理速度大大提高。Thung G等[5]提出將單幀的圖像處理的特征放入RNN，利用RNN來完成時間上的建模，最后形成對一段視頻的描述的方法(LRCN)。

在以往的工作中，長期的時間聚合通常是通過疊加大量的局部時間卷積來實現的。每次卷積處理一個局部時間窗口，本文提出的MTF模塊則將局部卷積變形為一組子卷積，形成層次化殘差結構。在不引入附加參數的情況下，對特征進行一系列的子卷積處理，每一幀可以完成多個鄰域的時間聚合，擴大了在時間維的等效感受野，從而能夠在時間距離較遠的幀上建立長期的時間關系。最終將MTF模塊插入到GoogleNet網絡inception模塊中搭建成MTF-Gnet。此外，由于人體運動的不規則性，很難將所有的人體運動壓縮到一個模型中。其次，人類行為除了具有異質性外，還具有高度的隨機性。不同的人，同一個人重復一個動作，動作模式也不同。為了解決這些問題。本文提出了一種非線性遞推最小二乘參數自適應算法(NRLS-A)來實現在線自適應。

1 預測模型的建立

1.1 MTF模塊

以往的動作識別方法通常采用局部時間卷積來一次處理鄰近幀，而對于距離較遠的幀只能通過大量地堆疊局部卷積操作來進行建模。Stanford[6]提出了Multi-resolution-CNN，把相聚L的兩幀圖像分別輸入到兩個卷積神經網絡中去，然后在最后一層連接到同一個全連接的softmax層，在UCF-101數據集上，得到了較好的效果，但這樣卻損失了視頻幀的時序信息。在外骨骼對人體行為進行預測時，其時序上的聯系更加緊密，比如抬起重物和放下重物。為了解決這一問題，本文提出了多時間融合(MTF)將時空特征和對應的局部卷積層劃分為一組子集，以實現有效的長時間時態建模。

如圖1左側所示，給定一個輸入特征X，傳統的方法是對其進行一次局部時間卷積再進行一次空間卷積。與此不同的是，我們沿著通道維度將特征分割為4個片段，每個片段的形狀就變成了 [N,T,C/4,H,W]。如圖1右側所示，局部卷積也被劃分為多個子卷積。最后3個片段依次用一個通道方向的時間1D子卷積層和另一個空間2D子卷積層進行處理。每個都只有原來的1/4的參數。此外，在相鄰的兩個片段之間添加殘差連接，將模塊從并行結構轉換為層次化級聯結構

圖1 MTF模塊

(1)

(2)

(3)

(4)

所得到的輸出特征Xo即為包含了捕獲到的不同時間范圍的時空表示。優于傳統方法中使用單一局部卷積得到的局部時間表示。

最后，本文將MTF模塊插入GoogLeNet中的inception模塊進行視頻幀圖像的特征提取，GoogLeNet由Christian Szegedy提出，Zhong Z等[7]進行了較大改進，使用了inception模塊拓寬網絡的橫向結構，以此來解決網絡過深而導致的計算量大、梯度消失等問題，inception模塊結構如圖2(a)所示。

圖2 MTF模塊插入方式

原始inception模塊將5×5大卷積核分解成2個3×3小卷積核，以此帶來更大的感受野，能夠提取到不同尺度的特征。同時將稀疏矩陣分解成密集矩陣，提高了模型的收斂速度。最后將其用全連接層拼接起來，即完成了不同尺度特征的融合，同時由于每增加一層就要通過一次Relu函數，增加了模型的非線性擴展模型表達能力。

如圖2(b)所示，為了提高計算效率，在每個支路的第一個1x1卷積層之后，利用MTF模塊替換剩余路徑中原有的3×3 Conv層。此外，在經過MTF模塊對每一個mini-batch 數據的內部進行批標準化處理(BN)[8]使此層的輸出規范到符合的正太分布，由此減少了內部參數偏移，不僅可以大大加快模型的收斂速度，還可以起到正則化的作用。

由于經MTF-Gnet網絡提取的特征信息要傳遞給門控循環網絡進行時間維度上的預測，本文去掉了最后的softmax層，而是將最后一層的輸出先進行全局平均池化，接著通過一個輸出通道數為1000的1×1卷積，作為門控循環網絡的輸入。此外，為了避免過擬合的問題，本文采用了Dropout對網絡進行了隨機失活處理。本文搭建的MTF-Gnet網絡結構見表1。

表1 網絡模型結構與輸入尺寸

1.2 門控循環網絡模型

門控循環網絡(GRU)改變了傳統循環神經網絡(RNN)的隱藏層結構[9]，使網絡可以更好地捕捉深層連接，同時也改善了梯度消失問題。同時相對于LSTM記憶單元，門控循環網絡擁有更簡單的結構以及更少的參數。LSTM和門控循環網絡的結構對比如圖3所示。

圖3 LSTM及門控循環網絡結構對比

門控循環網絡仍然使用了能夠更好處理時序信息的特殊“門”結構，但于LSTM不同的是[10]，門控循環網絡將“遺忘門”和“輸入門”合成了一個單一的“重置門”，為神經元的更新操作設置了一個“更新門”，同時將細胞狀態和隱藏狀態進行了融合。從而建立了一個更簡單，參數更少的結構。其正向傳播過程如圖4所示。

圖4 門控循環網絡正向傳播過程

圖中各節點參數計算如下

z(t)=σ(W(z)x(t)+U(z)h(t-1)) 更新門

(5)

r(t)=σ(W(r)x(t)+U(r)h(t-1)) 重置門

(6)

(7)

(8)

門控循環網絡結構分為1層輸入層，2層隱藏層，1層預測輸出層。其中，輸入層為經過MTF-Gnet網絡提取出的得分最高的10個特征，上一層的初始激活值設為全零，隱藏層的神經元個數分別為32,64,32，其中在第二層進行了BN處理。激活函數為tanh函數。輸出層為4個節點，代表了此時人體的動作(是否將要進行抬起重物的行為)。其中tanh函數定義如下

(9)

在未引入Attention機制的門控循環網絡結構中，每個預測時刻的輸出是由某一段輸入序列共同決定的，每個輸入序列對下一時刻輸出序列影響權值在訓練工程中已經固定。而在實際情況中，對于某些人體動作，其時間上的關聯程度往往不同。這就需要引入Attention機制對每個輸入序列對預測序列影響的權重值進行調整(即門控循環單元更新門和隱藏門的參數)。Attention機制最早是在視覺圖像領域提出，Lin L等[11]在RNN模型上使用了Attention機制來進行圖像分類。Bahdanau等[12]使用類似Attention的機制在機器翻譯任務上將翻譯和對齊同時進行，他們的工作算是第一個提出將Attention機制應用到NLP領域中。接著類似的基于Attention機制的RNN模型擴展開始應用到各種NLP任務中。本文搭建的門控循環端到端網絡結構如圖5所示。

圖5 門控循環端到端網絡模型

在編碼器端，過去n步的視頻幀特征向量按照時間順序依次送入門控循環單元，在第t步時，編碼器除了接收來自Xt的數據信息，同時也接收了前一步編碼器單元的隱藏層信息。其相關程度用ht表示

(10)

即第t個時間向量序列與第j個輸出向量hj之間的相關程度，最后對其進行加權求和就可以計算出注意力分配機制ct

(11)

在解碼器端，同樣采用門控循環網絡結構，輸入為上一時刻的輸出，st表示當前時刻門控循環單元的狀態，yt表示當前解碼器的輸出值。其解碼過程如下

st=fd(yt-1,st-1,ct)

(12)

p(yt|y

(13)

其中，st-1為上一個解碼器單元隱藏層狀態，通過注意力機制ct連接編碼器與解碼器，從而求得解碼器當前狀態st，經過線性映射輸出當前預測值，其中g為ReLU激活函數。

1.3 NRLS-A算法

在推理時，由于不同穿戴者在進行同一組動作時有不同的行為模式[13]，所以在進行適應性的實時預測時，需要實時調整神經網絡中的參數。通過攝像頭拍攝到的人體實時行為，經過卷積網絡提取出當前真實行為的深層特征，與門控循環網絡預測出來的行為特征進行對比。這實則是一個非線性最小二乘(nonlinear least square，NLS)問題：給定一個數據集 {(xi,yi),i=0,1,…}，目標是優化一個參數θt∈Rn，使得下式最小

(14)

其中

ei=yi-f(θt-xi)

(15)

為了有效地實時解決NLS問題，Moriyama等[14]提出一種通過最小化估計狀態誤差的2階范數的擴展卡爾曼濾波(EKF)算法，在EKF中，被估計的對象是狀態值，在本文提出的非線性最小二乘自適應算法中，被估計的對象是網絡參數，且可用于網絡的每一層。算法的具體流程如下：

算法1：非線性最小二乘自適應算法

輸入：初始化參數θ0；

輸出：調整后參數θN：

(1)初始化超參數p0>0；λ>0；r>0；ε>0； P0=p0I；

(2)根據目前參數θt計算當前預測值

(3)根據穿戴者實際行動得到真實值Yt

(4)計算關于θ的偏導數

(5)計算更新權重參數

(6)更新超參數

(7)更新一次待估計參數

(8)如果誤差小于預期值或達到迭代次數，結束，否則進入第(2)步。

其中,λ是遺忘因子，r與誤差ei的協方差有關，K是增益矩陣，θt是未知參數θ的估計值，在本文的實驗中，θ對應于編碼器隱藏層的權重參數。

本文將特征提取和行為預測的目標函數合并成一個多任務模型。使用以下損失函數以端到端方式訓練模型

l=γlclassification+(1-γ)lregression

(16)

lclassification是用于特征提取的交叉熵損失函數。lregression是行為預測的回歸損失函數。最終損失函數是這兩個損失函數的加權平均值，其中權重由γ控制。在本文的實驗中，γ取值為0.5。

2 實驗

2.1 數據采集

本文所采用實驗數據集為配置與上肢外骨骼機器人上的攝像頭采集的人體日常行為視頻數據集，由6名測試人員(4男2女，年齡在23到35歲之間)佩戴著實驗裝置在實驗室、宿舍、操場等5個不同場景分別進行了物體的搬運、抬起、放下、正常活動時的視頻采集。本文所使用的GoPro攝像頭所拍攝的視頻為每秒60幀，視頻格式為mp4。攝像頭的安裝位置如圖6所示。

經過測試，每隔3幀提取一張視頻幀，即每秒提取20張視頻幀。由于日常生活中的抬起、抓取、搬運等動作通常在發生在3 s～5 s左右，因此每個動作共提取100張左右的圖片作為視頻幀序列。去除掉異常的數據之后得到了1800個訓練樣本，共計4個類別，平均每個樣本包含5個連續的視頻幀數據。同時每個類別設置了50個短視頻作為測試樣本。其中具有代表性的視頻序列如圖7所示。

圖6 攝像頭佩戴位置

圖7 部分視頻幀序列

2.2 數據預處理

為了壓縮圖片大小，加快模型的收斂速度，同時由于攝像頭所拍攝的場景較為豐富，為了更好地提取目標物體的特征，在進行訓練之前，本文將樣本圖片進行了主成分分析算法(principal component analysis，PCA)降維壓縮處理[15]。具體的處理過程如下：

對所有樣本進行去中心化，如式(17)，將數據集的每個樣本的不同特征減去所有樣本對應特征的均值，處理過的不同特征上的數據均值為0。這樣處理的好處是可以減少特征之間的差異性,可以使得不同的特征具有相同的尺度，讓不同特征對參數的影響程度保持一致

(17)

X*=X-U

(18)

計算樣本圖片的協方差矩陣，其中每列代表一個特征，每行代表一個樣本，將樣本矩陣的每個樣本減去對應列的均值，然后通過下式得到協方差矩陣

(19)

對協方差矩陣進行特征值分解，得到特征值和特征向量，取出最大的K個特征值對應的特征向量，組成投影矩陣W；對樣本集中的每一個樣本，都乘以投影矩陣W進行轉化，得到降維后的數據

X′=X*W

(20)

圖8(a)為經過opencv提取后的視頻幀圖像，圖8(b)為經過PCA降維壓縮后的圖像，可以看出在經過PCA處理后，目標物體的特征更加突然，較好排除了周圍環境所帶來的影響。同時，每一幀圖像的大小也得到了壓縮，提高了后續算法的收斂速度。

2.3 網絡搭建及訓練過程

本文所搭建的模型主要分為3個模塊，即卷積網絡特征提取模塊、門控循環網絡序列預測模塊，以及非線性最小二乘參數調整模塊。模型的總體流程如圖9所示。

在訓練時，將經過預處理的視頻幀按照時間順序的序列送入卷積神經網絡特征提取模塊，通過插入MTF模塊的卷積網絡提取每一幀的時空運動特征。之后將提取后的特征按順序送入門控循環端到端序列預測模塊，通過引入注意力機制的端到端模型對下一時刻穿戴者的運動軌跡及運動意圖做出預測。訓練過程的流程如圖10所示。

圖10 網絡訓練過程

其中的超參數設定為：學習率a設為0.001，衰減系數decay設為0.9，Dropout系數設為0.5最大迭代次數為4000，每500次保存一次當前模型，最終選擇最優模型進行預測。模型訓練時以Batch為單位進行，Batch Size設置為64。

在推理時，由于不同佩戴者行為模式的不同，根據實際運動情況通過非線性最小二乘自適應算法對門控循環網絡編碼器隱藏層參數進行實時調整。推理流程圖如圖11所示。

圖11 網絡推理過程

2.4 實驗結果

本文實驗軟件平臺為用Linux Ubuntu 18.04 LTS系統，python 3.7.3，TensorFlow 1.13.0，CUDA 10.0，CUDNN 7.4。硬件設備為Tesla-V10-PCRE-16G以及Jetson TX2。本文實驗均在Tesla服務器上進行訓練并部署在jetson TX2上進行推理。TX2其硬件配置為6核CPU架構，256核Pascal架構的GPU核心，內存為8 GB。

本文模型基于inception-V3網絡結構，其模型大小約為93 MB，通過分解卷積以及批標準化處理使得模型參數大量減少，最終的參數量在20 million左右。模型在Tesla機器上的推理速度可以達到65 fps。在嵌入式設備TX2上其推理速度可以在保證精度的情況下達到48 fps，在應用到上肢外骨骼時可以滿足實驗需求。

為了驗證本文提出的模型與當前主流視頻行為識別模型的差異，在自建數據集上做了以下對比實驗,實驗結果見表2。

表2 不同模型實驗結果

由實驗結果可以發現，使用3D卷積核的C3D和I3D模型由于其網絡結構簡單[16]，其推理速度有較大的提升，但準確率有所下降。而使用了視頻幀的光流信息的Two-Stream和TSN準確率和推理速度都不高[17]，這是因為本文在數據預處理時使用PCA降維使得視頻幀失去了大部分的光流信息，并且對光流信息和RGB信息分開處理耗費了大量時間。在取消PCA處理后，Two-Sream和TSN的準確率分別達到了83.6%和85.3%，但其推理速度并沒有提高。

在對MTF模塊進行插入時，本文驗證了兩種插入方式如圖12所示，第一種為在1×1卷積后，BN之前插入MTF模塊，第二種為在1×1卷積之前。

實驗得到的結果為使用第一種插入方式準確率達到最高的84.9%，使用第二種方式達到的最高準確率為84.5%。

圖12 不同的MTF插入方式

推測是因為1×1的卷積將多個維度的特征圖譜進行了線性組合，這種跨通道的信息整合可能會破壞時空運動特征信息。

在實驗過程中，為了驗證本文提出的G-GRU網絡模型和其它LRCN模型的差別以及非線性最小二乘自適應算法的性能，分為兩組實驗，每組均采用了3種較為流行的LRCN模型作為對照，訓練時超參數的設置均相同，其中一組使用非線性最小二乘自適應算法對網絡進行實時參數調整。本文實驗中設置p0=0.01，λ=0.999，r=0.95，ε=0.1。實驗結果如圖13所示。

圖13 不同模型準確率

由圖13可以看出，在沒有使用非線性最小二乘自適應算法時，準確率最高的是采用ResNet和LSTM的LRCN模型，這是因為ResNet通過殘差傳遞，搭建了更深的網絡結構，能夠更好地提取深層次特征，并且LSTM網絡結構相比于門控循環網絡結構更加復雜，能更好地處理時域上的關聯特征，但是由于網絡較為復雜，導致其收斂速度不是很理想，在迭代了近3500次后才達到最高準確率。收斂速度最快的是AlexNet+GRU結構，在迭代2000次左右完成了收斂，但由于其網絡模型較為簡單，導致預測的準確率較低，實驗結果如圖13(a)所示。

在使用了非線性最小二乘自適應算法實時更新神經網絡參數后，模型的準確率都有了一定的提升，均能到達80%以上。由于在自適應過程中對預測網絡進行了參數的調整，LSTM網絡參數較多，更新較慢，其收斂速度受到了一定影響，并且準確率的提升也比較有限。但對于使用門控循環單元的網絡模型效果則比較顯著。其中本文提出的MTF-Gnet+GRU+NRLS-A網絡結構的準確率達到了最高的84.8%。驗證了自適應算法對于提高實時預測準確性有一定的幫助。為了驗證模型對哪些人體行為的識別，預測最為準確，分別使用50個短視頻樣本的測試結果的混淆矩陣如圖14所示。

圖14 驗證集混淆矩陣

可以看出，該模型在上肢外骨骼預測人體行為上有較高的正確率，其主要的預測錯誤在于抬起和放下這兩個只有時間序列不同，空間特征幾乎相同的行為。

同時為了驗證本文所使用預處理算法對模型的影響，在訓練的同時使用未經PCA降維處理的數據進行對照實驗，僅僅歸一化了視頻幀的輸入大小，其它實驗條件均相同。得到的準確率與推理速度見表3。

表3 預處理實驗結果

由表3可知，經過PCA降維處理后，模型的推理速度提高了約10%，模型的準確率卻沒有明顯的下降，這表明預處理算法有效保留率視頻幀的特征，濾出了部分其它的無關信息，同時壓縮了圖片大小，也驗證使用本文提出的方法不需要使用視頻幀光流信息，加快了計算速度。

3 結束語

傳統的上肢外骨骼機器人利用力學傳感器或基于生理信息反饋人體行為意圖，具有時滯性，傳感器的數量也較多，且易穿戴者生理狀況影響較大，基于此，本文將視頻預測與上肢外骨骼控制人機交互問題一起考慮，提出一種多時間融合(MTF)模塊，并將其插入到inception模塊中。通過攝像頭捕捉第一人稱視頻后，經過自行搭建的MTF-Gnet提取空間維度的圖像特征，之后將提取的特征送入端到端的門控循環單元分析圖像的時間序列關聯性，最后在推理時提出一種非線性最小二乘自適應算法(NRLS-A)，在實時預測時根據佩戴者的不同調整網絡參數。從而實現了提前預測人體上肢行為，為佩戴者提供實時助力，達到了預期實驗結果。為上肢外骨骼及其它穿戴式人機交互領域提供控制依據。下一步的研究包括：

(1)將MTF模塊與其它網絡模型進行組合。

(2)嘗試更多的MTF模塊插入位置與插入方式。

(3)綜合考慮人機交互時會受到影響的其它特征，以提高預測準確性。

(4)在多場景、多行為動作的情況下改進模型。