陳曉禾 曹旭剛 陳健生 胡春華 馬 羽
①(中國科學院蘇州生物醫學工程技術研究所 蘇州 215163)
②(長春理工大學電子信息工程學院 長春 130022)
③(清華大學電子工程系 北京 100084)
④(清華大學航天航空學院 北京 100084)
⑤(清華大學玉泉醫院 北京 100040)
⑥(北京信息科學與技術國家研究中心 北京 100084)
帕金森病(Parkinson’s Disease, PD)是一種常見于中老年群體的漸進性中樞神經系統退行性疾病,并且PD患者經常伴隨著多種運動障礙,這些癥狀會嚴重影響患者的生活質量。在與PD患者相關的運動障礙中凍結步態(Freezing of Gait, FoG)是最常見的一種類型,其主要發生在帕金森病的中晚期,據統計60%的中晚期PD患者都表現有步態凍結的相關癥狀[1-4]。在臨床實踐中,凍結步態的嚴重程度變化也能很大程度地反映患者的治療情況,因此醫生可以通過PD患者的運動狀況來判斷他們的病情發展[5,6]。為了對凍結步態的運動狀況進行更加詳細的描述,文獻[7]根據患者的運動情況將凍結步態分為3種類型,即(1)拖步:拖曳并且小步前行;(2)原地震顫型:雙腿震顫不能有效移動;(3)完全不能移動型:腿部完全不能進行有效移動。在日常生活中,原地震顫和完全不能移動兩種癥狀的患者如果沒有其他人的幫助就不能有效地活動,甚至不能單獨完成醫生要求的運動測試。而與之相比具有拖步癥狀的PD患者具有部分獨立運動的能力,隨之而來的便是具有拖步癥狀的患者更容易在日常生活中摔倒。因此,需要給予具有拖步癥狀的患者更多的關注來監測他們運動情況的變化,以便對治療方案進行調整,防止患者的癥狀繼續惡化為另外兩種更嚴重的形式。盡管現今遠程醫療的發展可以避免患者頻繁到醫院就診,但是受限于寶貴的醫療資源,即使通過遠程視頻的方式醫生也很難及時對患者的狀況進行評估。所以面對這些實際的需求,本工作希望結合遠程醫療的形式,提出一種能對具有拖步癥狀的患者進行遠程自動識別的方法,以此來監測拖步患者的運動狀態,幫助醫生及時掌握患者的病情變化。
在以往研究異常步態識別的工作中,通過運動傳感器來采集運動數據是最常用的一類方法。研究人員可以使用運動傳感器采集到的數據提取出患者的多種運動參數,如行走速度、方位角等,以此來評估患者的運動狀態。例如,Camps等人[8]提出了一種通過運動傳感器和深度學習技術結合的方法來識別PD患者凍結步態。首先由安裝在患者腰部的慣性測量單元(Inertial Measurement Unit, IMU)采集運動信號,然后將收集到的運動數據通過8層一維卷積網絡進行分類。類似的Mileti等人[9]利用安裝在下肢的可穿戴傳感器采集步態運動信號,來分析患者的運動情況。Nguyen等人[10]則使用深度相機Kinect來獲取包含運動信息的人體3維骨架,然后利用骨架信息建立人體步態模型來檢測異常步態。高發榮等人[11]通過采集下肢表面肌電信號來實現步態模式的準確識別,其結合粒子群優化(Particle Swarm Optimization, PSO)算法和支持向量機(Support Vector Machines, SVM)分類算法來對采集到的肌電信號進行分類,然后實現對行走步態的不同階段的劃分。Morris等人[12]使用安裝在人體下肢的慣性傳感器借助計算機生成人體下半部分的動畫模型,并統計這些人體動畫模型在行走過程中的各種運動參數來對患者的凍結步態進行判斷。這些基于傳感器的方法通常在運動障礙的檢測中有很好的性能,但是這些方法在日常中生活并沒有得到廣泛的應用。因為帕金森病是一種慢性運動障礙疾病,患者不方便經常去醫院就診,而且在沒有專家幫助的情況下安裝和校準這些傳感器對普通患者來說是很困難的,另外過多的傳感器也會干擾參與者的實際運動情況,因此尋找一種可以幫助醫生更加簡便地獲得患者的運動情況的方法就非常具有意義。
隨著深度學習的發展,通過計算機視覺的方法來對行為識別也吸引了很多研究。與基于傳感器的方法相比,基于視覺的方法是非接觸不需穿戴額外的設備,減少了患者的操作難度。Hu等人[13]提出了一種基于視覺的帕金森病患者凍結步態識別方法,該方法首先檢測患者的腿和腳的關鍵點,然后利用圖卷積的方法來判斷PD患者是否具有凍結步態。Tang等人[14]提出了一種利用攝像機實現行走過程中關鍵動作檢測的方法。在其工作中,步態周期被定義為從腳后跟著地開始到下次同一腳后跟再次著地的一個運動周期。其從視頻幀中提取的連續輪廓差分(Continuous Silhouette Differential,CSD)特征圖為腳掌離地事件檢測提供了重要的特征,并以此來表示步態模式。Wolf等人[15]利用多視點3維卷積神經網絡(Multi-View 3-Dimensional Convolutional Neural Network, MV3DCNN)從步態序列中獲取時空信息。其還介紹了用于處理不同服裝和顏色的光流圖像對識別任務的影響,其中為了解決卷積網絡不能處理長序列圖像的問題,將一個步態序列分割成幾個短序列作為網絡的輸入。劉天亮等人[16]使用融合時空雙網絡流和視覺注意的方法來進行行為識別,其首先逐幀提取出視頻中行為運動的光流特征,然后再使用深度學習的方法對視頻圖像和光流特征進行分類獲得分類結果。吳培良等人[17]提出一種視角無關的時空關聯深度視頻行為識別方法。其使用深度卷積神經網絡將不同視角下的人體姿態映射到與視角無關的高維空間,接著對視頻時間子序列進行編碼,然后通過相應算法得到最終的時空特征,并根據時空特征對數據進行行為識別分類。在上述的工作中,任務目標并沒有以PD患者的拖步狀態研究為主要研究對象,而是對更寬泛的異常步態進行識別,所以其在拖步的識別準確率上沒有達到最優,而本任務僅僅關注拖步這個現象進行研究。
3維卷積的發展給視頻動作識別任務帶來了很多的突破,其3維卷積核能對連續幀圖像進行卷積,提取出圖像序列的時間和空間特征。在3維卷積網絡結構中經常使用的有C3D網絡[18]、D3D網絡[19]和P3D網絡[20]等結構,這些網絡結構都在行為識別相關任務中有很好的表現,但是3維卷積網絡對應的網絡參數會比2維卷積更多,導致對計算機的算力有更高的要求。為了解決這個問題,本方法避免了使用層數過多的網絡結構,而是結合3維卷積網絡的結構和拖步狀態患者的行走特點,提出了一種新的網絡結構來實現拖步癥狀的準確識別,該網絡結構大致可分為特征提取模塊和特征融合模塊。首先特征提取模塊用于從圖像序列中提取時空特征,然后再經過特征融合模塊對特征進行融合判斷。對于特征提取模塊中的3維卷積的結構,該文選擇參考最基礎的C3D網絡,而特征融合模塊則參考Gait-Set[21]的網絡結構以及該文中新提出網絡結構對提取到的特征進行融合。該網絡組合的識別準確率達到91.3%并且具有較好的魯棒性。
因為該網絡結構的輸入數據是連續的“行走”圖像序列,因此具有遠程操作的可行性,并很容易與大多數現有的基于視覺的帕金森病患者評估方法結合起來,這也為遠程醫療的發展提供了一定的助力。
在臨床治療中,醫生通常使用TUG(the Timed Up-and-Go)測試[22]來評估PD患者的基本運動功能。如圖1所示,在TUG測試中患者要依次完成坐、站立、行走、轉身、走回和坐回這6個涵蓋了日常生活中大部分基本活動的子任務。選用TUG測試視頻為基礎數據,能夠與現行通用的醫生評估方法進行匹配,避免患者再進行額外的視頻錄制。

圖1 TUG測試6個子任務
拖步識別的整體流程如圖2所示,首先需要對TUG測試視頻進行自動分割獲得其中的“行走”子任務,并對其進行預處理以后作為網絡的輸入數據。對于識別網絡的結構可以分為兩個模塊進行描述,第1個是用于從圖像序列中提取時空特征的特征提取模塊,第2個則是將第1個模塊得到的特征在不同的空間和時間尺度上進行融合的特征融合模塊,最后使用全連接層(Fully Connected layer,FC)和sigmoid激活函數對融合后的特征進行分類識別,在本章中將分別對這幾個部分進行介紹。

圖2 整體流程方案
本工作在清華大學玉泉醫院幫助下構建了一個拖步數據集,以此作為相應的訓練和測試數據,該數據集的正樣本主要來自PD患者的臨床TUG測試視頻。這些TUG測試視頻主要采集自24位不同年齡、性別、身高的PD患者,相關患者的信息如表1所示。每個PD患者在治療期間需要進行深度腦刺激(Deep Brain Stimulatio, DBS)手術,而在整個治療階段需要進行4~6次TUG測試,并且每個患者兩次TUG測試之間的間隔至少為1個月。大多數患者的TUG測試視頻都能觀察到拖步的癥狀。同時為了達到樣本平衡,獲得相對應的正常步態的樣本,在相同的拍攝環境下錄制正常人步態的TUG測試視頻作為負樣本。

表1 PD患者信息統計
因為我們關注的拖步與正常步態的區別主要表現在腳尖的運動差異,正常人行走過程中是先腳跟著地后腳尖著地,而對于拖步患者則表現為先腳尖著地后腳跟著地或者整個腳掌在地上拖曳前行。但是對于TUG測試6個子任務中的“站立”、“坐”和“坐回”腳部沒有明顯的運動,而對于“轉身”和“走回”則會出現遮擋腳尖運動的情況,所以這些子任務并不能提供關于步態的有用信息。因此我們僅關注TUG測試中前向“行走”這個子任務,使用TUG視頻子任務自動分割算法[23]可以自動提取出“行走”子任務的圖像序列,然后使用Mask R-CNN[24]將“行走”片段中每一幀人體區域進行框選,同時為了進一步地消除不同視頻錄制時背景的干擾,使用人體語義分割方法NLGInet[25]將人體前景與背景進行分離。因為數據集中的視頻幀率為25 fps,而根據統計,正常人或具有拖步癥狀的PD患者在1 s內能完成一個步態周期。為了使每個輸入樣本中都包含一個完整的步態周期,本文選擇以連續25幀圖像作為一個樣本,使得每個樣本的持續時間為1 s。同時為了減少網絡的計算量,將輸入圖像序列的尺寸調整為128×64。另外,因為我們的工作主要關注腿部的運動狀況,而上半身的動作并不能提供太多的有用信息,所以最終僅保留圖像的下1/4,得到圖像的尺寸為32×64。最后,對所有樣本均按照文獻[7]的標準標記為正負樣本,本工作中總共收集到362個包含拖步狀態的正樣本和364個正常步態的負樣本來組成數據集。
3維卷積在視頻識別中有著廣泛的應用,因為其能同時從圖像序列中獲取空間和時間特征,本節將討論以C3D結構為基礎的3維卷積網絡組成的特征提取模塊。3維卷積結構中最常見的便是C3D網絡,它在視頻識別任務的許多數據集中得到了很好的表現。C3D的原始網絡由8個3維卷積層、5個池化層和2個全連接層組成,最后使用softmax層進行分類。在文獻[18]中,實驗表明C3D網絡結構中卷積核尺寸為3×3×3時有最好的表現。在本工作中參考C 3 D 基本的網絡結構得到C 3 D 單元結構如圖3所示,C3D單元僅包含1個3×3×3卷積核的3維卷積層、1個激活函數ReLU層和批歸一化層(BN),這樣的簡單的結構設計也能避免多層的卷積結構造成網絡參數過多的問題。盡管C3D單元比大多數3維卷積網絡結構簡單得多,但它在實際的表現中非常優異。

圖3 C3D單元結構
在本文中,特征提取模塊主要由3個階段組成。如圖4所示,特征提取模塊的第1個階段,使用1個卷積核為1×3×3的3維卷積用來提取輸入圖像序列的空間信息的同時保持特征V1在時間維度上的獨立,之后的2個階段是使用C3D單元來提取圖像序列的時空信息分別得到特征V2和V3。

圖4 識別網絡結構
3維卷積相比于2維卷積參數會有很大程度的提升,為了控制網絡的參數量,過多的卷積層并沒有采用。而是結合任務的數據特性和使用場景,選擇使用特征融合模塊來對特征提取模塊得到的各個階段的特征進行融合處理。GaitSet在文章中提出一種利用步態序列來識別行人的方法。在GaitSet中作者提出了一個新的觀點,他們把步態序列看作一組步態輪廓的集合,而行走序列中每張圖片的輪廓都有其獨特的外觀。即使這些序列被打亂,也不難通過觀察輪廓的外觀將它們重新排列成為正確的順序。因此,其假設每個輪廓都包含了其位置信息序列的順序并不重要,而特定的姿態是區分不同步態的主要信息。在本任務中認為區分拖步和正常步態的關鍵是行走圖像序列中的少量幀,但是本文認為時間上的順序是可以提供有用信息的。因此,本文參考GaitSet的網絡結構并結合重新設計的網絡結構來作為特征融合模塊。
如圖4所示,在特征融合模塊中,主要使用了MAX操作、水平金字塔池化(Horizontal Pyramid Pooling, HPP)、分段水平金字塔池化(Period-wise Horizontal Pyramid Pooling, PHPP)和跨接的上采樣多種操作,本文將分別對其進行介紹。通過特征提取模塊得到的特征V1, V2和V3會通過MAX操作來獲得其中最大響應特征并同時降低特征維度,即M(h,w,c)=MAX[V(f,h,w,c)]。其中M 代表M A X 操作,V(f,h,w,c)表示通過特征提取模塊從連續幀圖像中提取的組4維特征V1, V2和V3,M(h,w,c)表示MAX操作之后獲得降維特征M1, M2和M3。之后再使用2維卷積對這些特征進一步提取,其中2維卷積的卷積核大小為3×3。
不同階段的特征M1, M2, M3各自包含了不同分辨率層次上的信息,為了能夠保留前部分的高分辨率層次信息,在本工作中通過不同卷積之間的跨接配合不同尺寸的上采樣方式將不同階段的特征進行尺寸匹配并加和作為之后HPP[26]的輸入,其中2×2和4×4的兩種采樣尺寸的上采樣被使用。HPP操作是通過將輸入的特征進行不同尺度的池化,來充分獲取輸入特征中的局部和全局信息。HPP主要是使用具有不同池化尺寸的全局平均池化(Global Average Pooling, GAP)和全局最大池化(Global Max Pooling, GMP)并將不同尺寸池化后的特征進行連接。圖5展示了HPP的結構,本工作中主要使用了(H/k, W) k=1, 2, 4, 8的4個不同池化尺寸對一個通道的特征進行操作,之后將各個通道的池化特征進行連接,并使用一個全連接層對連接后的特征進行維度調整得到特征G,作為后續的分類特征,這種特殊的池化操作可以很好地考慮全局圖片不同位置的特征信息。

圖5 HPP網絡結構
而對于特征提取模塊得到的特征V3,其通過多個階段的3維卷積,其中包含輸入序列的高語義信息,對網絡的分類也能提供很大的幫助,因此在本文中提出一種新的結構PHPP結構來對這些特征同時進行時間和空間維度上的融合。PHPP的網絡結構如圖6所示,其首先將輸入特征在時間維度分別劃分為1, 2, 3個片段,共能夠得到6個片段,然后分別對每個片段進行相同于HPP的操作,最后將每個通道的特征進行連接并使用全連接層進行維度調整得到特征Gp。PHPP相比于HPP保留了更多時間維度上的特征,通過在時間維度上的長序列特征和短序列劃分能幫助網絡獲得時間維度上的全局和局部特征。

圖6 PHPP網絡結構
在特征提取模塊和特征融合模塊之后將得到的特征G和Gp,利用Flatten層將特征調整為1維,然后利用全連接層和sigmoid分類函數得到最終的結果。另外,在本文實驗中,損失函數選用交叉熵函數,優化器選用Adam,并且在全連接層之前,通過添加dropout函數來提高模型的泛化能力。
在構建的數據集中對提出的網絡結構進行測試,為了保證實驗的可靠性,本工作的實驗采用三折交叉驗證的方式進行驗證。在三折交叉驗證中數據集被隨機劃分為3部分,并且保證同一個人的圖像序列只存在一折里。在每輪交叉驗證中,3個折中的一個用于測試,其余兩個用于訓練分類模型,最終的指標采用三折的平均值。本質上本文的任務是一個二元分類,即區分患者的各步行周期中是否包含拖步狀態,在本文中使用3個指標對分類結果進行評估:精確率(precision,prec)、召回率(recall,rec)、準確率(accuracy,acc)。其中準確率定義是正確分類圖像序列的百分比,而精確率、召回率計算方法分別為prec=TP/(TP+FP),rec=TP/(TP + FN),其中TP, FP和FN分別代表真陽性(True Positive, TP)、假陽性(False Positive,TP)和假陰性(False Negative, FN)分類樣本。
如表2所示,為了驗證本文工作,也在本文構建的數據集上復現了幾種方法。其中C3D, D3D,P3D的提出是為了視頻行為識別,GaitSet則是希望通過步態識別行人的身份,JGR-GCNN則是通過視覺的方法來檢測PD患者是否具有凍結步態,這也與本文的任務最為接近。其中本文方法分類準確率最終達到91.3%,比JGR-GCNN的準確率高出12.2%,相比其他幾種方法中表現最好的準確率也提升了3.8%,并且相對應的精確率和召回率也提升很多,說明本文提出的方法不僅保持了總體的準確率,也很好地平衡了該方法對正樣本的敏感性和特異性。

表2 不同網絡比較結果(%)
本工作提出網絡結構在識別結果中取得了很好的表現,而該文中新提出的主要結構有PHPP和跨接的上采樣。表3討論了分別消除兩個操作對識別結果的影響,其中用UP來代表跨接的上采樣,從表3可以看出,在消除了UP和PHPP兩個結構之后,召回率會有較多的下降,但是在增加UP結構后召回率就有很大的提升,說明使用跨接的上采樣操作后,在特征提取模塊不同階段得到的特征通過MAX操作之后的高分辨率特征被很好地保留,提高了網絡對拖步正樣本的敏感性。同時表3也展示了網絡的參數量、計算量和計算時間,通過表中給出的數據可以看出,完整網絡結構的計算量和計算時間都控制在非常小的范圍內,證明了所提網絡具有輕量化和可用性強的特點。

表3 不同組成的網絡結構試驗
TUG測試視頻的子任務被自動分割得到“行走”的圖像序列,并被進一步處理得到多個包含完整步態周期的圖像序列,這些序列以何種形式作為網絡的輸入也會對結果有很大的影響。如圖7所示,圖7(a)是正常RGB圖像的形式,圖7(b)采用圖像輪廓的形式,圖7(c)為結合圖像輪廓和RGB圖像得到的結果,而對于圖7(d)-圖7(f)分別為對應圖7(a)-圖7(c)僅保留腿部的結果。對于圖7(b)和圖7(e)采用圖像輪廓的方式避免了圖像背景的影響,但是很難從輪廓中觀察到腳尖抬起的細微差別,圖7(c)和圖7(f)結合了RGB圖像和輪廓圖像,即減去了背景的干擾,同時保留了RGB的信息。表4是在不同的輸入序列形式下得到的實驗結果,其中僅包含腿部的RGB輪廓形式有最好的結果,該輸入形式既包含RGB層的信息又避免了不同背景信息的干擾還排除了上肢對識別的干擾,因此該形式輸入有最好表現也符合預期設定。

表4 多種圖像輸入格式實驗結果比較(%)

圖7 不同的輸入圖像格式
本文提出了一種使用計算機視覺來對PD患者的拖步癥狀進行識別的方法,在三折交叉實驗中,采用一塊英偉達TitanXP顯卡,每一個訓練輪次僅需3 min,連續訓練40個輪次之后,網絡的損失函數會降到最低,結果達到最優。本文為PD患者運動狀態的遠程監測提供了一種方案,也為PD患者遠程醫療的進一步發展提供了更多的可能性。本文提出的網絡結構不僅適用于PD患者拖步的檢測,對其他的異常步態識別也具有參考意義,為基于視覺的異常步態識別提出了一種新的思路。