陶帥,韓星,孔麗文,汪祖民,謝海群
隨著我國老齡化社會的到來,與年齡密切相關的認知障礙,包括癡呆的患病率,近年來呈明顯增加的趨勢。認知障礙包括幾種情況,癥狀從輕度〔如輕度認知障礙(MCI)〕到重度〔如阿爾茨海默病(AD)和其他癡呆〕[1]。AD被世界衛生組織確認為全球公共衛生重點[2]。MCI是指正常衰老和癡呆之間的過渡階段。MCI分為遺忘型MCI(aMCI)和非遺忘型MCI,aMCI主要影響短期記憶或長期記憶[3]。最確定的AD前期亞型是aMCI,被認為是AD的前驅癥狀,年轉換率為6%~25%[4]。除了認知障礙外,MCI患者還可能出現運動功能障礙,例如步態障礙[5]。而步態障礙在AD患者中也很常見。先前的研究表明,步態與認知有著密切的關系[6]。例如,ROSSO等[7]發現步態減慢與認知障礙之間的關聯得到了共同神經基質的支持,該基質包括較小的右側海馬體。由于步態與認知能力相關,因此具有不同的認知能力的人群所表現的步態狀態也不一樣,越來越多的研究證明了這一點。BEAUCHET等[8]在采用步態評估癡呆患者時發現,步長的高平均值和變異系數是中度癡呆的特征,而步幅時間變異系數的增加則與MCI狀態有關。另外有研究發現MCI組與AD組在單任務和雙任務的起立行走測試時,所測的部分步態參數差異有統計學意義[9]。本研究在此基礎上通過機器學習建立分類模型,同時以aMCI患者和AD患者為研究對象,目的是確定基于步態的最佳機器學習模型和臨床相關的重要步態特征,用于識別aMCI患者和AD患者。
1.1 研究對象 2018年12月至2020年12月,從國家康復輔具研究中心附屬康復醫院、佛山市第一人民醫院和大連大學附屬中山醫院招募了102例受試者,按照納入與排除標準最終納入98例受試者,其中55例為aMCI患者,10例為AD患者,33例為健康對照(HC)者。本研究獲得了佛山市第一人民醫院研究倫理委員會的倫理學批準(審批號:IA-201944),并在入組時獲得參與者的書面知情同意書。
aMCI患者的納入標準:(1)有患者報告的主觀認知主訴,并通過訪談確定,最好由知情人確認;(2)單域或多域認知能力下降,并以記憶力損害為典型表現(低于與年齡和受教育程度匹配的HC的1.5個標準差);(3)經臨床醫生訪談確認日常生活活動能力保留;(4)臨床癡呆評定(Clinical Dementia Rating,CDR)量表評分 =0.5 分[10]。
AD患者的納入標準:(1)均符合美國國立神經病語言障礙卒中研究所和阿爾茨海默病及相關疾病學會的AD診斷標準[11]。(2)簡易精神狀態檢查(Mini-Mental State Examination,MMSE)量表提示癡呆:評分≤17分(文盲)或評分≤20分(小學畢業)或評分≤24分(初中畢業及以上)[12]。(3)蒙特利爾認知評估(Montreal Cognitive Assessment,MoCA)量表提示認知受損:最佳劃界分值為19分(受教育年限≤6年)或22分(受教育年限7~<12年)或24分(受教育年限≥12年)[13]。(4)CDR量表評分=1分。(5)具有以下特征的早期、顯著性的情景記憶損害:①患者本人或知情者報告的持續6個月以上的緩慢進展的記憶功能變化;②顯著情景記憶損害的客觀證據,包括不能被線索提示、再認測試改善或糾正的回憶困難;③情景記憶損害在起病或疾病進展過程中可以單獨存在,或與其他認知功能改變共存。(6)顱腦計算機X線斷層掃描(CT)顯示無明顯異常或僅為腦萎縮。
HC的納入標準:(1)MMSE量表評分≥25分;(2)認知正常,由知情人確認;(3)CDR量表評分=0分。
所有參與者的排除標準:(1)文盲;(2)存在任何可能導致認知和運動障礙的神經系統疾病和其他系統性疾病(卒中病史、帕金森病、癲癇、腦創傷等)、影響下肢的活動性風濕病和骨科疾病、膝關節病史/髖關節置換術等。
1.2 研究方法 在“面對面”訪談時收集參與者的基本情況,包括年齡、身高、體質量和鞋碼。采用MMSE量表和MoCA量表評估整體認知功能,使用CDR量表評估認知受損程度。認知域的評估包括記憶力、執行能力、注意力和語言評估,評估方法分別為聽覺詞語學習測驗(AVLT)[14]、Stroop 色詞測驗(SCWT)[15]、符號數字模式測驗(SDMT)[16]、波士頓命名測驗(BNT)[17]。使用日常生活活動評估量表(Activities Of Daily Living,ADL)評估患者在日常生活中的自我護理能力[18]。步態測試:所有步態測試均是在佛山市第一人民醫院寬敞走廊內使用可穿戴步態采集設備完成。可穿戴步態采集設備常以鞋或鞋墊的形式嵌入傳感器模塊采集受試者步態信息,配合穿戴于肢體和軀干的整合角度計模塊與足部信息可以得出下肢與軀干的運動動態角度信息[19]。所有參與者需要穿戴步態采集設備完成3個步態測驗(1個單任務測驗,2個雙任務測驗),行走長度>10 m。單任務測驗,即自由行走,參與者以舒適的速度行走,無任何額外的行為。雙任務測驗包括倍數7和倒數100測試。倍數7測試:在平整的地面進行測試,參與者開始行走,同時計數7的倍數(如7、14、21......)。倒數100測試:在平整的地面進行測試,參與者開始行走,并開始進行從100倒計數(如100、99、98......)。3個步態測驗采集的步態參數一致,包括步幅、步速、步頻、支撐相、擺動相、跨步時間、支撐時間、擺動時間、足趾離地角度和足跟著地角度。
1.3 統計學方法 使用SPSS 26.0軟件進行統計分析。計數資料以相對數表示,組間比較采用χ2檢驗。計量資料首先使用Shapiro-Wilk檢驗每組數據的正態性,然后使用Levene's檢驗每組數據的方差齊性。符合正態分布且方差齊的數據,以(±s)表示,多組間比較采用單因素方差分析,然后使用LSD事后檢驗進行組間兩兩比較;非正態分布或方差不齊的數據,以中位數(四分位數間距)〔M(QR)〕表示,多組間比較采用Kruskal-Wallis H檢驗,然后使用事后多重比較進行組間兩兩比較。以P<0.05為差異有統計學意義。
1.4 分類建模 使用隨機森林算法(RF)和梯度提升決策樹算法(GBDT)建立模型,10個步態參數作為預測變量,疾病狀態(HC、aMCI、AD)作為響應變量。每種機器學習算法建立了3個模型,分別是HC/aMCI、HC/AD和aMCI/AD。使用10倍交叉驗證評估每個模型的性能。
RF是bagging的一種擴展,是由BREIMAN[20]提出的一種分類算法。其計算效率高,可以在大型數據集上快速運行,已被應用于不同領域[21]。RF由一組決策樹組成,其中每個樹都包含拆分節點和葉節點[22],然而RF使用每個節點上隨機選擇的變量中的最佳節點將每個節點拆分為分支,而不是在所有變量中使用最佳分支[23]。實際上RF中的每棵決策樹都是一個分類器(假設現在針對的是分類問題),對于一個輸入樣本,N棵樹會有N個分類結果,而隨機森林集成了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出。該算法具有多個必須由用戶設置的超參數,例如節點必須包含的最小樣本數和樹的數量等[24]。RF的優點包括:在決策樹中隨機選擇樣本可以在一定程度上避免過度擬合;隨機選擇樣品可以增強抗噪性;可以處理高尺寸樣品,無須因素篩選[25]。
GBDT是FRIEDMAN[26]在1999年提出的一種迭代決策樹算法,該算法由多棵決策樹組成,所有樹的結論累加起來為最終結果,被認為是泛化能力較強的一種算法。GBDT是一種用于回歸和分類問題的機器學習技術,基本思想是將一系列弱基分類器組合成一個強基分類器[27],學習過程是基于特征和響應數據集構建梯度提升樹分類或回歸模型,然后使用分類和回歸模型對新的傳入樣本進行分類/預測[28]。GBDT模型采用梯度下降法,將決策樹法與bagging 和 boosting算法相結合,解決傳統決策樹的過擬合問題[25]。GBDT和隨機森林最本質的區別是GBDT中的每一棵樹學習的是之前所有樹的結論和殘差(殘差為真實值減去預測值)。
1.5 特征選擇技術 本研究在RF和GBDT分類器中使用遞歸特征消除技術(recursive feature elimination,RFE)進行重要特征選擇,減少分類器的輸入變量。RFE是一種基于包裝器的特征排名算法,通過執行優化算法在空間內搜索最佳特征子集[29],消除特征之間的冗余。例如,基于GBDT分類器的RFE:(1)將10個步態特征作為初始特征子集輸入GBDT分類器,計算每個特征的重要性分數;(2)然后從當前特征子集中移除重要性分數最低的一個特征,得到新的特征子集,再次輸入GBDT分類器,計算每個特征的重要性分數;(3)遞歸地重復步驟2,直至剩余的特征數量達到所需的特征數量,然后利用10倍交叉驗證方法得到最佳特征子集的分類精度。本研究使用了Python中scikit-learn庫進行建模和重要特征選擇。
2.1 三組受試者基本情況比較 三組受試者年齡、性別、身高、體質量、鞋碼比較,差異無統計學意義(P>0.05);MMSE量表評分、MoCA量表評分比較,差異有統計學意義(P<0.05),見表1。

表1 三組受試者基本情況比較Table 1 Comparison of basic information of three groups of subjects
2.2 三組受試者自由行走測試時步態參數比較 三組受試者自由行走測試時步幅、步速、足趾離地角度和足跟著地角度比較,差異有統計學意義(P<0.05)。進一步兩兩比較結果顯示,aMCI組和AD組受試者步幅較HC組短,足跟著地角度較HC組小;AD組步速較HC組和aMCI組受試者慢,足趾離地角度較HC組小(P<0.05),見表2。

表2 三組受試者自由行走測試時步態參數比較Table 2 Comparison of gait parameters of three groups of subjects during the free walking test
2.3 三組受試者雙任務倍數7測試時步態參數比較三組受試者雙任務倍數7測試時步速、支撐時間、足趾離地角度和足跟著地角度比較,差異有統計學意義(P<0.05)。進一步兩兩比較結果顯示,aMCI組和AD組受試者步速較HC組慢,足趾離地角度和足跟著地角度較HC組小;AD組支撐時間較HC組長,足趾離地角度較aMCI組小(P<0.05),見表3。

表3 三組受試者雙任務倍數7測試時步態參數比較Table 3 Comparison of gait parameters of three groups of subjects during performing the dual-task of counting backwards in sevens
2.4 三組受試者雙任務倒數100測試時步態參數比較三組受試者雙任務倒數100測試時步幅、步速、足趾離地角度和足跟著地角度比較,差異有統計學意義(P<0.05)。進一步兩兩比較結果顯示,AD組步速較HC組和aMCI組受試者慢,足趾離地角度和足跟著地角度較HC組和aMCI組小,步幅較HC組短;aMCI組足跟著地角度較HC組小(P<0.05),見表4。

表4 三組受試者雙任務倒數100測試時步態參數比較Table 4 Comparison of gait parameters of three groups of subjects during performing the dual-task of counting backwards from 100
2.5 建立模型和特征選擇 以步態采集設備采集的10個步態特征作為輸入特征,參與者的疾病狀態作為標簽,通過不斷訓練RF和GBDT進行分類建模。表5總結了基于10個步態特征的RF模型和GBDT模型區分各組的準確度和受試者工作特征曲線下面積(AUC)值。在執行單任務行走和雙任務行走時,HC和aMCI患者之間的分類效果均不理想,分類準確度和AUC值均在0.700 0以下。然而,HC和AD患者之間分類效果比較好,在RF模型中分類準確度和AUC值均可達0.800 0以上,甚至在雙任務倍數7和倒數100測試時,AUC值達0.900 0以上。在RF模型中,執行自由行走任務的aMCI和AD患者之間分類準確率最高達0.861 5。從總體分類效果來看,GBDT的分類效果不如RF的分類效果。

表5 基于10個步態特征的RF模型和GBDT模型區分各組的準確度和AUC值Table 5 The accuracy and AUC value of RF model and GBDT model in distinguishing healthycontrols,amnestic mild cognitive impairment and Alzheimer's disease patientsbased on 10 gait features
在RF和GBDT分類器中使用RFE求得最佳步態特征組合,使分類準確率達到最高。由于在兩個機器學習分類器中,HC組和aMCI組的分類效果不佳,所以只對HC組/AD組、aMCI組/AD組之間進行了重要特征選擇。研究發現將RF-RFE選擇的特征組合作為分類器的輸入特征,得到的結果并不理想。然而,GBDT-RFE選擇的前兩或者三名特征組合,實現了RF和GBDT的最佳性能。因此,本文展示了GBDT-RFE計算的各個步態特征的重要性(圖1、2)。圖1識別了HC組和AD組受試者步態特征的重要性。筆者按照圖中排名依次將前一名至前五名特征組合訓練機器學習模型,通過比較分類準確率發現單任務和雙任務選擇的最佳特征組合是不同的:執行自由行走任務時,最佳特征組合是步速、足趾離地角度、步頻;執行雙任務倍數7測試時,最佳特征組合是步速、跨步時間、足趾離地角度;執行雙任務倒數100測試時,最佳特征組合是足跟著地角度、支撐相、步速。圖2識別了aMCI組和AD組步態特征的重要性。同樣,識別aMCI和AD患者的最佳特征組合也是不同的:執行自由行走任務時,最佳特征組合是足趾離地角度、足跟著地角度;執行雙任務倍數7時,最佳特征組合是足趾離地角度、步幅;執行雙任務倒數100時,最佳特征組合是步幅、足跟著地角度。

圖1 不同行走測試時的步態特征識別HC和AD患者的重要性Figure 1 The importance of gait characteristics during performingdifferent walking tests in identifying healthycontrols and Alzheimer's disease patients

圖2 不同行走測試時的步態特征識別aMCI患者和AD患者的重要性Figure 2 The importance of gait characteristics during performing different walking tests in identifying amnestic mild cognitive impairment and Alzheimer's disease patients
表6總結了GBDT-RFE選擇的特征作為RF和GBDT分類器的輸入特征,經過10折交叉驗證后的分類準確度和AUC值。HC組和AD組受試者的分類準確率在執行雙任務倍數7測試時實現了最高(0.905 6),GBDT也是如此。aMCI患者和AD患者的分類效果不如HC和AD患者,但是準確度最高可達0.876 9。在執行雙任務倒數100測試時,RF模型和GBDT模型區分aMCI和AD的準確率均是最低。從整體分類效果來看,輸入重要特征模型的性能優于輸入10個步態特征模型的性能。相比GBDT模型的性能,RF模型的性能更佳。

表6 基于重要步態特征的RF模型和GBDT模型區分各組的準確度和AUC值Table 6 The accuracy and AUC value of RF model and GBDT model in distinguishing healthy controls,amnestic mild cognitive impairment and Alzheimer's disease patients based on important gait features
本研究旨在使用單、雙任務評估的步態數據探索最佳機器學習分類模型,以識別HC、aMCI和AD,并根據驗證過的分類模型進行重要特征選擇,以找到各組間的最佳特征組合。本研究結果顯示,RF模型識別HC、aMCI和AD的整體性能優于GBDT模型。RF模型通過將GBDT-RFE選擇的前兩名或者三名特征作為輸入特征,在本研究中實現了HC組/AD組和aMCI組/AD組的最高分類準確率。HC組/AD組的最高分類準確率為 0.905 6,AUC 值為 0.944 4。aMCI組 /AD 組的最高分類準確率為 0.876 9,AUC 值為 0.933 3。
既往研究顯示,有認知障礙者和健康人群的步態周期(支撐相、擺動相、支撐時間、擺動時間)和運動學參數(步幅、步速、步頻、跨步時間)比較,差異有統計學意義[30-31]。很少有研究使用時間-空間參數(足趾離地角度、足跟著地角度)作為評估認知障礙的因素,但是有研究發現足趾離地角度和足跟著地角度是區分健康人群和有步態障礙者的重要且靈敏的指標[32-33]。本課題組前期研究發現足趾離地角度和足跟著地角度可能是區分卒中后癡呆和AD的典型步態特征[34]。因此,本研究將單雙任務的步態周期、運動學參數和時間-空間參數3個領域的步態參數納入。研究結果顯示,單任務行走和雙任務行走的部分步態特征(步幅、步速、支撐時間、足趾離地角度和足跟著地角度)可用來區分HC組與aMCI組、HC組與AD組、aMCI組與AD組受試者。重要的是,足趾離地角度和足跟著地角度不但在各組間有差異,也被機器學習算法選擇為重要步態特征。結合之前的研究[34],得出足趾離地角度和足跟著地角度在未來作為評估有關認知障礙疾病的標志物具有重要臨床意義。與自由行走比較,倒數100行走任務已經被證明可能影響MCI患者的步態參數[8,35],但倍數7行走任務卻很少受到關注。本研究在受試者進行步態測試時,嘗試將倍數7行走任務加入,結果顯示其和倒數100行走任務的步態參數效果基本一致,即只有步幅在各組間差異無統計學意義,但倍數7行走任務時的支撐時間在HC組和AD組之間表現出了統計學差異,與倒數100行走任務時不一致[36],提示未來可把不同行走任務的支撐時間對AD的影響放入研究中。
在統計學中,根據統計學方法所得到的P值,即概率,是反映某一事件發生的可能性大小,一般將P<0.05定義為差異有統計學意義。也有一些研究將P>0.05且P<0.1的結果定義為具有邊際差異,即微弱效應[37-38]。本研究將邊際差異納入,結果顯示各組間具有邊際差異的步態參數平均值差值較大,如自由行走任務時的足趾離地角度在aMCI組和AD組之間具有邊際差異(P=0.076),aMCI組的平均值為(41.05±4.48)°,而AD組的平均值為(38.34±5.20)°。值得注意的是,大部分具有邊際差異的步態參數在另外兩個行走任務或者另外兩個其中的一個行走任務中的相同組別中差異有統計學意義。提示未來應該對具有邊際差異的步態參數進行討論,并且納入臨床研究中,這可能會幫助臨床醫生更快、更準確地評估患者。本研究也間接證明了這一內容,自由行走的足趾離地角度作為重要步態特征之一,在識別aMCI和AD上產生了最佳準確率。
本研究結果顯示,在單任務和雙任務時,HC組和aMCI組間均有部分步態參數差異有統計學意義,這與先前研究結果一致[39-41]。但也有研究結果顯示,雖然MCI患者的步態參數比HC更差,但是沒有一項單任務和雙任務的步態參數能夠區分二者,雙任務損傷則是AD患者特有的[42-43]。本研究中的機器學習部分也證明了這一點,自由行走狀態實現的分類準確率為0.623 5,雙任務狀態實現的分類準確率為0.683 7,二者差別不大。這也充分說明MCI是介于正常老化和癡呆之間的一種過渡狀態,患者的步態障礙也在有與沒有之間,所以是否可通過步態參數實現HC和aMCI分類仍有待商榷。同時,本研究結果顯示單任務和雙任務時的步速、足趾離地角度和足跟著地角度在HC組與AD組間差異均有統計學意義,與先前研究一致[44]。單任務行走不具備認知任務,研究結果中卻得出單任務的步態參數能夠區分HC組和AD組人群,這是可以解釋的。有研究表明,步態障礙在癡呆患者中比在生理性衰老人群中常見,且其常見于整個AD病程,患病率隨著AD階段的加重而增加[45]。本研究在試驗中加入了機器學習評估HC組和AD組患者,并在文獻[46-47]基礎上,加入了RFE對區分HC組和AD組的步態參數進行重要特征選擇,結果顯示步速、足趾離地角度和足跟著地角度作為RF模型的輸入特征,對HC組和AD組進行分類的效果最佳,單任務和雙任務的分類準確率均為0.850 0以上,與統計分析結果一致。關于aMCI組與AD組,前期研究發現,在雙任務測試中,與MCI患者相比,AD患者速度降低、步幅時間增加[48];在單任務和雙任務的起立行走測試時,步速、步態周期、步頻和步長差異有統計學意義[9]。這與本研究結果相符,但是本研究結果顯示,aMCI組與AD組步頻和步長比較,差異無統計學意義,時間-空間參數(足趾離地角度、足跟著地角度)差異有統計學意義。機器學習結合RFE進行重要特征選擇是區分aMCI組與AD組的重要環節,本研究結果顯示步幅、足趾離地角度和足跟著地角度是區分aMCI患者和AD患者的重要步態標志物,在RF模型中,aMCI組和AD組的分類準確率可達0.876 9。隨著疾病的發展,單任務和雙任務的步態表現下降,但是aMCI和AD之間具有統計學差異的步態參數并不多,而且總體來看,RF模型對aMCI和AD的分類效果也不如其對HC組和AD組的分類效果。由此來看,步態障礙不僅可在AD患者中被觀察到,也是aMCI患者的伴隨事件,但是aMCI患者的步態障礙輕于AD患者。近年來,有關aMCI和AD的步態障礙研究越來越多,并且證實了步態障礙的嚴重程度取決于疾病的類型和認知障礙的嚴重程度[45]。總體而言,從臨床角度來看,機器學習技術建立分類模型的研究可以幫助臨床醫生將機器學習作為識別aMCI和AD診斷的工具,并為明智的決策提供解釋。
本研究仍存在一些局限性:(1)研究僅比較了RF和GBDT模型,雖然分類效果不差,但這遠遠不夠,將來應考慮更多的機器學習模型,比如Lasso回歸、長短期記憶網絡和XGBoost,以確定早期識別aMCI患者和AD患者的最佳措施;(2)本研究所納入AD患者的樣本量少,可能會降低本研究的統計有效性,并影響機器學習的準確性;(3)本研究僅采集了步態周期、運動學參數和時間-空間參數3類,步態參數涉及的領域不廣泛,將來應該考慮加入動力學參數(地反力、力矩和身體重心的加速度),以探索aMCI和AD的最優步態標志物。
綜上,本研究發現:(1)使用步態參數評估HC和aMCI具有爭議,未來的研究應該進一步探索該研究領域的準確性;(2)可穿戴設備采集的步態參數可以作為識別HC和AD的有用臨床工具;(3)步幅、足趾離地角度和足跟著地角度是識別aMCI患者和AD患者的重要步態標志物,未來對預防或延緩AD的發生有重要的臨床應用價值。
作者貢獻:陶帥負責資金提供、調查開展、概念提出;韓星負責形式分析、方法學、軟件、原稿創作;孔麗文負責項目管理、監督、驗證;汪祖民負責可視化、審查和寫作;謝海群負責數據管理、資源提供。
本文無利益沖突。