范炤,姚麗麗
(1.山西醫科大學老年醫學研究所,山西 太原 030001;2.山西醫科大學基礎醫學院,山西 太原 030001)
阿爾茲海默癥(AD)是老年人群中最常見的疾病。據預測,到2050年,每85人中將有1人受到影響,為患者家庭和社會增加了沉重的負擔[1]。由于AD的病因機制尚不明確,目前仍無有效的治療方法,所以早期識別、及時干預遏制病情的發展尤為重要。根據美國國立神經病、語言交流障礙與腦卒中研究所-老年癡呆及相關疾病學會 (NINCDS-ADRDA)的分類診斷標準,將AD分為早期AD(early Alzheimer′s disease, EAD)和晚期AD(late Alzheimer′s disease, LAD)。
隨著醫學技術不斷發展,神經影像學的運用成為識別AD臨床前期的研究熱點[2-3]。由于大腦局部病變早期常常伴隨血流及代謝活動改變,而大腦結構常常在疾病晚期才發生變化,故功能影像學技術在識別疾病早期病理變化上更具潛力[4]。目前,功能磁共振成像(fMRI)技術成為人們研究腦疾病的一種新興方法,主要基于血氧水平依賴性,其由于具有無創性,能精確對腦功能區進行定位,同時還可以對患者反復檢查而無危險性,已經獲得研究者的廣泛關注,尤其在評價記憶認知障礙患者方面。
計算機輔助診斷AD系統現在應用越來越廣泛,許多研究者基于不同的影像技術,通過圖論的研究方法構建腦網絡,再結合不同的機器學習算法對疾病進行分類[5-6],均取得了不錯的效果,該方法成為目前神經影像學研究腦疾病的熱點。本研究通過構建有向腦網絡利用不同特征在核主成分分析(KPCA)和Adaboost算法下對AD進行分類預測,以期找到最優的特征輔助AD診斷。
本研究的實驗數據選自美國阿爾茲海默癥神經影像學倡議(the Alzheimer′s Disease Neuroimaging Initiative, ADNI)數據庫。研究對象為8名認知功能正常者(normal cognition, NC)和13名AD患者,其中包括7名EAD患者、6名LED患者。收集21名受試者的人口統計學資料,包括性別、年齡、簡易精神狀態量表(mini-mental state examination, MMSE)評分和臨床癡呆評定量表(clinical dementia rating,CDR)評分。經統計學分析得到所選取的研究對象資料見表1,在性別、年齡方面三組之間無顯著差異,MMSE評分和CDR評分三組間均有統計學意義。根據ADNI采集協議,使用3.0 T Philips掃描儀進行采集,獲得受試者的靜息態fMRI數據。選擇合理得到參數確保圖像質量,射頻重復時間(TR)為3 000 ms、回波時間(TE)為30 ms、翻轉角(FA)80°,每個受試者包含140個功能圖像,每個圖像掃描48層,層厚參數為3.31 mm。

表1 研究對象人口統計學分析結果
本研究基于Matlab平臺的SPM 8.0軟件包對靜息態fMRI圖像數據進行預處理,首先將采集到的圖像數據由DICOM格式轉換為NIFTI格式,去除最初幾個不穩定的時間點;然后進行時間校正和頭動校正,去除頭動幅度大的受試對象;接下來消除掃描儀器的線性漂移、進行圖像高斯平滑去噪,將0.01~0.08 Hz作為低頻率過濾,最后去除腦脊液和白質等協變量。
對處理后的靜息態fMRI數據, 采用自動化解剖學標簽(anatomical automatic labeling,AAL)模板,將全腦分為90個感興趣區(region of interest,ROI),左右腦區各為45個,然后對90個ROI提取時間序列,每個ROI代表一個網絡節點,每個節點上的葡萄糖代謝率作為節點特征,并計算節點內的體素代謝平均值。
采用格蘭杰因果分析[7]計算兩兩腦區之間的有效連接強度值,得到一個90×90的有向腦網絡矩陣,腦網絡構建具體流程見圖1。任意兩個廣義平穩的時間序列x和y之間的格蘭杰因果關系都可以通過自回歸模型計算,表示為:

圖1 有向腦網絡構建流程圖
(1)

選取合適的閾值使有向圖鄰接矩陣轉化,可能會存在個別孤立的節點或小塊子圖未連接到腦網絡中,添加邊進行腦網絡連接。有研究證明AD患者在個體腦代謝網絡拓撲屬性上與正常受試者有差異[8]。因此,本研究增加節點的度作為受試者圖像的特征評估,用以衡量網絡功能隔離和功能整合。本研究分別驗證葡萄糖平均代謝率、網絡連接以及節點的度在計算機輔助診斷AD上的效果,然后將提取的全部特征進行融合,繼續考察其在AD輔助診斷中的作用。
基于全局特征產生的大量的原始特征會降低分類性能,因此,有必要進行特征空間降維。本研究使用包裹式(Wrapper)特征選擇[9],該方法建立在基于模型的特征選擇方法之上,直接把最終采用的學習器的性能作為特征子集的評價標準。該模式的優點是根據算法的訓練準確率來選擇特征子集,依據分類性能選出貢獻最大的特征[10],適用于較小樣本數據,避免過擬合現象。
2.5.1核主成分分析算法 核主成分分析法[11](KPCA)是一種基于核函數原理的非線性主成分分析,將研究數據非線性映射到新的特征空間F中,然后利用核函數進行內積運算,提取樣本特征。KPCA不僅可以降低特征維度,還可以使某個特征強化[12]。KPCA算法過程如下:
給定一個訓練數據集xk(k=1,2,...l),xk∈Rn,將研究數據以非線性映射方式由原本空間Rn映射到特征空間F,然后進行主成分分析,得到空間協方差:
(2)
其中,φ(xj)為xj的一種非映射方式,xj為第j個數據。
降低特征維度并進行歸一化,可得到:
(3)
通過φ(x)將原來的矢量主成分映射為特征矢量,可得到:
(4)
得到降維后的特征矢量有m個主成分,使用核主成分分析法提取有效特征,提高訓練速度和準確率[13]。
2.5.2Adaboost算法 本研究還對比了Adaboost算法[14]與KPCA算法都用Python中的Scikit-learn工具包[15],該算法本質上是由弱學習器提升為強學習器,是基學習器的線性組合。首先從初始訓練樣本中提出一個基學習器,再根據基學習器的表現對訓練樣本的分布進行調整,使之前基學習器被分錯的樣本受到后續關注,然后用調整后的樣本分布來訓練下一個基學習器,如此反復,直至基學習器達到先前指定的值T,最終將T個基學習器進行加權組合得到一個強分類器。
2.5.3分類效果評價 本研究選取偏倚結果和方差最小的十折交叉驗證來評估模型算法的效能,為了得到可靠穩定的結果,進一步采用了準確率(Accuracy)、敏感度(Sensitivity)、特異性(Specificity)和受試者工作特征(ROC)曲線下的面積(area under curve,AUC)作為分類結果的評價指標,AUC值大于0.9就認為分類價值高。
本研究選取13名AD早晚期患者和年齡、性別相匹配的 8名正常被試的個體腦代謝網絡節點平均葡萄糖代謝率、個體腦代謝網絡的連接、個體腦代謝網絡節點度三種特征分別使用KPCA和Adaboost特征選擇算法進行分類,驗證上述特征分別在不同特征選擇算法下,AD輔助診斷中的準確率。隨后將樣本的三種特征進行融合,并使用相同的方法考察了融合后的特征,再用于AD分類的效果,見表2。結果顯示,這三種特征均能很好地描述個體腦代謝網絡特征。其中,就單特征分類能力而言,平均葡萄糖代謝率在KPCA和Adaboost兩種算法下,分別達到了93.21%和92.89%的準確率,相比其他兩種特征區分能力更強,對分類的貢獻率較大,表明在用靜息態fMRI輔助診斷AD時,平均葡萄糖代謝率可能是AD患者明顯的病理特征。而多特征融合后的分類能力在兩種算法下都取得了不錯的效果,準確率均在94%以上,AUC值0.97,敏感性和特異性也遠遠高于單個特征區分能力。本研究還發現,兩種算法對每個特征集的分類效果幾乎一致,都可以作為該項特征區分AD各組的模型。

表2 不同特征用于分類診斷結果
與傳統構建網絡方法相比,本研究方法準確率、特異性、敏感性等方面均有所提升,結果見表3。其中,Cheng等[16]采用傳統的基于皮爾遜相關的方法構建腦網絡,用腦區特征分類。Guo等[17]在構建超網絡的基礎上,將判別子圖作為特征,采用基于圖核的支持向量機(SVM) 進行分類。Tripoliti等[18]沒有構建腦網絡,直接對fMRI數據進行特征提取,然后用隨機森林模型進行分類。本研究構建有向腦網絡基礎上,采用Wrapper方式進行特征選擇的同時進行分類,節省了中間復雜流程。

表3 不同分類結果比較
本研究對NC、EAD、LAD三組受試者分別進行KPCA和Adaboost算法的分類預測,見表4,KPCA模型對于每個組的區分能力都優于Adaboost算法,尤其在區分LAD時,表現出較好的分類效果,準確率分別是85.34%和83.16%,比NC和EAD組的準確率高。對于敏感性和特異性而言,KPCA算法下的LAD組也顯著高于其他兩組。而采用Adaboost算法時,EAD組的敏感性為93.48%,高于其他兩組,說明在識別EAD患者時使用該算法的漏診率較低,而在特異性方面表現一般。針對本研究結果,我們可以在AD患病的不同時期使用不同的算法,相比而言,KPCA算法的分類預測能力較好,對AD輔助診斷起著重要作用。

表4 不同分類組的分類結果
腦結構網絡側重于研究大腦各區域皮層體積和厚度的關系,而腦功能網絡側重于研究探索神經元細胞之間的代謝活動[19-20],本研究選取8名NC和13名早晚期AD患者,利用fMRI圖像在構建有向網絡的基礎上,采用Wrapper方式提取最優特征的同時,采用Adaboost和KPCA算法進行分類。通過本研究得到能夠用于AD患者早期輔助診斷的最優特征,進而提高早期診斷準確率,尋找 AD 患者早期的腦代謝網絡的屬性差異,對AD患者提前進行干預治療。
在實現AD早期計算機輔助診斷中,許多研究者利用不同的影像技術,結合不同的機器學習算法,提出了對AD有效分類的模型[21-24]。他們已經從腦結構和腦功能網絡的拓撲屬性中找到了一些生物標志物。研究者利用FDG-PET成像構建腦網絡,發現腦葡萄糖代謝率是早期AD診斷明顯的病理特征,AD患者的區域腦葡萄糖代謝率與AD患者的疾病發展進程有密切關系[25-26],這與本研究的結論一致。還有研究基于FDG-PET影像構建腦代謝網絡,利用不同的特征選擇算法分析了AD患者的正常人節點度、Hub節點、聚類系數等網絡拓撲屬性,再基于核支持向量機分類,找到區分AD各組最明顯的病理特征是節點度[27];而Dai等[28]通過腦網絡分析得出,AD患者Hub節點的分布與認知功能正常者相比,存在很大的差異,是AD早期診斷潛在的生物標志物。
付常洋等[29]基于fMRI數據構建四種不同尺度下的腦網絡并進行特征融合對抑郁癥進行分類,證明融合后的特征對疾病分類效果明顯優于單個特征的效果,為本研究提供思路,并且本研究結果也證明了該結論 ,這為今后研究者們進行特征提取提供參考。李長勝等[30]在基于fMRI數據對AD進行分類應用時,通過提取各個腦區的時間序列來構建全腦功能連接矩陣, 然后使用KPCA提取特征, 將這些特征用Adaboost算法進行分類,取得了不錯的效果。本研究仍使用這兩種算法,不同的是,本研究利用Wrapper方式直接將兩種算法用于分類,分類性能得到了較高的提升。
同樣是基于fMRI數據對AD早期診斷的研究,與傳統構建網絡方法相比[16-18],本研究在構建腦網絡基礎上,運用KPCA和Adaboost模型獲得更顯著的分類效果。除此之外,本研究還對NC、EAD、LAD三組分別用兩種機器學習算法作預測分類,KPCA模型的效果優于Adaboost.
綜上,本研究構建有向腦網絡在機器學習算法下對AD病程分類有良好的效果,但是本研究的樣本量少,后續將增大樣本或者利用其他模態影像數據對AD進行分類。