劉 茜 王 瑜 付常洋 肖洪兵 邢素霞
(北京工商大學人工智能學院 北京 100048)
Linear discriminant analysis
阿爾茨海默病(Alzheimer’s Disease,AD)主要表現為認知功能下降和記憶力衰退,是一種起病隱匿且現階段無法治愈的神經系統退行性疾病,僅可通過在疾病發展的早期階段進行干預治療降低和延緩AD的發展[1]。神經影像學在AD的診斷上做出了突出貢獻,有經驗的醫生可以通過分析功能磁共振成像(functional Magnetic Resonance Imaging, fMRI)低頻振幅和結構磁共振成像(structural Magnetic Resonance Imaging, sMRI)特定腦區(如海馬體、海馬旁回)的萎縮程度診斷AD。
人工智能算法的發展有效提高了醫生診斷的效率,在改善醫療短缺、避免誤診、降低醫療成本方面有突出貢獻,將現有智能算法與醫學影像相結合診斷AD已成為研究熱點。徐盼盼等[2]提出從sMRI圖像中提取腦白質各體素的灰度值構建三階灰度張量,然后用遞歸特征消除法結合支持張量機進行特征選擇,最后用支持張量機診斷AD的方法。李書通等[3]使用sMRI圖像訓練3D-PCANet網絡診斷AD。李慧卓等[4]提取fMRI圖像中選擇雙側海馬體積及顯著差異腦區的低頻振幅值(ALFF)作為分類特征,Adaboost分類器診斷AD。上述方法均使用單一模態數據,近年來越來越多研究者使用多模態特征融合診斷AD,這是由于單一模態圖像特征不能涵蓋AD患者的全部患病信息,多模態特征融合可充分利用不同模態的醫學圖像對病灶信息描述的互補性,有效提高AD的診斷效果。Suk等[5]提出一種融合MRI、PET和CSF三種模態數據訓練堆疊自編碼器診斷AD的方法。Liu等[6]融合MRI和PET圖像信息同樣使用堆疊自編碼器診斷AD。本文提出一種融合fMRI和sMRI信息診斷AD的方法,由于神經影像具有高維小樣本的特性,如何提取有效的分類特征并融合,是本文的研究重點。
阿爾茨海默病神經影像學倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)包含多種模態,并處于AD不同階段患者的腦圖像,致力于確定阿爾茨海默病的進展階段,為研究者提供開源數據,是數據和研究人員聯系的紐帶。本文使用來自于ADNI的共110個靜息態fMRI以及對應的sMRI數據進行實驗,其中正常(Normal Control,NC)50例(男28例,女22例,平均年齡:76.4)、主觀記憶衰退(Subjective Memory Complaints,SMC)26例(男14例,女12例,平均年齡:72.5)、AD患者34例(男18例,女16例,平均年齡:73.29)。靜息態fMRI數據在被試清醒的狀態下不做任何任務或系統的思考取得,大小為64×64,每輪分層掃描48次,共掃描6 720次,獲得140個如圖1(a)所示的單個時間點數據,記錄神經元活動所引發的血液動力改變。sMRI中灰度值的高低反映了灰質、白質、腦脊液等組織的對比,T1加權三維sMRI數據采用MPRAGE協議采集,大小為256×256×170,層厚為1.2 mm,如圖1(b)所示。

(a) (b)圖1 fMRI與sMRI示意圖
fMRI包含大腦活動的時間信息和大腦內部的空間特征,通過功能連接矩陣可以有效區分疾病的進展情況。本文使用dpabi軟件對fMRI進行預處理,獲得時間序列,以此計算功能連接矩陣。預處理共分為8步,依次進行去除前10個時間點的數據(Remove First 10 Time Points)、時間層矯正(Slice Timing)、頭動矯正(Realignment)、空間標準化(Normalization)、平滑(Smoothing)、去線性漂移(Detrend)、濾波(Filter)、提取感興趣的時間序列(Extract ROI time courses)。機器啟動存在不穩定的現象,首先需要刪除前10個時間點的數據,之后通過時間層矯正,將不同時間掃描的層校正為同一時間獲得層,頭動矯正去除在一定頭動范圍內的輕微頭動偏差,空間標準化將不同容積及形狀的被試大腦放入一個標準空間里,平滑抑制噪聲或其他小的波動,去線性漂移去除由于機器的升溫或被試的適應隨時間積累產生的線性趨勢,濾波濾除呼吸、心跳產生生理噪聲。最后提取感興趣的時間序列,計算自動結構標簽(Anatomical Automatic Labeling,AAL)模板下每一個腦區體素的均值,將大腦90個腦區的時間序列作為分類特征。
腦灰質是神經元細胞體密集的部位,與認知能力高度相關,周珂等[7]實驗證明AD患者的特定腦區灰質發生萎縮。本文使用SPM8軟件對sMRI圖像做預處理,使用dpabi軟件提取大腦90個腦區的灰質體積特征,分為分割、生成特異性模板、生成流動場、配準和提取各腦區灰質體積,共5步。首先對原始圖像進行分割,將原始圖像分割為灰質c1、白質c2、腦脊液c3,然后利用DARTEL計算灰質rc1和白質rc2;其次選用50名NC的分割結果產生特異性模板Template 6;之后通過Template 6生成流動場u_rc1,使用u_rc1和Template 6將灰質圖像c1配準到標準空間并做體積調制;最后使用dpabi提取大腦90個腦區的灰質體積。
考慮fMRI數據的高維小樣本性和靜息態功能連接網絡隨時間變化存在一定的波動性[8],本文提出基于動態功能連接的分類方法,具體步驟如圖2所示。本方法立足于特征選擇和動態功能連接的思想,一方面通過特征選擇獲得最有利于分類的特征,另一方面不僅保留了不同腦區之間神經活動的功能連接特性,而且獲取了fMRI的時間維度信息。

圖2 fMRI特征提取方式
卡方檢驗常用來描述兩個事件的獨立性或實際觀察值與期望值的偏離程度。先假設兩個變量是獨立的,之后使用卡方檢驗差值衡量公式觀察實際值和理論值的偏差程度。
(1)
式中:E為理論值;z為實際值;n為樣本個數。
當偏差足夠小時,認為僅存在自然樣本誤差,當偏差達到一定值時,原假設錯誤,認為二者實際相關。將卡方檢驗用于特征選擇,計算每個腦區時間序列的均值作為特征,關注特征與類別之間的關系,選擇偏差排名最小的前M個特征作為所選特征。
功能連接矩陣能直接表述各個節點的功能連接,定義節點是計算功能連接矩陣的關鍵,要保證節點的外部獨立性及內部一致性[9],在M個所選特征的基礎上確定節點值,并計算動態功能連接矩陣。通常選用不同節點間的皮爾遜相關系數衡量節點間的連接強度,由式(2)可得到大小為M×M且角對稱的功能連接矩陣。
(2)

如圖2所示,使用滑動時間窗技術構建動態功能連接矩陣,需設定步長和窗寬兩個參數,選取較小的窗寬能更好地探測功能連接的瞬時變化,但易將噪聲誤認為功能連接的變化,選取較大的窗寬可得到更穩定的功能連接關系,但對時間上的變化不敏感[10]。計算共num個時間窗對應的功能連接矩陣,由于功能連接矩陣是角對稱陣,保留上三角值并排列為一個大小為num×M×(M-1)/2的向量。對這個向量做主成分分析(Principal Component Analysis,PCA)和線性判別分析(Linear Discriminant Analysis,LDA)相結合的特征提取[11]。PCA的實質是一個基變換,使得變換后的數據具有最大的方差,由此保留最主要的信息,基向量通過對由式(3)組成的協方差矩陣做奇異值分解獲得,將高維特征降維至K維。LDA在二分類中以函數J取最大值為目標,對PCA降維后的特征做空間變換,使類內離散度最小的同時,類間離散度最大,求得投影矩陣w,此投影矩陣即可將數據映射到分類效果最好的空間,即獲得fMRI特征向量α。
Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=
(3)

(4)
式中:μ1、μ2分別代表第1類和第2類樣本的均值向量;Σ1+Σ2計算方式如式(5)所示;w為投影矩陣;Sb代表類間離散度;Sw代表類內離散度。
(5)
式中:Pj代表經PCA降維后第j類樣本的特征向量集合。
sMRI分類采用基于支持向量機遞歸特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)和LDA對預處理步驟提取的灰質體積特征做特征選擇,具體策略如圖3所示。

圖3 sMRI特征提取方式
考慮到AAL模板上標注的每個腦區大小不同,萎縮程度不同,將90個腦區的灰質體積通過MIN-MAX標準化的方法歸一化為同一量綱,之后使用SVM-RFE的方法提取分類貢獻大的前N個特征,排除分類弱相關和不相關特征。
SVM-RFE[12]是一種包裹式特征選擇方法,主要思想是反復地構建模型,將SVM分類器每輪訓練后得到超平面權向量的平方值作為評價準則c,依輪刪除評分最差的特征,直至剩下的特征數目滿足最優特征子集設定的維度N。
(6)
式中:ci為特征i的評分;wi為超平面上特征i對應的權向量。最后使用LDA的方法將數據映射到更有益于分類的空間,獲得特征向量β。
在模式識別領域,特征融合得到了廣泛的應用,對不同來源、不同模式、不同媒質的信息進行綜合能得到對象更加精確的描述[13],實現特征信息互補,降低單一特征固有缺陷的影響[14]。本文選用簡單的串行融合的方法,在SVM分類器前進行特征融合,如式(7)所示。
f=[α′β′]
(7)
對特征向量α和β做最大最小值標準化后獲得α′和β′,串行特征融合將上述特征向量直接合并為一個新的向量,特征維數變為α′和β′特征維數之和,將f作為融合特征輸入SVM分類器。
實驗采用NC、SMC、AD三類,sMRI和fMRI兩種模態的數據進行兩兩分類實驗,從樣本中選擇70%的數據作為訓練集,剩余30%的數據作為測試集。結果使用準確率(Accuracy)、精確率(Precision)、召回率(Recall)表示,準確度評估判斷正確占全體測試集的比例,精確率評估診斷為某類正確的概率,召回率評估某類樣本中判斷正確的概率。
(8)
(9)
(10)
式中:tp代表正確分類為正類的個數;tn代表正確分類為負類的個數;fp代表錯誤分類為正類的個數;fn代表錯誤分類為負類的個數。
分別選用上述方法處理實驗數據,獲得融合特征,并使用SVM作為分類器獲得分類結果。為了證明融合特征的優越性,本文對比了單模態特征的分類結果,同樣使用SVM分類器。fMRI和sMRI模態分類結果如表1和表2所示,兩模態特征融合結果如表3所示,實驗具體參數如表4所示。

表1 fMRI分類結果(%)

表2 sMRI分類結果(%)

表3 融合實驗結果(%)

表4 實驗參數

續表4
表1中展示了fMRI特征提取方法中使用和不使用時間窗的對比結果,可以看出,使用時間窗法能構建更有效的模型,并充分挖掘卡方檢驗定位病灶區功能連接的時間信息。通過選取恰當的步長和窗寬(參數請見表4),可以獲得受噪聲干擾較少,同時含有較多時間信息的特征。不論是AD/NC、AD/SMC,還是NC/SMC,分類準確率、精確率、召回率均有顯著提高,準確率較不使用時間窗法分別提高16百分點、17.6百分點和9.1百分點,證明了特征提取過程增加時間窗法的有效性。同時,實驗結果從側面證明,靜息態時大腦仍存在活動,且這種腦部自發活動對計算機輔助阿爾茨海默病診斷有積極意義,在特征選擇中增加時間窗有助于充分利用病灶區數據。
表2展現了單獨使用sMRI數據進行輔助診斷的分類效果,顯而易見,在LDA前增加SVM-RFE后,分類準確率較僅使用LDA均有所提高,這是由于RFE過程篩選出更有益于SVM分類器分類的特征,減少無關特征對分類結果的干擾。觀察準確率提升情況,AD/SMC和NC/SMC分類準確率、精確率、召回率均有顯著提升,就準確率來看,提升達到17.6百分點和13.6百分點,而AD/NC的提升僅為4百分點,這種情況可能源于SVM-RFE定位到患者在SMC階段出現的一部分代償性變化[1]腦區。
融合算法在一定程度上豐富了患者的信息,實現了信息互補,AD/NC、AD/SMC和NC/SMC的分類準確率較單一模態提高4百分點、5.9百分點和4.6百分點,使患病情況的定位更加準確。與此同時,特征融合避免了fMRI分類算法在NC/SMC分類上的弱勢。
綜上所述,特征融合決策在輔助診斷中更具優勢,有更高的準確率和魯棒性,能為阿爾茨海默病的診斷提供幫助。
本文分別論述并分析了兩種模態數據特征提取方法的優勢和步驟,與此同時選用串行融合的方法做信息融合并分類。共進行三組實驗,分別為AD/NC、AD/SMC、NC/SMC。fMRI分類結果顯示,時間窗是豐富樣本信息提高分類效果的有效方法,sMRI分類結果顯示,RFE在去除干擾信息方面有突出貢獻。通過對單模態和融合兩種模態特征分類結果的比較發現,融合算法更具優勢,對AD及其早期診斷有積極的指導意義。本文為AD的計算機輔助診斷提供了新思路和新方法,將來的研究重點是尋找更具優勢的信息融合策略,并進一步改進特征提取和分類方法。