朱 琳,于海濤,雷新宇,劉 靜,王若凡
(1. 天津大學電氣自動化與信息工程學院,天津300072;2. 唐山市工人醫院神經內科,河北唐山063000; 3. 天津職業技術師范大學信息技術工程學院,天津300222)
阿爾茨海默癥(Alzheimer’s Disease,AD)是目前全世界影響最廣的神經系統疾病之一[1],伴隨包括喪失記憶、思考和語言能力等癥狀,病程緩慢且具有不可逆性,因此AD的早期診斷是神經系統疾病研究的重點。AD往往伴隨著大腦神經組織的病變和損傷,以及神經電信號、腦組織異變等現象,如AD患者的腦組織中出現β淀粉樣蛋白沉積等生物標志物[2-4],此類標志物通常可通過腦電圖、磁共振成像等神經影像學技術檢測[5-8]。對于此類大量的神經影像學資料,診斷過程均需要醫生手動標識,耗費大量時間以及勞動力。此外,人工診斷結果存在主觀性,往往受限于醫生的經驗而出現誤診的情況[9-11]。
采用機器學習算法對AD 患者的腦部成像進行分析以及標記可以忽略先驗知識的需要,并大大減少診斷所需時間。Trambaiolli 等[12]應用支持向量機(Support Vector Machine,SVM)來識別AD 患者,并采用雙極峰的辦法識別腦電(ElectroEncephaloGram,EEG)信號的特征。?evik 等[13]提出了一種基于全自動體素的核磁共振成像(Magnetic Resonance Imaging,MRI)分析算法,可用于AD 早期階段和輕度認知障礙的輔助診斷。然而基于單一維度的腦部成像往往會忽視大腦不同腦區之間的相互作用,而腦網絡可以反映不同腦區電生理活動的特征,并量化其相互耦合的情況,目前廣泛應用于大腦成像的研究當中。如Stam 等[14]從AD 患者的腦電圖和功能性核磁共振圖像靜息狀態數據中提取出功能網絡,發現其小世界特征的丟失。
MRI是一種能夠以高分辨率捕獲大腦解剖細節的腦成像技術,被廣泛應用于AD 臨床診斷及研究當中[15-16]。傳統的基于MRI 的計算機輔助診斷系統是基于特定目標區域的,這種方法主觀性較強,重復性較差[17]。本文將結合計算機分析與功能網絡構建,將MRI 圖像等分為多個結構塊并量化其結構相似性(Structural SIMilarity,SSIM)構建網絡,再采用多分類器進行特征識別。
本文使用的MRI圖像數據來自阿爾茨海默癥神經影像學倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)數據庫,采用了ADNI-1 的標準基準庫中的217 個實驗對象的1.5 TB MRI 圖像。這217 個測試對象包括108 個AD 患者和109個正常人,隨機選取其中80個AD患者和80個正常人構成數據集。
實驗數據來源之間存在一定個體差異,本次實驗中使用的160 位測試對象的MRI圖像在位置、腦部形狀、腦部大小上存在比較明顯的差別,所以需要進行預處理,從而保證后續對各實驗對象的MRI圖像數據進行分析和比較的有效性。數據預處理過程包括:時間層校正、頭動校正以及標準化。
1)時間層校正:為了消除各個掃描層之間采集時間的差異,在保持整段采集信號恒定的前提條件下,通過移動采集信號的正弦相位,前移或后移采集的起始時間進行時間層校正。由傅里葉變換公式

在每個頻率的相位中加入一個常值,可實現采集數據起始時間和結束時間的移動。
2)頭動校正:為了消除受試者頭動位移導致的MRI 掃描異形,把MRI圖像序列中各層圖像按照第一層對齊,然后根據被試對象的頭動數據進行判斷,頭動若超過一個體素,則棄用該MRI 圖像測試例。處理結果發現,AD 組有2 個對象的頭動情況超過正常范圍,正常組有1 個頭動情況超過正常范圍,篩選得到78個AD患者和79個正常對照的MRI圖像。
3)標準化:將圖像配準到MNI152 模板上,通過將不同形狀及大小的實驗對象的頭部置于標準的空間里,實現一個公用的物理坐標系,便于對大腦進行精確的描述。
本文提出將腦網絡特征識別方法應用于MRI圖像的分析當中。結構塊劃分以及腦網絡構建的過程如圖1 所示。首先將預處理后的全切層MRI 圖像依照掃描順序對齊疊放在一起,可以得到維度為81×96×81 的三維矩陣;進一步將三維矩陣劃分為多個結構塊,以3×3×3的劃分方法為例,結構塊之間無重疊則可以劃分得到大小為27×32×27 的27 個結構塊;接下來將結構塊視作網絡節點,通過計算任意兩個結構塊之間的結構相似性構造連接矩陣,進而構建基于MRI的腦網絡。
SSIM 是一種直接評估兩幅圖像之間相似性的方法,通過比較兩幅圖像之間結構信息的差異造成的圖像失真程度,得到客觀的評價指標。對圖像x和y,x的平均值為μx,方差為σx,y的平均值為μy,方差為σy,σxy為x和y的協方差,則SSIM定義為:

其中:l(x,y)代表亮度比較;c(x,y)代表對比度比較;s(x,y)代表結構比較;c1、c2、c3為常數項,計算中一般設定為α=β=γ= 1,c1=(0.001 ×L)2,c2=(0.003 ×L)2,c3=c32,其中L為像素值的動態范圍。SSIM 具有對稱性,即SSIM(x,y) =SSIM(y,x)。因此,由定義可知SSIM 的取值范圍為[0,1],其值與相似性成正比,值越大表示兩幅圖像之間的相似性越高,當兩幅圖像完全一樣時,SSIM值為1。
通過遍歷計算任意兩個結構塊之間的結構相似性指數,可以得到結構相似性矩陣,構建加權網絡。設定比例閾值為0.3,對各矩陣保留各自前30%的高相似性值,其余的值置零,可構建得到以結構塊為節點的加權復雜網絡,并通過二值化得到無權網絡。

圖1 腦網絡構造示意圖Fig. 1 Schematic diagram of brain network construction
圖論是分析網絡特性的重要研究工具,它通過提取網絡的特征參數來量化網絡的特性,本文將從基于結構相似性獲得的網絡中提取加權網絡和無權網絡的結構參數(全局效率、聚類系數、局部效率、節點介數、邊介數)。
假設一個具有N個節點的網絡,集合G表示所有節點。定義一個鄰接矩陣A來描述節點之間的連接關系,則節點i和j的連接用aij來表示(aij= 1 表示有連接,aij= 0 表示沒有連接),邊的權值為wij。節點i和j的最短路徑長度可以表示為:

其中gi?j表示節點i到節點j最短的路徑。
節點i的全局效率定義為最短路徑長度的倒數,即

那么網絡的平均全局效率定義為:

單個節點的局部效率定義為:

網絡的平均局部效率定義為:

聚類系數是評估網絡聚集的重要參數,對于無權網絡,節點i的聚類系數的計算公式為:

其中:Ki是節點 i 的度,計算公式如式(13);ti表示節點 i 與它鄰接節點j、h可以形成的三角形的數量,計算公式如式(14)。

全局效率以及聚類系數衡量了網絡的信息傳遞能力,也在一定程度上反映了網絡的安全性和穩定性。
節點介數定義為網絡中所有最短路徑中經過該節點的路徑的數目占最短路徑總數的比例:

邊介數定義為網絡中所有最短路徑中經過該邊的路徑的數目占最短路徑總數的比例:

將網絡特征參數輸入到機器學習模型進行訓練,不同的機器學習模型具有不同特點,對不同類型的輸入數據適應性存在差異,因此本文中采用多種機器學習算法并對識別結果進行比較,同時對單一特征輸入以及多特征組合輸入進行比較,采用的算法包括 TSK 模糊分類器[18]、K 近鄰(K-Nearest Neighbor,KNN)分 類 器[19]、支 持 向 量 機(Support Vector Machine,SVM)分類器[20]以及樸素貝葉斯(Na?ve Bayesian,NB)分類器[21]。TSK 利用多個模糊規則對模型進行表征,具有可解釋性高以及泛化性好高等優點;KNN 分類器是一種基于距離計算進行分類的算法,計算效率高;SVM通過構建一個或者多個高維的超平面來對樣本數據進行劃分,應用普遍且更加直觀;NB分類器以貝葉斯定理為基礎假設數據樣本特征完全獨立,是一種基于概率計算的分類器。
將預處理之后的MRI 圖像疊放并進行結構塊劃分,進一步利用SSIM 量化結構塊之間的結構相似性,得到連接矩陣,并通過選取閾值構建以結構塊為節點的加權網絡以及無權網絡;再利用圖論提取網絡的特征并進行統計分析,研究AD 對于網絡整體結構特性的影響,并進一步傳遞給多個分類器進行模型訓練以及分類,探討可能對分類產生影響的參數。
對所有AD 患者和正常對照的結構相似性矩陣的均值進行單因素方差分析組間差異,統計結果顯示AD 組為0.253 1±0.088 1,正常對照組為 0.270 3±0.067 5。AD 組的平均值略小于正常對照組,單因素方差分析結果顯示p >0.1,表示AD和正常對照之間不存在明顯的組間差異,因此患病可能沒有對MRI整體結構相似性產生明顯影響。
進一步應用圖論分析法分析腦網絡結構特性。利用單因素方差分析分別以全局效率、聚類系數、局部效率、節點介數、邊介數作為參數來分析AD 和正常對照之間的組間差異。統計結果如圖2(加權)和圖3(無權)所示,圖中“*”表示p在0.05水平上具有顯著性差異(p < 0.05),“△”表示p在0.01 水平上具有顯著性差異(p <0.01)。對于加權腦網絡(圖2),AD組的全局效率、聚類系數、局部效率平均值均略微大于正常對照組,以上參數的單因素方差分析結果為p >0.05,表示AD和正常對照之間不存在顯著差異。AD 組的節點介數大于正常對照組(p < 0.01),邊介數相較正常對照組有所減小(p < 0.05),節點介數和邊介數均存在顯著性差異。對于無權腦網絡(圖3),AD 組的全局效率、聚類系數平均值均略微大于正常對照組,AD 組邊介數較正常對照組略微減小,以上參數的單因素方差分析結果為p >0.05,表示全局效率、聚類系數、節點介數在AD和正常對照之間不存在顯著差異。AD組的局部效率大于正常對照組(p <0.05),節點介數相較正常對照組有所減小(p <0.05),局部效率和邊介數均存在顯著性差異。

圖2 加權網絡特征參數統計箱形圖Fig. 2 Boxplots of weighted network feature parameters statistics

圖3 無權網絡特征參數統計箱形圖Fig. 3 Boxplots of unweighted network feature parameters statistics
結構參數的分析結果顯示AD 患者腦網絡的結構相較對照組存在差異,為了進一步分析這種建網方法的可行性以及比較不同網絡特征參數的識別效果,采用機器學習分類器來對腦網絡參數進行識別。考慮到不同分類方法對于參數的適應性不同,采用不同的分類方法可能會對識別效果產生影響,因此采用多種通用的分類器分別進行隨機抽樣來完成腦網絡參數的識別以選擇更優的分類算法。使用的分類方法包含TSK 模糊分類器、KNN、SVM、NB,分別對AD 的加權腦網絡和無權腦網絡進行特征識別。由于同時采用多種分類器進行驗證,為了避免交叉驗證中倍數的選擇對不同模型的驗證結果可能產生的影響,采用隨機抽樣驗證。訓練時首先將數據集劃分為訓練集和測試集,每次訓練將隨機提取60 例AD 和60例正常人對照的MRI圖像構成訓練集,其余的構成測試集;接下來將訓練集輸入到不同的分類器進行訓練學習,并用測試集檢驗該分類器對AD 腦網絡的識別效果。為保證不出現極端測試情況,針對不同的分類器以及輸入參數,此過程均將循環500 次并對分類準確率分別取平均。為保證調參的精度,通過網格搜索法對各個分類器參數進行自動優化,最終分類結果如表1所示。
對于加權和無權腦網絡,各個分類器均在采用邊介數時取得最佳的AD 識別準確率(加粗顯示于表1 中)。前文中網絡參數的統計分析顯示邊介數呈現出的差異較大,這種差異同樣體現于識別結果中。同樣對于加權和無權網絡,單一參數識別率最高的分類模型均為SVM 分類器,加權網絡的邊介數分類準確率為78.42%,無權網絡的邊介數分類準確率為90.05%。多參數進一步考慮雙參數作為輸入向量,分類結果如表2所示。

表1 加權網絡及無權網絡參數單一輸入分類結果Tab. 1 Classification results of weighted network and unweighted network with one parameter as single input

表2 加權網絡及無權網絡參數多輸入分類結果表3 Classification results of weighted network and unweighted network with parameters as multiples inputs
表2 的結果顯示多參數作為輸入向量時分類效果優于單一輸入,對于加權腦網絡,各個分類器均在采用節點介數和邊介數時取得最佳的AD識別準確率(加粗顯示于表2中),TSK、KNN、SVM 和 NB 的最高識別率分別為 90.66%、89.43%、91.04%和84.17%,其中SVM 對AD 識別的準確率最高,NB的識別準確率最低。同樣,對于無權腦網絡,各個分類器均在采用節點介數和邊介數時取得最佳的AD 識別準確率(加粗顯示于表2 中),TSK、KNN、SVM 和 NB 的最高識別率分別為94.51%、93.89%、94.09%和89.11%,其中TSK 對AD 識別的準確率最高,NB 的識別準確率最低。此外,各分類器對無權腦網絡特征的識別準確率均高于其對加權腦網絡的識別準確率。根據多分類器的分類結果,可以得到結論,AD 與正常人腦網絡特征中的節點介數和邊介數為最有效組合特征。同時對于結構相似性網絡,其參數作為雙特征輸入時模型的分類效果最好,參數輸入增加后會產生過擬合降低分類準確性。因此如圖4所示,將AD 和正常人腦網絡的節點介數和邊介數映射到二維平面上。結果表明,對于結構相似性網絡以節點介數和邊介數為組合時,AD和正常對照之間展現了很高的分離度,同時無權網絡的樣本分布更為密集,分離度更高。
為了分析結構塊化劃分方式對網絡特性的影響,考慮將全切層(81×96×81)MRI 圖像分別劃分為16、27、42、54 個結構塊,采用SSIM 衡量結構塊之間的結構相似性,得到結構相似性矩陣,設定比例閾值0.3,對四種分塊方法均保留各自前30%的高相似性值,其余的值置零,分別構建加權網絡和無權網絡,并計算加權和無權網絡的全局效率、聚類系數、局部效率、節點介數、邊介數,最后分別采取前文中分類效果最優的分類器以及輸入參數對四種結構塊劃分方法進行腦網絡參數識別,對AD的腦網絡特征識別結果如圖5所示。

圖4 邊介數vs. 節點介數分布圖Fig. 4 Distribution maps of node betweenness vs. edge betweenness
圖5 (a)中統計分析表示在選取16、27、42、54 結構塊劃分加權網絡時,TSK 模糊分類器對單一或特征組合識別的統計,其中圓點為均值,并附有誤差帶,同理圖5(b)為無權網絡統計分析結果。由圖5 可知,當將MRI 圖像劃分為27 個結構塊時能取得最佳的識別結果,并且隨著分塊數量增多,TSK 模糊分類器對AD 的識別準確率下降。推測劃分的結構塊體積過小會導致結構之間相似性降低,結構相似性矩陣中元素值較小且分布集中,所構建的腦網絡隨機性大,特征識別結果差。

圖5 不同劃分方法下分類準確率Fig. 5 Classification accuracy of different division methods
本文提出了一種基于MRI 圖像構建AD 的結構相似性網絡的新方法,并提取了腦網絡的結構特征參數,結合機器學習算法對AD 進行精準識別。本文方法已實現對AD 樣本和健康受試者的識別,且識別正確率高,驗證了這種構網方法的有效性。未來希望將所提出的方法進一步應用于AD 的早期診斷上,即包含輕度意識障礙在內的腦網絡特征識別,受限于腦電數據采集的有限性,仍需進一步實驗驗證將腦網絡與機器學習方法相結合在識別輕度意識障礙時的有效性,并通過后續實驗發現更多的可用于結構相似性網絡的特征。