劉鴻麗 秦小麟 曹銳 陳俊杰 劉峰 郭浩



摘要:功能腦網絡中不同的模板定義導致網絡規模差異極大,進一步影響所構建網絡的結構及其拓撲屬性。但是,在機器學習方法中網絡規模差異是如何影響特征選擇策略及分類準確率并不清楚。研究中采用5種不同節點規模的模板進行腦網絡構建,在此基礎上選擇腦網絡的三個局部特征用SVM方法構建分類器進行抑郁癥患者的識別。結果表明,節點規模較大的模板的分類準確率較高;同時,在不同節點規模下傳統的P值的特征選擇方法均是可行的,但其閡值設置過于嚴格。
關鍵詞:功能腦網絡;特征選擇;特征分類;節點規模;分類器;實驗分析
中圖分類號:TN915-34;TP181
文獻標識碼:A
文章編號:1004-373X( 2019) 24-0158-05
0 引言
近年來,隨著功能腦網絡研究的深入,越來越多的研究人員發現功能網絡的豐富拓撲結構信息可用作各種神經精神類疾病的生物學標志[1-2]。而所提取的網絡拓撲特征被廣泛應用于分類模型的構建中,以此進行腦疾病的輔助診斷。先前的研究中所選擇的拓撲屬性特征通常包括全局屬性、局部屬性[3]、社團結構[4]等。一些研究人員提出了新的網絡特征分析方法,并應用在腦疾病的機器學習研究中,如超圖”,、高序網絡、最小生成樹[6]、頻繁子圖[7]等。腦網絡拓撲屬性特征為磁共振影像與機器學習的結合研究提供了新的視角。
目前,這個領域仍在探索階段,許多方法論的問題有待解決。其中一個重要的問題便是如何進行合理的模板選擇以定義網絡的節點。先前的研究發現,采用不同的腦網絡分割模板而導致的不同的節點規模,對所構建網絡的結構及其拓撲屬性會產生很大的影響。此外,節點規模對網絡的影響還體現在以網絡拓撲屬性作為特征的分類中。將不同節點數量中網絡的異常特征應用到機器學習中,也會對分類準確性造成影響。在為數不多的研究中,文獻[8]用AAL-90(90個節點)和AAL-1 024(1 024個節點)兩個模板研究抑郁癥患者的識別性能,結果發現AAL-1024模板的識別性能優于傳統模板AAL90;文獻[9]用AAL(90個節點)和LPBA40(54個節點)兩個模板來研究腦模板和特征選擇對阿爾茨海默病預測的影響,得到的結論是節點數量少時分類準確率低。前人研究驗證了網絡節點數量會對分類準確率產生影響,而且他們的結論是一致的:節點數量多的模板的準確率是要高于節點數量少的模板。但是,上述工作存在的潛在問題是使用的模板數量不多(只有兩個),結果缺乏可對比性。此外,上述研究選用了P值作為特征選擇方法(閾值設置為0.05或0.01),忽略了其他特征對分類的可能貢獻。
在此背景下,本文以抑郁癥為疾病模型,采用5個不同節點分割,分別構建、分析靜息態功能腦網絡并提取具有組間差異的網絡局部拓撲屬性作為可判別性分類特征應用到分類器,研究節點規模對于特征選擇策略、分類準確率的影響。
1 實驗材料
研究中共有66名被試,其中有38名首發、無用藥、重度抑郁癥患者作為抑郁組,28名年齡性別匹配的健康志愿者作為對照組。實驗前同每位參與者(對照組與本人,抑郁組與家屬)均達成了書面協議。被試的基本信息如表1所示。表中,數據范圍為最小值至最大值(平均值+標準差);HAMD為24項漢密爾頓量表值;aP值由雙樣本雙尾T檢驗獲得;bp值為由雙尾皮爾遜卡方檢驗獲得。
研究中數據的采集工作是在山西醫科大學第一醫院完成的,所有的掃描工作由熟悉磁共振操作的放射科醫生來完成。在掃描的過程中,要求被試閉眼、放松、不去想特定的事情,但要保持清醒不能睡著。掃描的參數如下:射頻重復時間(TR)=2 s,存儲矩陣=64 mmx64 mm,回波時間(TE)=30 ms,層間間隔=0 mm,層厚=4.0 mm,成像視野(FOV)=192 mmx192 mm。使用DPARSF軟件進行數據預處理。首先棄除頭動大于3 mm或轉動大于3。的被試數據,然后根據標準的EPI模板將圖像在MNI標準空間上進行空間標準化,最后進行線性去模糊和低頻帶通濾波( 0.01-0.10 Hz),以降低低頻漂移及高頻的生物噪聲。
2 腦網絡的構建
每個被試的腦網絡構建過程包括節點定義與邊的定義。
2.1 節點的定義
采用K-means聚類算法得到不同節點數量的分割模板。K-means聚類的隨機種子體素法是基于AAL模板細分大腦區域,以定義不同的分割。具體方法如下:
1)選擇250個,500個,1 000個和1 500個節點作為預期節點數目。用原始的90個節點的AAL模板,總共獲得5個不同的分割模板。
2)計算原有AAL模板中每個腦區占所有腦區的體素比例V。然后,得到AAL原有腦區可細化的子區域的個數k= VN。
3)在原有腦區中設置k個隨機種子體素S=S1,S2,…,Sk。然后計算一個新的體素v與所有的后個種子體素之間的距離。
4)計算距離后,將當前體素v與最近體素si結合,定義新的子區域,將v和si的物理中心設置為新的種子體素。
5)重復上述步驟,直到全腦的所有體素都分開為止。此時,大腦區域被分成k個區域,當所有腦區完成劃分后,即可得到預期節點規模Ⅳ下的腦區劃分。
研究完成了5種節點規模的定義,標記為AAL90,Parc256,Parc497,Parc1003和Parc1501。前綴AAL旨在表示原始的AAL模板,前綴Parc表示使用上述算法確定的模板。
2.2 連接定義和閾值選擇
采用皮爾遜相關系數計算兩個節點之間的平均相關系數,表示兩個節點之間的相關性,進一步作為網絡中節點之間邊的定義。通過對每個節點的平均時間序列的計算,產生Ⅳ×Ⅳ相關矩陣。這里,Ⅳ是給定分割中的節點的數量,數學定義如下:n表示模板中的節點數量。
在目前的研究中,根據預定的閾值,將相關矩陣轉換成二進制矩陣。通過稀疏度S進行閾值設置,5是實際存在的邊數與可能存在的最大邊數的比值。稀疏性定義方法在以前的類似研究中廣泛采用。為了在統一的空間內進行比較,采用90個節點下的閾值空間S( 5%,40%)為標準,并且在該閾值空間內以步長為0.5的所有稀疏度下,構建所有被試的腦功能網絡,每個被試均有8個不同稀疏度的網絡。
2.3 網絡指標
網絡指標是從不同層面刻畫網絡的拓撲屬性。在當前的研究中,選擇了三個局部指標,包括度、節點效率和中間中心性。
2.3.1 度
度為腦網絡中與該節點之間有連接的節點總數,表示該節點在腦網絡中的連通性。節點i的度k(i)數學定義為:
網絡中節點m與節點n有多條連接路線。式中:σmn表示節點m與節點n連接中的最短路徑的條數;σmn(i)表示節點m與節點n的連接中經過特定節點i的最短路徑的條數。
為了表征指標在完整稀疏度空間下的整體特性,本文計算了每個指標的曲線下面積(Area Under theCurve,AUC)。AUC提供了一種測量網絡節點屬性在不同稀疏下總的變化強度的方法。該方法已應用在研究中,同時有過相關報道,并被證明其對腦網絡拓撲屬性的改變是非常敏感的。AUC的數學公式如下:
3 特征選擇及分類器
本文研究中選擇度、中間中心度和節點效率三個局部指標作為特征。為了找到特征的最優子集,避免過度擬合,提升模型性能,更快地訓練分類器,需要在分類前進行特征選擇。選擇統計顯著性P值作為分類特征選擇方法(P<0.05,FDR校驗)。
由于SVM方法對小樣本數據具有良好的分類效果,選擇它作為分類器[10]。它是基于Matlab的LIBSVM工具包進行分類,并且使用10折交叉驗證(10-FoldC ross Validation)的方法來評估分類器的泛化性能。具體的過程是將所有的被試隨機分成10等分,逐一將其中的一等分作為測試集,剩余的9等分是訓練集,最后對10次結果的均值作為對分類器性能評估。同時,為了得到更精確的結果,本實驗進行100次10折交叉驗證,最后對100次的結果求均值得到最終的結果。
4 分類特征評估
為了評估所選特征與分類器的關聯性,研究中采用了最大相關最小冗余(minimum Redundancy MaximumRelevance,mRMR)算法[11]。此方法通過互信息來判斷特征與類別之間的關聯程度以及特征間的相似程度,以評估特征有效性。其中,MID指標代表最大相關與最小冗余的差,即信息差。R指標為判別性特征之間依賴性關系的一種描述,它要求每個判別性特征之間的相關性最小,即最小冗余原則。最大相關與最小冗余的術語表見表2。表2中:,表示兩個變量的互信息;D表示判別性特征與類別之間的互信息值;h表示數據集的類別,l引表示判別性特征集的個數;R表示特征間的冗余性。研究中選擇mRMR作為分類特征的評估方法是基于Matlab平臺的mRMR工具包。
5 實驗結果與分析
5.1 特征選擇與分類結果
本實驗使用重度抑郁癥數據分別構建了5個節點規模的功能連接網絡,并且將網絡的度、中間中心度、節點效率三個局部屬性定義為特征。對于不同的腦網絡節點數量,將不同稀疏度下的局部屬性使用AUC值統一后,分別得到的特征數量總數為270 (AAI90),768(Parc256),1 491 (Parc497),3 009 (Parc1003)和4 503(Parc1501)個。研究中,選擇統計顯著性P值作為特征選擇方法,選擇具有顯著差異的局部拓撲屬性作為判別性特征(P<0.05,FDR校驗)。多節點規模下辨別性特征的數量與分類器的準確率,敏感性及特異性如表3所示。結果表明,隨著網絡節點數量的增多,每種局部屬性的判別性特征的數目隨之增加,而且分類器的分類準確率也呈上升趨勢。表中:D(Degree)表示度;NE(NodeEfficiency)表示節點效率;BC( Beteenness Centrality)表示中間中心性。
5.2 P值特征選擇方法
為了驗證統計顯著性P值作為5個模板的特征選擇方法的表現,研究中對每個規模分別進行了特征的P值與MID值的關聯分析。結果表明,所有規模中,P值與MID值二者均存在顯著負相關,如圖1所示。圖1表明,利用統計顯著性P值進行可判別性特征選擇與機器學習方法同樣有效,同時其并不受節點規模差異的影響。
此外,為了分析全部特征的分類表現,并發現最優特征子集,文中對所有特征按照P值進行排序,并以3為步長遞增進行特征篩選,之后將所得特征用以訓練分類模型。考慮到計算消耗,每個特征子集的分類重復5次。多個節點規模下不同特征數量對應的平均分類準確率如圖2所示。結果表明,所有尺度均表現出類似的趨勢。同時,隨著初期特征數量的增加,分類準確率會持續上升。之后隨著所增加的特征的有效性降低,分類準確率逐步下降。特別是,當把每個尺度的所有特征全部作為分類特征進行分類器構建時,準確率均為50%左右。
同時,5個尺度的分類結果均體現出傳統方法中對P值的閾值設定0.05,并非最優值。圖中虛線表示P=0.05時的特征數目對應的分類準確率,且分類準確率仍處于上升期。圖中黑色最高準確率對應的特征數及近似P值分別為:39/0.162,111/0.119,204/0.115,324/0.096及654/0.126,這一結果暗示著,以P<0.05作為特征篩選的閾值過于嚴格,以致無法得到最高準確率。最優特征子集的構建是一個復雜的問題,這一問題涉及到特征數目、特征選擇的方法、特征的有效性等方面。而特征數目對分類器性能,同樣具有重要作用。從統計學角度,P<0.05的閾值設置能夠充分保證所篩選的特征具有顯著的統計學意義。但是,不得不說,這一設置從機器學習角度而言,顯得過于嚴格,以至于所得到的特征較少,應該考慮更為寬松的閾值設置。
6結語
在機器學習方法中,研究分析了網絡規模差異是如何影響分類準確率及特征選擇策略。在利用P<0.05為特征選擇策略時,研究發現更大的網絡規模所帶來的分類準確率是更高的。同時,研究中在不同節點尺度下傳統的P值的特征選擇方法均是可行的,這一假設得到驗證。值得注意的是,P<0.05的閾值設置,能夠充分保證所篩選的特征具有顯著的統計學意義。但是,不得不說,這一設置從機器學習角度而言顯得過于嚴格,以至于所得到的特征較少,應該考慮更為寬松的閾值設置。
參考文獻
[1] GARETH B,LIBUSE P,ANDREW C,et al.Thalamocorticalconnectivity predicts cognition in children born preterm [J]. Ce-rebral cortex. 2015. 25: 4310-4318.
[2] HAN K,MAC DONALD C L,JOHNSON A M. et al.Disrupt-ed modular organization of resting-state cortical functional con-nectivity in U.S. military personnel following concussive' mild'blast - related traumatic brain injury [J]. Neuroimage. 2014,84:76-96.
[3] GARRISON K A. SCHEINOST D. FINN E S. et al. The sta-bility of functional brain network measures across thresholds[J]. Neuroimage , 2015 . 118 : 651-661.
[4]李越.郭浩,陳俊杰,等,抑郁癥功能腦網絡社團結構差異分析研究[J].計算機應與軟件 , 2013( 7) : 52-56.
LI Yue. GUO Hao, CHEN Junjie, et al. Differences in associ-ation structure of functional brain network for depression [J].Computer application and software. 2013(7) : 52-56.
[5] JIE B, WEE C Y, SHEN D. et al. Hyper-connectivity of func-tional networks for brain disease diagnosis [J]. Medical imageanalysis, 2016, 32: 84.
[6] TEWARIE P. HILLEBRAND A, SCHOONHEIM M M. et al.Functional brain network analysis using minimum spanningtrees in multiple sclerosis : an MEG source - space study [J].Neurolmage, 2014( 88) : 308-318.
[7] JIE B, ZHANG D. GAO W, et al. Integration of network topo-Iogical and connectivity properties for neuroimaging classifica-tion [J]. IEEE transactions on biomedical engineering, 2014,61(2) : 576-589.
[8] JING B, LONG Z, LIU H, et al. ldentifying current and remit-ted major depressive disorder with the Hurst exponent : a com-parative study on two automated anatomical labeling atlases [J].Oncotarget, 2017( 8) : 904-912.
[9] OTA K, OISHl N. ITO K. et al. Effects of imaging modali-ties. brain atlases and feature selection on prediction of Al-zheimerWs disease [J]. Journal of neuroscience methods. 2015( 14 ) : 217-225.
[10] FEI Y, YUAN L X. FU S L. et al. An improved chaotic fruitfly optimization based on a mutation strategy for simultaneousfeature selection and parameter optimization for SVM and itsapplications [J]. PLOS ONE. 2017. 12(4) : 14-16.
[11] ZHANG N, ZHOU Y. HUANG T. et al. Discriminating be-tween lysine sumoylation and lysine acetylation using mRMRfeature selection and analysis [J]. PLOS ONE. 2014(9) : 142- 151.
作者簡介:劉鴻麗(1992-),女,山西呂梁人,碩士,研究方向為人工智能、智能信息處理與腦影像學。