段逸凡,王瑜,付常洋,肖洪兵,邢素霞
北京工商大學人工智能學院,北京 100048
抑郁癥是最常見的抑郁障礙,以顯著而持久的心境低落為主要臨床特征,是心境障礙的主要類型,據世衛組織統計,目前全球約3 億人患有抑郁癥[1]。醫生對抑郁癥的診斷標準一般依照《國際疾病分類》第10 版(ICD-10)[2]和美國《精神障礙診斷與統計手冊》第4版(DSM-IV)[3]。
Huang 等[4]粗略統計,在我國抑郁癥的終身患病率為6.9%。根據該統計數據進行估算,到目前為止,我國患有泛抑郁癥狀的人數約有9 500 萬,預防控制抑郁癥成為我國醫療衛生工作的重點之一[5]。在抑郁診斷中,醫生一般只能通過對患者進行某些特定問題的提問來進行診斷,診斷結果往往會受到醫生的主觀影響。磁共振成像技術能揭示大腦的結構與功能改變情況,抑郁障礙的基礎病理機制是可塑性功能紊亂[6],因此可結合形態學測量方法,深入分析抑郁癥引起的灰白質比例、密度、腦葉及腦室形態等改變。Bora 等[7]對重癥抑郁癥灰質的改變進行Meta分析,重癥抑郁癥患者雙側前扣帶回皮質、右側額中回、額下回、右側海馬及左側丘腦等腦區灰質體積明顯降低,背外側和背中線的前額皮質灰質減少,并在多次發作的患者中更明顯。還有證據證明,抑郁癥自殺患者也存在額葉-紋狀體環路相關腦區的異常[8-9]。以情緒異常為例,抑郁癥情緒相關回路上突觸連接受損,突觸內穩態失衡,其中涉及到若干紊亂的情緒神經回路,回路之間相互關聯且錯綜復雜,除情緒加工異常外,抑郁及相關障礙由若干不同內表型構成[10-12]。有研究認為,抑郁癥患者的默認模式網絡(Default Mode Network,DMN)與前扣帶回膝下部和背外側前額皮層連接增強,是抑郁癥情緒功能失調的特異性功能表征,抑郁癥的心理行為表現與神經系統的結構、功能異常關系密切,主要涉及海馬、前額皮層、杏仁核等幾個重要腦區[13]。不同腦區異常對應著不同的抑郁癥評估結果,為了輔助醫生更好更準確地進行臨床診斷與治療方案的設制,目前很多研究者使用單模態磁共振成像(Magnetic Resonance Imaging, MRI)數據進行抑郁癥分類。針對功能磁共振成像(functional MRI,fMRI),溫洪等[14]基于廣泛使用的自動解剖模板構建腦網絡,發現抑郁癥患者腦網絡的特征路徑長度和腦區的度、中間中心度等屬性與正常人有明顯差異。付常洋等[15]使用功能腦網絡提取fMRI 數據并進行分類,實驗結果顯示診斷效果顯著。針對結構磁共振成像(structural MRI,sMRI),由于深度學習的廣泛使用和優秀表現,基于ADNI-Transfer 遷移學習方法[16]的三維密集連接深度學習網絡[17]被設計和提出,并用來進行特征提取,實現抑郁癥的準確分類。
由于多模態數據融合方法能夠提取到更多的有效信息,He 等[18]結合多集典型相關分析(Multi-Set Canonical Correlation Analysis, MCCA)和聯合獨立成分分析(Joint Independent Component Analysis,JICA)的方法進行特征融合,最后輸入分類器進行分類,結果顯示多模態數據融合能夠提取更加豐富完備的特征,明顯優于單一模態特征的準確率。因此,本文將fMRI 數據與sMRI 數據信息進行融合,提出基于取fMRI 和sMRI 雙模態數據融合的抑郁癥分類算法,期望可以提取MRI 數據中更豐富的信息,以實現對抑郁癥患者與健康對照組更加準確的分類,從而更好地輔助醫生進行抑郁癥臨床診斷。首先利用功能腦網絡和深度學習網絡分別提取fMRI 和sMRI數據特征,并計算類概率,然后將兩種分類結果使用軟投票法和加權投票法進行融合,得出最終分類結果。實驗結果顯示,兩種投票法均達到較高準確率,可有效輔助醫生進行抑郁癥的臨床診斷。
本文在決策層對fMRI數據與sMRI數據的融合與分類進行研究,探討了軟投票法與加權投票法兩種決策層融合方式對分類結果的影響,并且都取得了比單模態數據更好的分類效果。首先分別對fMRI數據和sMRI數據進行特征提取與決策,使用多尺度腦網絡的構建方法[15]對fMRI數據進行特征提取,然后使用支持向量機(Support Vector Machine,SVM)[19]獲得fMRI數據的輸出類概率,同時使用ADNI-Transfer遷移學習后的3D-DenseNet264模型[17],對sMRI數據進行特征提取,并分類,獲得類概率結果。獲得fMRI和sMRI兩種分類結果后,在決策層進行融合,即在fMRI和sMRI兩種模態數據分別完成分類決策的基礎上,對兩種分類的決策結果綜合分析,得出最終決策結果,框架示意圖如圖1所示。

圖1 本文提出方法框架示意圖Figure 1 Schematic diagram of the framework of the proposed method
投票法是集成學習中一種針對分類問題的融合策略,基本思想是選擇所有機器學習算法當中輸出最多的那個類別,作為最終分類結果[20]。機器學習算法中,分類的輸出有兩種類型:一種是直接輸出類標簽,另一種是輸出類概率,使用前者進行分類稱為硬投票,使用后者進行分類稱為軟投票。由于本研究為二分類問題,輸出類標簽只有兩類,很容易出現投票平局的情況,故選擇軟投票策略進行決策層數據的融合。
本研究將樣本分成抑郁癥患者組和健康對照組兩類,規定抑郁癥患者為正類(positive),健康對照者為負類(negative),因此定義健康對照者數據標簽為0,抑郁癥患者數據標簽為1,在最終分類時都可映射在0 到1 之間,故對每一個被試,投票后分類標簽如式(1)所示:

其中,L表示經過軟投票法后的類標簽,Lf表示fMRI數據的輸出類概率,Ls表示sMRI數據的輸出類概率,定義最終類標簽L為0 時表示健康對照者,為1 時表示抑郁癥患者。
加權投票法是一種計入權重的投票方法,等同于加權平均法[21]。每個弱學習器的分類票數乘以權重,并將各個類別的加權票數求和,最大值對應的類別即為最終類別。普通的投票法將每種數據各自的分類結果都賦予相同的權重,但考慮到各數據信息對最終分類結果的貢獻不一致,故本文嘗試使用加權投票法為每一種分類結果賦予不同權重。
定義fMRI 數據的分類結果為Lf,其權重wf的計算方法如式(2)所示:

其中,Snf、Recallf分別代表對fMRI數據進行分類后,所使用分類器的準確度和召回率。準確率和召回率兩個指標同時用來評價最終的分類性能,規定抑郁癥患者為正類(positive),健康對照者為負類(negative)。TP(true positive)為將正類預測為正類的樣本個數,FN(false negative)為將正類預測為負類的樣本個數,FP(false positive)為將負類預測為正類的樣本個數,TN(true negative)為將負類預測為負類的樣本個數。
同理,定義sMRI 數據的分類結果為Ls,其權重ws的計算方法如式(3)所示:

其中,Sns、Recalls分別表示對sMRI 數據進行分類后得到的準確率和召回率。
本文定義健康對照組的數據標簽為0,抑郁癥患者的數據標簽為1,故對每一個被試,經加權投票后的分類標簽如式(4)所示:

其中,Lw表示經過加權投票法后的類標簽,Lf表示fMRI數據的輸出類概率,Ls表示sMRI數據的輸出類概率。
針對本文的二分類器性能選擇以下4 個評價標準來進行評價。特異度Sp,表示所有負例中被正確預測的實例所占比例,即在所有沒有患病的人當中,有多少人得到陰性結果。其計算公式為:

召回率Recall,表示正確預測為正的樣本占全部實際為正的樣本比例,即在所有患病的人中,有多少人得到陽性結果。其計算公式為:

F1 是對精度和召回率進行綜合評價的指標,目的是使二者同時達到最高時取一個平衡,其值更接近于較小的那個指標,當這兩個指標值相近時,F1 評分的值最大。其計算公式為:

精度Sn,表示正確預測為正的樣本占全部預測為正的樣本比例,即在所有預測為陽性的樣本中,有多少是真的陽性。其計算公式(8)為:

本試驗所用數據集中共有174 個樣本數據,其中有99個首都醫科大學附屬安定醫院招募的抑郁障礙患者和75個報紙廣告上招募的在年齡、性別、受教育程度均匹配的健康對照者。由北京師范大學認知神經科學和學習國家重點實驗室采集,使用設備為第3代特斯拉磁共振掃描儀(西門子公司,德國埃爾)。數據集中所有樣本均依據美國精神障礙診斷與統計學手冊第4版所列標準,經過嚴格篩選且簽署知情同意書。
2.2.1 fMRI 數據預處理fMRI 數據使用基于Matlab語言的磁共振圖像處理工具DPARSFA 軟件進行預處理,具體流程如圖2所示。首先去掉前10 個時間點的數據,以減少掃描前期信號穩定性不足對試驗帶來的干擾,然后分割出腦疾病分布所在的腦灰質部分,接著對磁共振圖像進行時間尺度校正,在容許的頭動范圍內,使用算法校正信號,使其靠近真實值,把不同的樣本數據對齊到同一個標準空間,移除信號中的高頻信息,將線性趨勢去除,避免其對信號正確性的影響,最后去除低頻生理信號(比如呼吸和心跳)和高頻隨機噪聲。
2.2.2 sMRI 數據預處理sMRI 數據使用基于Matlab語言的磁共振圖像處理工具DPARSFA 軟件進行預處理,具體流程如圖3所示。首先把不同的樣本數據對齊到同一個標準空間,去除非腦組織,然后分割出腦疾病分布所在的腦灰質部分,最后移除信號中的高頻信息,增加更大空間尺度上信號的信噪比,通過犧牲空間分辨率減少個體間位置不匹配問題。

圖3 sMRI數據預處理流程圖Figure 3 Flowchart of sMRI data preprocessing
將現有數據集進行預處理后的所有數據按照8:1:1 的比例進行劃分,分成訓練集、驗證集以及測試集,試驗中全部采用五折交叉驗證,所有網絡在訓練中均使用交叉熵損失函數與Adam 優化算法[22],因為特征數據的維數巨大,導致特征向量不緊致,同時增加運算成本,不利于后期的分類研究,故需進行特征選擇和降維,防止后期分類模型訓練過程中的過擬合,增強模型泛化能力。試驗中特征選擇與降維均使用主成分分析(Principal Components Analysis,PCA)方法[23],試驗選擇徑向基核函數(Radial Basis Function,RBF)的SVM進行分類,采用基于Python語言的機器學習模塊Scikit-learn[24],輔助完成SVM 算法的實現。
試驗環境搭載在一臺帶有一塊NVIDIA TITAN Xp GPU、四核Intel Xeon E3-1230 v5 3.41GHz 處理器的TP1201 服務器上,編程語言為Python3.6,深度學習框架為PyTorch1.0,數據預處理工具為Matlab2013a。
在單獨fMRI 數據分類構建腦網絡中,將串聯融合后的特征使用PCA 進行特征選擇和降維,再應用RBF 核函數的SVM 分類器進行五折交叉驗證,具體試驗結果的分類精度、特異度、召回率和F1評分如表1所示。

表1 不同尺度腦網絡下的分類效果對比(%)Table 1 Comparison of classification performances under different scales of brain networks (%)
從表1中的數據可以看出,在相同特征數量的情況下,融合多尺度腦網絡特征后的分類精度,相比單獨空間尺度下的腦網絡分類精度有所提升,特異度、召回率和F1 評分也都有所提升,表明特征選擇能夠對分類器的訓練起到積極影響,提高分類器的泛化能力。融合多尺度腦網絡特征后,再對特征進行篩選,能更好地利用多尺度腦網絡信息。
在單獨sMRI數據分類中,將預處理過后的sMRI數據分層輸入網絡,輸入尺寸為121×145 像素,并采用投票算法,即對于每個被試,測試結果為正類的層超過一半時判定為正類,否則判定為負類,將二維網絡三維化。
從表2中的數據可以看出,對網絡進行三維化操作后分類精度、召回率、特異度和F1評分均有了顯著提升,如3D-DenseNet264 的分類精度比二維的DenseNet264 提升了8.29%,表明三維網絡能夠有效挖掘出抑郁癥sMRI數據中豐富的層間信息。

表2 2D網絡與3D網絡試驗結果對比(%)Table 2 Comparison of test results between 2D networks and 3D networks(%)
將3D-DenseNet264 用ADNI 數據庫做了預訓練,并進行遷移學習(ADNI-Transfer),與直接用抑郁癥數據訓練(None)的實驗結果,以及Chen 等[25]使用的遷移學習方法(Med3D-Transfer)和用ADNI 數據庫遷移學習(ADNI-Transfer)在3D-ResNet 系列網絡做的試驗進行對比。
由表3中的數據可以看出,引入遷移學習后,3D-DenseNet264 在經過ADNI-Transfer 操作之后分類精度提升了3.25%,網絡的分類性能有了提升,這說明遷移學習能夠將其他領域的知識引入到抑郁癥sMRI 數據的分類任務中,一定程度上解決了樣本不充足問題,從而加快模型訓練的效率,提升模型最終的泛化能力。進行ANDI-Transfer 的3D-ResNet200網絡的分類精度要比進行Med3D-Transfer 的3D-ResNet200 網絡高出1.95%,ADNI-Transfer 遷移學習方法在特異度、召回率、F1 評分和精度上均有更優表現。

表3 遷移學習試驗結果對比(%)Table 3 Comparison of the test results of transfer learning experiments(%)
將fMRI 數據和sMRI 數據在決策層進行融合,其分類效果與fMRI 數據和sMRI 數據單獨進行分類時的最好結果進行比較,以驗證雙模態數據融合的優越性;同時,在決策層的融合中使用了軟投票法和加權投票法兩種方法進行對比分析。具體試驗結果如表4所示。

表4 各種方法對比試驗結果(%)Table 4 Comparison of classification performances among different methods(%)
由表4中的試驗結果可以看出,通過軟投票法進行的決策層數據融合策略,可以使精度上升至91.35%,特異度、召回率和F1 評分也有所提高,普通的投票法將每種數據各自的分類決策都賦予相同的權重,而加權投票法直接利用算法輸出的類概率進行統計,避免了普通投票法出現投票平局的情況,此時的精度以及特異度較單一模態數據分類時有所提升。當兩種模態數據分別給予不同權重,進行投票法決策融合時,可以將兩種數據單獨使用時分類效果之間存在的差距進行有效修正,且前期進行的特征選擇與降維處理使模型精度提高而又不會過擬合,使精度上升至92.31%,特異度上升至92.08%,F1評分上升至94.58%,召回率上升至96.62%。由試驗結果可以看出,使用軟投票法和加權投票法兩種融合方法,均能顯著提升最終的分類結果,并且加權投票法在試驗中顯示出更好的性能。
目前抑郁癥的診斷,醫生基本只能依據患者某些特定問題的答案,因此存在患者故意隱瞞,或過于依賴醫生主觀判斷的問題,而利用機器學習和腦部醫學影像輔助診斷抑郁癥,可以有效避免或緩解上述問題的不利影響。為此,本文將決策層融合策略應用到抑郁癥的結構和fMRI 輔助診斷中,更好地提取數據中的有效信息,獲得了較單一模態數據更加優秀的試驗結果。針對fMRI 數據,基于復雜網絡理論,構建多尺度功能腦網絡,提取局部和全局網絡特征,計算類概率,針對sMRI 數據,基于三維密集連接深度學習網絡,充分挖掘數據中的空間結構信息,然后引入遷移學習,對網絡模型進行預訓練,提取數據特征,計算類概率,最后運用加權投票法和軟投票法對兩種數據特征的類概率進行融合,得到最終分類結果。試驗結果表明,本文提出的決策層融合方法,分類精度、特異度、召回率和F1 評分均有顯著提升,尤其是加權投票法融合策略,分類精度和特異度高達92.31%和92.08%,證明本文提出方法能夠更好地輔助醫生對抑郁癥做出正確的分析與診斷。