王志剛,胥茜,畢夏安
(湖南師范大學信息科學與工程學院,長沙 410081)
隨著大量的先進神經影像學工具應用于腦部疾病的臨床診斷和研究,該領域取得了許多令人矚目的成果。功能磁共振成像具有無創傷、無需注射放射性示蹤物以及良好的時空分辨率等特點,在腦神經功能和疾病研究領域得到了廣泛應用。雖然fMRI數據蘊含大量的腦神經組織與功能方面的重要信息,但是由于腦功能活動的復雜特性,以及部分測量誤差的影響,導致數據的處理仍然存在許多不確定因素。因此,對fMRI數據實現有效的處理和分析,尤其是fMRI數據的分類,始終是研究熱點。隨著人工智能及相關學科的發展,大量的模式識別技術和機器學習算法被引入到腦科學領域中,并應用到fMRI數據的分類研究中。
文獻[1]將稀疏學習與SVM分類器相結合研究MCI(Mild Cognitive Impairment,輕度認知障礙)分類,對EMCI和LMCI患者進行分類,準確率為80%左右。文獻[2]運用 FIN(Fiber Network Measures,纖維網絡度量)和 FLN(Flow Network Measures,流量網絡度量)作為特征集,再用SVM分類器對EMCI和LMCI患者進行判別,準確率為63.4%。文獻[3]將深度相似網絡架構與單個SVM分類器結合,對LMCI和AD患者進行分類,準確率為77.92%。文獻[4]選擇單個體素的BOLD曲線變化率作為特征,結合SVM分類fMRI數據輔助診斷MCI,準確率為75%。文獻[5]運用改進的譜聚類方法獲取數據的模式特征,再用SVM分類fMRI數據判別MCI,準確率為82%。文獻[6]利用粒子種群算法提取特征參數,組合SVM分類fMRI數據判別精神抑郁癥,測試準確率高達84.62%。
雖然在機器學習和人工智能等算法的加持下,腦神經學科領域的研究水平得到了極大的提升,但也存在許多問題:部分算法的通用性不強,分類以及降維效果不佳;一些分類研究注重腦神經病變類型的鑒別,較少深入探索疾病的病理機制,因而限制了研究人員對疾病成因的深度理解。因此,非常有必要探索新的算法,從而實現快速降維、準確捕獲異常特征,進而達到快速分類的目標;如能定位引發疾病的病灶,則還可以為有效治療提供幫助。
本文在研究加權隨機SVM集群(WRSVMC)算法的基礎上,本著提高降維速度的目的,將進化的思想引入其中,動態地從高維樣本中刪減無用特征,保留主要異常特征。實驗表明算法不僅加速了降維過程,也提高了分類準確率。實驗用fMRI數據來源于ADNI。
在用靜息態fMRI數據研究腦神經類疾病時,兩兩腦區時間序列之間的皮爾遜相關系數是主要的功能特征數據,近年腦區網絡的圖論特征也被用作特征數據,但這些數據都具有高維特性。為了有效利用小樣本、高維度的fMRI數據,首要任務便是降維。傳統的主成分分析(PCA)、線性判別分析(LDA)和等度量映射(Isomap)等降維方法都會損失部分信息,也不便于解釋低維度特征。直接從原始特征中提取對分類性能具有強影響力的特征,可以降低圖像噪聲的不利影響。
SVM模型能很好地處理fMRI數據,但在高圖像噪聲情況下,依然很難獲得穩定和魯棒的泛化能力。文獻[7]研究了一種由多個SVM分類器組成的隨機SVM集群(RSVMC),通過集成學習使得互有差異的各SVM形成一個強大的分類器簇,從而獲得優秀的泛化性能。但是各SVM具有同等的投票權,忽視了它們之間的強弱差異,對整體性能有較大影響。
文獻[8]在RSVMC的基礎上,通過對每個SVM基分類器增加權重,構成加權隨機SVM集群(Weighted Random SVM Cluster,WRSVMC),提高了分類的穩定性和準確率;運用該算法對MCI患者的fMRI數據進行的分類結果表明,準確率最高可達87.67%。圖1是該模型的示意圖,它克服了RSVMC因各SVM之間分類能力差異而性能不穩定的問題,但在高維數據的降維問題上沒有很好的作為。

圖1 WRSVMC模型
為了進一步優化特征選擇,將進化的思想引入WRSVMC,動態地從高維樣本特征中逐步刪減無用特征,構成EWRSVMC。為了確定所刪除的是無用樣本特征,設置閾值以控制樣本特征的收斂速度。圖2是其進化過程,若初始樣本特征為d維,經過k輪進化后的樣本特征維數是dk(dk≤dk-1)。

圖2 EWRSVMC的進化過程
fMRI腦功能圖譜的網絡構造、網絡邊值的處理以及特征的選擇與WRSVMC中的方法相同,每一個圖譜的4275個特征是分類器的初始輸入數據[8]。
將數據集D劃分為Dtrain、Dvalidation和Dtest三個集。Dtrain用來訓練分類器,Dvalidation用來獲取SVM的權重,Dtest用來測試模型的泛化性能。
(1)訓練n個基學習器的RSVMC,計算SVMi對驗證集數據中的分類正確率Wi,并作為其權重。
(2)挑出Wi<0.5的弱SVMi,找出它們所選中的特征,累加相同特征的權重Awj:

其中p是弱分類器數量,wl,j是第l個弱分類器的第j個特征的權重。
(3)特征的權重越高,對分類的影響越小。閾值r用來鑒別和刪減這些特征,若Awj≥r,則第j維特征的權重重置為零,從而得到進化后的特征集。

設第i輪進化所刪減的特征數目是Ki,則第n輪進化后保留的特征數目為:

當進化輪數達到預設閾值時算法停止。圖3是進化流程。

圖3 EWRSVMC進化流程
預測Dtest集中的每一個樣本的類別。將樣本x通過各分類器檢測,若fi(x) 是樣本x經SVMi預測的結果,Ι(?) 是指示函數,則求得x屬于a類別的加權總得票數為Sa。

經過加權后選出得票數最多的類別A作為樣本的最終預測類別:
A=Arg max(Sa)
通過對比樣本的預測類別和它們在原始實驗集中的真實類別,可以得到Dtest集樣本被正確分類的數量Ttrue,若Crad(Dtest)=T,則分類準確率為:
Pre=Ttrue/T
EWRSVMC可以用來研究腦區疾病和功能變異。首先求出進化后對算法分類性能有重要影響的特征集,這些特征也是和被研究疾病直接相關的異常特征。然后在腦區尋找與異常特征吻合的區域,異常區域越多,則相對應的腦區頻數越高,與相應的腦功能異常越相關。將腦區的頻數降序排列,就能檢測出與疾病相關的腦區。下面通過對fMRI數據的AD分類,評估算法的性能。
共執行了兩組實驗,每組實驗主要被分為4個步驟:
(1)將實驗數據集按2:1:1比例劃分為訓練、驗證及測試集。
(3)找出最優特征子集。計算每一輪進化后的準確率,將最高準確率的模型所對應的基分類器數目設定為最優。
(4)檢測異常腦區。根據最優特征子集中每條特征含有的兩個腦區,統計同一腦區出現的頻數,將部分頻數最高的腦區作為異常腦區。
圖4的結果表明在第34輪進化前準確率基本保持增長趨勢,之后達到最高準確率88.89%。與現有的分類算法相比,EWRSVMC的分類性能更優;同時AUC值也達到了0.9091,說明算法在處理分類問題上很穩健。

圖4 進化輪次與準確率關系
針對fMRI圖譜數據的高維特性,在WRSVMC分類模型基礎上引入進化機制,能有效地去除特征數據中的冗余部分,保留異常特征,加快了降維過程,分類速度和準確率提高幅度較為明顯。另外,該算法還能找到與這些特征相關聯的異常腦區,如顳上回、顳中回和腦島部位的異常,從而可以確定AD疾病與這些腦區的病變過程有著不可分割的關聯,為分析與研究AD病理的成因提供了一個新視角,還可以有效地幫助醫師對AD患者進行輔助診斷。