祝 承,趙曉琦,趙麗萍,焦玉宏,朱亞飛,陳建英,周 偉,譚 穎
(計算機系統國家民委重點實驗室(西南民族大學),成都 610041)
精神分裂癥是一種常見疾病,給患者家庭和社會帶來了沉重的負擔。隨著磁共振成像(Magnetic Resonance Imaging,MRI)成像技術的快速發展,功能磁共振成像(functional Magnetic Resonance Imaging,fMRI)成為研究腦部疾病的重要手段之一[1]。但由于fMRI數據特征維度高而樣本量少,所以考慮如何解決過擬合問題是必要的,而特征選擇或降維就是常用方法之一。
聚類方法在fMRI數據的特征選擇中已經得到了廣泛的應用,并且在沒有先驗知識的情況下,可以根據fMRI時間序列的相關性將數據分為子圖內部相似性最大、子圖間相似性最小的若干類。然而,傳統的聚類方法,如:k-means和模糊C均值算法(Fuzzy C-Means,FCM)需要假設fMRI數據滿足凸球樣本空間分布,而功能磁共振數據是高維的、未知的、空間變換的,不滿足凸球型分布,所以算法容易陷入局部最優。
譜聚類是一種基于圖論的聚類方法,能在任意形狀的樣本空間上聚類,即具有識別非凸分布的聚類能力,可以收斂于全局最優解[2]。其基本思想是根據給定的樣本數據集間的相似關系構建親和矩陣,計算特征值和特征向量,依據樣本間的潛在聯系,聚類出類內相似、類間有異的不同簇。Zhao等[3]基于譜圖理論提出(SPECtral feature selection,SPEC)算法,通過評估特征值分布與目標的一致性進行特征選擇;王連喜等[4]提出基于聚類集成的特征選擇算法,該算法是利用聚類算法將冗余特征聚成一類簇,從各類簇中挑選最具代表性的特征構成最優特征子集;非負判別特征選擇(Nonnegative Discriminant Feature Selection,NDFS)算法[5]采用譜聚類算法學習樣本類標,將特征選擇融入學習過程中;近年來,謝娟英等[6]提出了基于譜聚類無監督特征選擇(Feature Selection by Spectral Clustering,FSSC)思想用于特征選擇,該方法已初步應用于有高維度小樣本特點的癌癥相關基因數據,并取得良好效果。譜聚類算法目前在應用方面的研究主要集中在普通圖像層面,在fMRI數據的分類中應用較少。
綜上,本文借助譜聚類算法的優勢,利用FSSC思想,提出基于譜聚類半監督特征選擇(Semi-Supervised Feature Selection by Spectral Clustering,SS-FSSC)的fMRI數據分類模型。利用序統計量相關系數與皮爾遜相關系數描述腦區間功能連接特征,確定基于Constraint得分的特征重要性準則,選擇具有代表性的特征構建特征子集,輸入支持向量機(Support Vector Machine,SVM)進行分類器訓練,最后對大腦特異性進行分析確定重要病變腦區,為精神分裂癥的早期診斷和治療提供支撐。
本文用于研究的數據來源于新墨西哥大學生物醫學研究中心提供的公開數據集COBRE(Center for Biomedical Research Excellence),包含了146名被試(年齡:18~65歲)的原始fMRI腦影像數據和其他臨床信息,其中有72位(58名男性)精神分裂癥患者和74位(51名男性)健康對照組。該數據集不包含近12個月中被診斷為神經系統疾病、智力遲鈍、嚴重頭部外傷、藥物濫用或依賴的受試者。為了平衡不同組間性別與被試數量的差異,本文將12名健康被試與10名病患移除,故而實驗數據為62個精神分裂癥病患與62個健康被試。病患組與對照組部分信息如表1所示。

表1 挑揀后的COBRE數據集特性Tab.1 Characteristicsof COBRE dataset after selection
COBRE數據集是由3T西門子磁共振成像掃描儀在靜息狀態下掃描獲取的,具體參數如下:層厚度=3.5 mm,層間距=1.05 mm,RT=2 000 ms,ET=29 ms,FA=75°,33層軸向切片,獲得大小為64×64的矩陣,掃描視野為240 mm。
為更好地評估模型性能,在本研究中,將挑選后的COBRE數據集分為訓練集與測試集兩部分,其中訓練集用于特征譜聚類以及分類器模型的訓練。
特征選擇旨在從原始的特征空間中遴選與任務相關的特征,刪除冗余、無關的特征。FSSC思想以構建具有高分類信息且相互之間低冗余的特征子集為原則,對所有特征進行譜聚類,將相似特征聚到同一類簇中。
本文模型以FSSC思想[6]為基礎進行特征選擇,揭示腦區間功能連接所隱藏的潛在規律。首先對數據進行預處理,然后利用FSL5.0提供的哈佛牛津地圖集將大腦分成48個腦區,提取fMRI數據的時間序列;再選取用于描述腦區間功能連接的兩種相關系數,將其輸入不同的譜聚類算法進行聚類操作,得到多個類簇,并依據特征重要性準則,挑出重要特征構成特征子集,將特征子集輸入分類器進行分類。其在fMRI數據下的應用流程如圖1所示。

圖1 基于SS-FSSC的fMRI數據分類流程Fig.1 Flowchart of fMRIdata classification based on SS-FSSC
其中,FSSC思想算法流程[6]描述如下所示:
輸入:訓練數據集D∈Rn×d,n為訓練樣本數,d為特征數;被選特征子集規模數k。
輸出:特征子集S。
BEGIN
1)初始化被選特征子集S=?,全部特征集合為F;
2)對全部特征采用譜聚類算法進行譜聚類,得到k個特征簇;
3)利用特征重要性準則計算各特征的Score值,從各特征簇選取Score值最大的特征加入特征子集S;
4)輸出特征子集S。
END
1.2.1 功能連接描述
譜聚類算法本質是將聚類問題轉化為二維圖的最優劃分問題,即需要兩個維度的信息來描述聚類樣本,因此需要選取合適的二維信息來描述fMRI數據腦區功能連接特征。杰出統計學家Fisher證明,當樣本滿足二元高斯分布時,皮爾遜積矩相關系數是母體相關系數的漸近無偏最優估計。故本文中利用皮爾遜積矩相關系數作為描述功能連接特征的工具之一。
檢測環境、時空差異都會影響到人腦的活動,而精神狀態的變化會對靜息態fMRI信號產生直接影響,在數據預處理過程中不能完全消除差異性活動,該情況可以假定為一種腦區時間序列信號下的輕微非線性畸變。新近提出的方法序統計量相關系數(Order Statistics Correlation Coefficient,OSCC),可適用于解決樣本存在輕微的單調非線性畸變的情況[7-10];且該相關系數在fMRI數據問題上已得到利用[11],其公式如下所示:

其中:x、y是長度為N+的兩個時間序列,按照xi(i=1,2,…,N+)信號的幅值對兩個時間序列重新排序后,分別得到新的序列x(i)和y(i),其中x信號滿足x(1)≤x(2)≤…≤x(N),即為序統計量,y[1],y[2],…,y[N]為相關性伴隨序列。互換x和y的 作 用,定 義y的 序 統 計 量 為y(1),y(2),…,y(N),而x[1],x[2],…,x[N]作為其伴隨序列。
綜上,本文選取皮爾遜積矩相關系數與OSCC作為腦區功能連接特征的描述,并將所有被試各腦區的兩個相關系數均值作為二維特征,然后進行特征譜聚類。
1.2.2 特征譜聚類
特征譜聚類是將特征聚類問題轉換為特征圖切分問題,可以在任意形狀的樣本空間上通過分割子圖來聚類數據點,且收斂于全局最優解。故切分準則的好壞將直接影響到聚類結果,依據切分準則的差異,本文分別采用規范割集準則(Normalized Cut,NCut)算法與比例割集準則(Ratio Cut,RCut)算法進行譜聚類。
對特征進行譜聚類,即以特征為頂點,特征間相似性為頂點連接邊權重,可以利用特征間的潛在聯系,發現最優的特征簇。本文中,將每個功能連接特征視為圖頂點V,對頂點間的邊賦距離值W,確定基于特征距離的無向加權圖G=(V,E)。



其中|A|、|B|表示子圖A、B中頂點的個數。比例割集準則Rcut算法兼顧了孤立點與均衡化問題,同時加大了類間樣本相似性,降低了過分分割的幾率,但運行速度較慢。
1.2.3 特征評價準則
特征選擇作為數據預處理的重要步驟,其評價準則的優劣直接影響到特征子集的優劣。理想特征的評判標準是去除無關、弱相關且冗余特征,保留弱相關非冗余特征和強相關特征[12],因此對于特征的選擇既要考慮到相關性又要兼顧到冗余性。
本文利用Constraint得分進行實驗,Constraint得分是一種將成對約束作為監督信息的受監督的特征選擇算法,其目標為選擇同類樣本間差異小、異類樣本間差異大的特征。Constraint得分需定義must-link約束集M={(xi,xj)|xi,xj同類}和cannot-link約束集C={(xi,xj)|xi,xj異類},然后使用約束集M和C對特征f進行評分,其評分函數有兩種:

其中:fi表示樣本xi在特征f上的取值,正則化系數λ平衡式(5)前后兩項的貢獻,λ<1;且特征重要性越高,式(4)與式(5)得分越低。本文選用第一種評分函數。此外,得到各個類簇中最大得分的特征后,依據其得分進行降序排列,挑選排在前面一定數量的特征作為最后的分類訓練特征子集。
采用基于譜聚類半監督特征選擇SS-FSSC的fMRI數據分類模型,需要先確定譜聚類算法類型與用于輸入分類器的相關系數類型;此外,還需確定類簇數與期望保留輸入分類器的特征總量。為得到模型的最優參數解,驗證模型性能,并討論病患腦區連接異常,將實驗及結果分析分為三部分。
第一部分討論不同譜聚類算法與切割準則下模型的解。采用5折交叉驗證法與分類準確率標準差對比分類性能,并選取指標:準確率(Accuracy,ACC)、敏感性(Sensitivity,SEN)和特異性(Specificity,SPE)來量化最優設置下支持向量機SVM分類器的性能。各項指標公式[13]如式(6)~(8)所示:

其中:TP(True Positive)為真陽性的個數,即正確診斷病人的個數;TN(True Negative)為真陰性的個數,即正確診斷正常人的個數;FP(False Positive)為假陽性的個數,即錯誤診斷正常人的個數;TN(False Negative)為假陰性的個數,即錯誤診斷病人的個數。
第二部分首先將基于全腦功能連接(Functional Connectivity,FC),即利用預處理后fMRI全部數據信息進行分類器訓練的方法與本文方法進行對比;然后對本文模型不同分類器設置下的結果進行對比;最后,將不同特征降維方法與本文方法進行對比。
第三部分基于本文模型結果,對病患大腦異常進行分析。
此外,本文利用決策樹(Decision Tree,DT)、隨機森林(Random Forest,RF)、SVM分類器、主成分分析(Principal Component Analysis,PCA)、BP(Back Propagation)神經網絡、線性判別分析(Linear Discriminant Analysis,LDA)以100次5折交叉驗證實驗結果的平均值比較各算法的性能。其中,SVM分類器的核函數采用多項式核函數ploy;PCA設置保留40%的信息;BP神經網絡利用sklearn.neural_network庫中的MLPClassifier函數實現,設置權重優化的求解器為adam,啟用early_stopping,其余參數為默認設置;DT、RF、LDA皆為scikitlearn函數under different parameters庫默認設置。
本文對靜態功能連接特征,分別利用譜聚類中規范割集準則NCut與不規范的比例割集準則RCut進行聚類,再確定選擇后要輸入SVM分類器的特征數量,最后分別采用皮爾遜積矩相關系數與序統計量相關系數OSCC來表示特征,進行分類器訓練。具體結果如圖2所示,其中類簇數固定為1 000,SVM核函數固定為多項式核函數(Poly),圖例中_G表示grade得分。為保證分類結果的可靠性,本文將五折交叉驗證重復100次,并取其總體平均準確率與總體平均標準差。
由圖2(a)可以看出,當保留特征數量在0~20時,隨著輸入分類器特征數量的不斷增加各類模型的準確率快速上升,達到70%時基本趨于穩定,本文稱準確率達到70%時保留的特征數量為模型的臨界點;從圖2(b)可以看出,當保留的特征數量大于150時,各類模型的準確率開始逐漸下降。其中,各類模型的最值點和臨界點的具體信息如表2所示。

圖2 不同特征數量下SS-FSSC各類模型的分類準確率Fig.2 Classification accuracy of SS-FSSCwith different featurenumbers

表2 不同參數下模型的最值點與臨界點信息Tab.2 Information of maximum and critical pointsof themodel
從表2可看出,各類模型最高準確率差異波動在1%~2%,且保留特征數較少時模型準確率較不穩定;從局部看利用OSCC時,SVM分類器能更快達到模型臨界點;從總體看Pearon與Rcut的組合設置能在保留特征數量較小時,更快達到最優解,且OSCC與RCut的組合設置達到了最高的模型準確率。因此,選用準確率ACC、敏感性SEN和特異性SPE來量化OSCC與RCut組合設置下的模型性能,結果如表3所示。

表3 OSCC_RCut設置下模型分類結果評價Tab.3 Evaluation of model classification results under OSCC_RCut setting
2.2.1 FC與SS-FSSC方法下模型分類結果對比
實驗分別選取特征數量為16和152兩個值,對基于FC和SS-FSSC方法的不同模型的分類結果進行比較,2種方法在不同分類器上的準確率如圖3所示(保留小數點后3位,若末尾為0則不顯示)。由圖3可以看出,基于譜聚類半監督特征選擇的分類模型準確率明顯優于基于全腦功能連接特征的各類分類模型,且由圖3(b)可以看出特征數量值為152時,采用SVM為分類器時平均準確率可達77%,次之是利用隨機森林(RF)的分類結果,最低準確率是在決策樹(DT)上的分類結果;而基于功能連接特征的分類模型,其準確率在各個模型上基本穩定于51%左右,基于SVM為分類器的結果有所提高。

圖3 FC與SS-FSSC方法下模型分類結果對比Fig.3 Comparison of model classification resultsunder FCand SS-FSSCmethods
2.2.2 基于不同分類器的分類效果實驗
將基于譜聚類半監督特征選擇SS-FSSC的功能連接特征子集輸入不同分類器進行對比,圖4顯示了不同特征數在臨界點和最值點的分類準確率。

圖4 基于SS-FSSC的不同分類器結果對比Fig.4 Comparison of different classifier resultsbased on SS-FSSC
由圖4可以看出,無論是在臨界點還是最值點,基于SVM的分類效果都要優于其他兩類的分類效果,且從圖4(b)可以看出,當特征數量值為152時,其最高準確率可達95.83%,得到較好的準確率。但是相對于保留152個特征數量時,保留16個特征數量的分類結果并不是很穩定。本文實驗的最佳效果是基于SVM分類得到的。
2.2.3 基于不同特征降維方法的分類結果對比
實驗分別選取特征數量為16和152兩個值,將不同特征降維方法PCA、BP神經網絡、LDA與本文方法進行對比,結果如圖5所示。無論是在臨界點還是最值點,本文模型準確率都優于常用經典的特征降維方法。

圖5 不同特征降維方法與本文模型分類結果對比Fig.5 Comparison of classification results of different feature dimension reduction methods and the proposed model
由表2可知,選用OSCC作為工具時,保留特征數16是模型的臨界點,所以認為該16個功能連接是可能的精神分裂癥重要病變功能連接,且其所對應的腦區可能為重要病變腦區。具體分布如圖6所示。
圖6中功能連接對應腦區的出現頻率如表4所示,精神分裂癥重要病變功能連接及其病變腦區集中分布在左腦。其中距狀裂皮質(Intracalcarine Cortex)出現頻次最高,顳上回前部、楔前皮質、顳下回,顳枕部、扣帶回旁、額葉內側皮質、顳橫回(包括H1和H2)、顳平面、額葉前部出現頻次較高。

圖6 重要病變連接及其對應腦區Fig.6 Important diseased connectionsand the correspondingbrain regions
依據以往對精神分裂癥病患的fMRI數據研究,認為其主要病變腦區位于腦島(Insula)、海馬體(Hippocampus)、額葉(Frontal)和顳葉(Temporal)[14-15]。本文的定位的10個腦區也覆蓋上述區域。
距狀裂皮質在語言學習和記憶中發揮重要作用,同時在精神分裂癥研究中的地位已得到廣泛關注[16-18],從表4可知,本文定位的腦區中距狀裂皮質出現頻次最高,因此上述研究結論與本文實驗結果一致。

表4 重要功能連接對應腦區出現頻率統計Tab.4 Occurrence frequency statisticsof brain regions corresponding to important functional connections
對精神分裂癥患者的皮質下區域體積改變的大規模調查中,發現患者左右腦存在不對稱,患者左腦蒼白球比右腦蒼白球平均大4%左右,表明精神分裂癥中的神經通路和連接方式異常側向的可能性[19-21],這或許可以解釋本研究中精神分裂癥重要病變功能連接及其病變腦區集中分布在左腦的結果。
本文提出基于譜聚類半監督特征選擇SS-FSSC的fMRI數據分類模型。通過皮爾遜積矩相關系數和OSSC描述腦區間功能連接特征,利用切分準則將相似性高的特征聚成一類簇,基于Constraint得分進行特征重要性評判,選擇具有代表性的特征構成特征子集,并結合SVM分類器進行分類。經過實驗發現本文模型僅利用16或17個功能連接特征,就能穩定達到70%以上的平均準確率;輸入特征數為150左右時,達到約為77%的最高平均準確率;同時因模型輸入分類器特征較少,避免了過擬合的問題;最后通過分析上述16個功能連接特征,發現其集中分布在左腦,并且對應腦區中距狀裂皮質出現頻次最高,符合現有研究狀況,但其具體原因還需進一步研究。因此,本研究不僅可以用于fMRI數據精神分裂癥的輔助診斷中,還對病變腦區的確定有著重大意義。但是本模型在如何運用新提出的譜聚類算法進行譜聚類、尋求更多數學方法描述腦區間功能連接特征、調整特征重要性準則、機器學習算法的融合創新[22]等方面仍有待改進之處。