孫 超,聞 敏,李鵬祖,李 瑤,Ibegbu Nnamdi JULIAN,郭 浩
太原理工大學 信息與計算機學院,太原 030024
近年來,腦部檢測非侵入技術即現代影像技術的發展為腦疾病的診斷提供了重要的技術支撐。有研究表明,抑郁癥與腦部某些區域的異常有關[1]。在對腦網絡進行建模中,傳統方法是將確定圖應用到腦網絡中。但是該方法構建的確定腦網絡通常根據給定的稀疏度或者其范圍來確定[2],而在腦神經影像學領域內,確定圖中稀疏度如何選取并沒有黃金準則[3]。且該方法生成的確定圖,將會不可避免地造成腦部不確定信息的丟失[4]。
最近的研究表明,不同腦區之間的功能連接是高度不確定的,暗示著腦網絡也是不確定的[5]。文獻[6]中表明,其不確定性的主要來源包括以下兩個方面。一是對被試進行數據采集時,核磁共振掃描儀帶來的噪聲信號。二是對被試的頭部進行掃描時,采用不同的掃描順序得到的數據也會有差別。以上兩個方面都會使采集的數據具有不確定性特征。
先前的研究中將不確定性歸因于數據本身帶來的誤差,例如:數據采集的誤差、數據的不完整性,操作的精確性以及數據收集期間的延遲等因素,使得不確定圖中邊的連接存在固有的不確定性[7-8]。因此,考慮到腦網絡的不確定性因素,不確定圖被用來進行腦網絡建模[4]。它的邊以一定概率存在[9]。確定圖與不確定圖在邊定義方面的差異之處在于,不確定圖中邊的權值衡量了其存在的概率的大小[10]。
傳統的不確定腦網絡研究中,均值被提出作為統計指標用于特征提取[4],該方法既能從不同角度評價概率分布的性質,又能從不同側面反映子圖模式的組間差異,但其泛化性能較低,在不同的特征選擇方法中分類性能具有較大差異,且分類準確率較低。在此基礎上,方差[11]、極差[12]等統計指標被提出用于特征提取,該方法有效地改善了已有統計指標均值中的潛在問題。但是,極差作為統計指標雖然獲得了較好的分類性能,其主要是用于找出子圖模式間的最大差異,其結果受最大值最小值的影響較大,子圖間差異無法直接衡量[13]。方差是樣本與平均數之差平方和的平均數,即所有數據與均值的偏離程度,反映的是子圖模式間的平均差異[14],但是該方法在計算中采用了樣本的平方,其結果不易反映各個子圖間的差異。
因此,本文提出相對極差作為統計指標的不確定腦網絡特征提取方法。它既考慮到子圖模式間的最大差異,又考慮到子圖模式間的組間差異,相對極差將均值與極差進行組合構成統計指標,可以有效克服原有方法中所存在受最大最小值影響以及子圖差異無法直接衡量的問題。結果表明:本文提出相對極差作為特征提取方法,結合判別分數函數進行特征選擇,能夠找到最具有判別性的腦網絡特征用于分類,且在4個判別分數函數下所選取的特征中得到較好的分類效果,證明了其具有較強的泛化性能,該方法在腦網絡特征提取方面具有重要意義。
本研究包括數據預處理,不確定腦功能網絡構建,子圖特征提取,判別性子圖特征選擇,分類以及特征有效性分析。具體來說,由以下7部分構成,如圖1所示。
(1)數據采集與預處理;
(2)基于不確定圖理論進行不確定腦網絡的構建;
(3)利用頻繁子圖挖掘算法進行不確定腦功能腦網絡中的頻繁子圖挖掘;
(4)采用4種不同的統計指標進行子圖特征提取;
(5)采用4種判別分數函數來進行判別性子圖特征選擇;
(6)利用SVM模型進行分類,從而對比不同統計指標得到的判別子圖特征的判別能力;
(7)異常成分分析和特征有效性分析。

圖1 流程圖Fig.1 Flow chart
本研究依據山西省醫學倫理委員會的建議(其編號為:2012013),在數據采集前得到了所有被試的一致同意,由山西醫科大學第一醫院醫生對66名被試進行數據采集。38名中國籍漢族抑郁癥患者都經過山西大學第一醫院精神衛生科確診,抑郁癥的嚴重程度由24項漢密爾頓抑郁量表(Hamilton rating scale for depression,HAMD)來表征。28名健康被試均通過人格障礙的定式訪談(SCID-II)測試,經確認無任何精神病史。66名被試的基本信息如表1所示。

表1 被試基本信息統計Table 1 Basic information statistics
數據預處理使用SPM8(http://www.fil.ion.ucl.ac.uk/spm)工具箱進行。首先為了消除數據采集中時間點的影響,對每一個被試進行時間片校正,并去除其中頭動或轉動較大的數據(以3 mm為標準)。接著,通過對數據進行標準化來消除數據中空間因素的影響,即將每一個被試數據變換到3 mm體素的MNI(Montreal Neurological Institute)標準空間中,在這里采用12維度的仿射變換方法來實現。最后,對數據采取平滑的方法來消除被試腦部間的個體差異。
在構建腦網絡模型中,網絡節點由組獨立成分分析方法(group independent component analysis,GICA)得到的空間獨立成分表示。組獨立成分分析[15]是一種盲源信號分析方法,與以往利用各類模板對腦部區域進行劃分的方法相比,組獨立成分方法無先驗模板的依賴,消除了因為采用不同模板因素對結果造成的影響。該方法由GIFT工具箱來實現(http://mialab.mrn.org/software/gift),其中獨立成分分解的數目由最小描述長度準則[16]來確定。
所有被試數據經過組獨立成分分析方法處理后得到的獨立成分中,因為有噪聲因素的影響,需要對獨立成分進行篩選[17]。該獨立成分被判定為噪聲成分當其具有如下特征:(1)與灰質區域低空間重疊或者已知的血管、頭動等成分高空間重疊[1];(2)激活區域分散,有許多小簇[18];(3)時間序列的功率譜頻率較高(>0.1 Hz)[1];(4)時間序列呈現雙峰狀態或者有較大的跳躍[19]。而且,若激活區域在被試腦部區域的外部,這些成分也不是獨立成分[18]。基于以上原則,本文去除了32個噪聲成分,剩余22個成分作為構建不確定腦網絡的節點,并將這些固有連接網絡成分分別劃分為視覺網絡(visual network,VIS,IC10,IC19,IC32,IC34,IC38)、默認網絡(default mode network,DMN,IC16,IC18,IC31)、注意網絡(attentional network,ATTN,IC24,IC25,IC30,IC35,IC39,IC40)、聽覺網絡(auditory network,AUD,IC15),感覺運動網絡(sensorimotor network,SM,IC4,IC8,IC11,IC22,IC36)和額葉網絡(frontal network,FRONT,IC33,IC43),其結果如圖2所示。

圖2 獨立成分篩選結果Fig.2 Independent component screening results
本文以去除噪聲成分后剩下的22個獨立成分作為不確定腦網絡的節點,并依據公式(1)計算不確定腦網絡中邊的概率值,以此來構建不確定腦網絡,不確定腦網絡邊的概率值的計算公式為:

式中,ri,j表示兩個獨立成分i與j所對應的不確定圖中邊的概率值,cov(i,j)表示兩個獨立成分i與j時間序列的協方差,σi和σj分別表示兩個獨立成分i與j時間序列的標準差。由于不確定圖中邊上的概率值表示其存在性,因此將ri,j小于0的值置0,大于0的值保持原值。
在圖結構中,頻繁子圖作為該網絡中出現頻率較高的子圖模式,可以很好地反映腦網絡的拓撲結構信息[20]。值得注意的是,目前已有相應的研究將頻繁子圖挖掘方法應用在不確定腦網絡中,結果證明頻繁子圖在表征不確定腦網絡拓撲結構的組間差異中有重要作用[12]。常見的不確定圖頻繁子圖挖掘算法包括:鄒兆年等人[21]提出的基于期望支持度的頻繁子圖挖掘算法,韓蒙等人[22]提出了基于隨機游走技術的極大頻繁子圖挖掘算法以及Chen等人[23]提出基于子圖枚舉估計的頻繁子圖挖掘算法等等。
考慮到以上算法的時間復雜度,本文采用的頻繁子圖挖掘算法為近似算法[11(]算法時間復雜度的分析見2.4節)。該算法采用模式增長的方法構建候選子圖,并通過計算期望支持度來判斷是否頻繁,若其期望支持度大于給定的最小支持度,則該子圖是頻繁的,期望支持度的定義如公式(2)所示,與傳統算法相比,該算法降低了頻繁子圖挖掘的時間復雜度。

式中,Esup(g,D)表示該子圖模式g在給定的不確定圖集D中的期望支持度;Pr(g?G)表示子圖模式g在不確定G中的概率;n表示不確定圖集D中的不確定圖的個數。
該算法的主要步驟如下:
輸入:不確定圖數據集D和給定支持度minsu p
輸出:頻繁子圖的集合P
1.將頻繁子圖集合P置為空,新建空集Q,R
2.遍歷不確定圖數據集D中所有一條邊的子圖模式集合
3.FORD中所有的一子圖模式集DO
4.IFExp(g,D)≥minsup
5.將該子圖g加入到集合P,Q中
6.FORQ中所有的一子圖模式集合DO
7.調用模式增長算法得到子圖集合R
8.FORR中的每一個子圖DO
9.利用公式(2)計算其期望支持度的值Z
10.IFZ≥minsup
11.加入頻繁子圖集合P
12.繼續調用模式增長算法
13.直到所有的邊都搜索完畢,返回頻繁子圖的集合
基于上述頻繁子圖挖掘的近似算法,得到了頻繁子圖的集合。但是,挖掘出來的頻繁子圖本身并沒有判別能力,還需要對其進行子圖選擇選取出判別子圖作為特征用于分類[20]。本文在已有統計指標——均值、方差、極差作為特征提取方法的基礎上,提出了新的統計指標——相對極差(Relative_range),它既考慮到子圖模式間的最大差異,又考慮到子圖模式間的組間差異,相對極差將二者進行組合構成統計指標,其數學定義如公式(3)所示:

其中,D為不確定圖集合,g為挖掘的頻繁子圖,以下公式中字母定義同上。
此外,為了對比分析,本文同時將均值(Mean)、方差(Variance)和極差(Range)進行比較。下面具體來說每一種特征提取方法的定義。
均值是求所給數據的平均值,既能從不同角度評價概率分布的性質,又能從不同側面反映子圖模式的組間差異,并已經廣泛用至不確定圖判別子圖的提取中[4],其數學定義如公式(4)所示[4]:

其中,D為不確定圖集合,Gi為第i個被試的不確定腦網絡,g為挖掘的頻繁子圖,為屬于Gi的子圖g對應的概率值的乘積,N為被試的數目,以下公式中字母定義同上。
方差是數據與平均數之差平方和的平均數,即所有數據與均值的偏離程度,反映的是子圖模式間的平均差異[14],其數學定義如公式(5)所示[11]:

極差是數據中最大值與最小值的差值,它用于找出子圖模式間的最大差異。且依賴于樣本的大小,受最大值最小值的影響較大[13],其數學定義如公式(6)所示[12]:

其中,函數min(Pr(g?Gi))為求給定子圖概率乘積的最小值。
基于以上4種特征提取方法,得到了頻繁子圖對應的特征值,接下來利用判別分數函數來進行特征選擇。在對子圖進行特征選擇中,判別分數函數值越大,表明該特征具有的判別能力越強。常見的判別分數函數包括Confidence[24]、Frequency ratio[25]、G-test score[26]和HSIC[27],為了比較所提指標與已有統計指標的泛化性,本文利用以上4種判別分數函數進行特征選擇,分別在正常組與抑郁組中選擇相應的判別子圖作為分類特征,構造特征矩陣進行分類。
本研究使用高斯徑向基線性核(radial basis function kernel,RBF)作為核函數來進行分類。該核函數利用非線性映射將數據映射到高維空間中,使其成為線性可分問題[28]。通過MATLAB中的LIBSVM[29]工具包進行。在這里采用10折交叉驗證的方式對分類器的泛化性能進行評估,即將數據集隨機分塊,9份為訓練集,1份為測試集,取10次結果的平均值作為該分類器的分類效果。同時,為了保證實驗結果的可信度與精確度,本文采用重復200次10折交叉驗證后取平均值的方法作為最終的結果。
在這里采用互信息的方法對特征的有效性進行分析,通過最大相關最小冗余算法(minimal redundancy and maximal relevance)實現[30]。互信息方法從兩個方面來評價特征與標簽之間的依賴關系,一是相關度(dependency,D),即所給特征或者特征集合與標簽的相關度,相關度越高,表明所給特征在分類過程中的貢獻越大;另一個是冗余度(redundancy,R),即所給特征或者特征集合與標簽的冗余度,冗余度越高,表明所給特征之間的相似性越多。相關度和冗余度的具體定義如公式(7)和(8)所示:

公式(7)中,xi表示所選特征;c表示樣本的類別標簽;Di表示所選特征xi在分類器中的相關度;S表示所給特征的集合;|S|表示S中特征的基數;I(xi,c)表示所選特征xi與樣本的類別標簽c的互信息值。

公式(8)中,xi表示所選特征;xj表示其他特征;c表示樣本的類別標簽;Ri表示所選特征xi與其他特征xj在分類器中的冗余度;S表示所給特征的集合;|S|表示S中特征的基數;I(xi,xj)表示所選特征與其他特征的互信息值。
所以每個特征互信息的值如下:

互信息值的大小表明該特征的優劣,值越大,說明相關性越高,冗余性越低,將其作為分類特征是合適的。
在本實驗中,采用重復200次的十折交叉驗證方法獲得分類準確率,來評估所提方法的分類性能,4個統計指標的分類性能如圖3所示。

圖3 4個統計指標在不同判別分數函數下的分類準確率Fig.3 Classification accuracy of four statistical indicators under different discriminant functions
本文分別在4個判別函數下,比較4個統計指標的分類性能。總體來看,4個統計指標在不同判別分數下均呈現先增加后降低最后趨于穩定的趨勢,其主要原因是在前期隨著有效特征的增加,分類準確率不斷提高;但當特征超過一定數目后,冗余度增加,分類準確率降低。4個統計指標的最高分類準確率集中在特征數(30,70)的范圍內。具體來說,在Confidence判別分數函數下,4個統計指標下具有最高的分類準確率為(統計指標-特征數-準確率:相對極差-50-94.41%,極差-30-92.9%,方差-70-93.5%,均值-70-91.74%)。在Frequency判別分數函數下,4個統計指標下具有最高的分類準確率為(統計指標-特征數-準確率:相對極差-30-97.25%,極差-60-95.4%,方差-50-94.85%,均值-40-89.46%)。在G-test score判別分數函數下,4個統計指標下具有最高的分類準確率為(統計指標-特征數-準確率:相對極差-30-97.42%,極差-60-95.67%,方差-40-92.24%,均值-30-90.22%)。在HSIC判別分數函數下,4個統計指標下具有最高的分類準確率為(統計指標-特征數-準確率:相對極差-30-97.6%,極差-50-95.7%,方差-50-92.15%,均值-30-92.03%)。
由以上結果比較可知,在不同的判別分數函數下,相對極差相對于其他的統計指標均能得到較好的分類效果,尤其在HSIC判別分數函數下,30個特征數的分類效果最佳,為97.6%,表明該統計指標能夠找到最具有判別性的特征用于分類。由圖3可知,在特征數小于40的條件下,相對極差除了在Confidence判別分數函數下存在低于其他統計指標的情況,在其他3個判別分數函數中都具有較好的分類性能,表明其具有較好的泛化能力。因此,本文提出的特征提取方法:相對極差可以很好地找到與分類相關的特征,獲得較高的分類準確率,具有較好的泛化能力。
從分類準確率來看,本文所提出的相對極差在不同的判別分數函數中均獲得了較好的分類結果,且最高分類準確率為在HSIC判別分數函數下的30個特征處,因此將這30個特征做異常成分分析,其中,正常組及抑郁癥患者各15個。接著,統計這30個子圖模式中各個獨立成分出現的頻數,圖4顯示了所有獨立成分出現的頻數信息。從中可以看出,具有判別力的腦網絡成分大部分屬于默認網絡(IC16),感覺運動網絡(IC22)和注意網絡(IC25,IC35,IC40),這表明它們在診斷抑郁癥疾病中起到較大的作用。

圖4 獨立成分與頻繁度Fig.4 Independent components and frequency
默認網絡可以被看作一個異構的大腦系統,且默認網絡中的異常連接是抑郁癥中重要的病理機制[31],因此本文得到的結論也驗證了默認網絡在抑郁癥診斷中的重要作用。感覺運動網絡分布在大腦感覺運動皮質區,控制著身體的各項運動。Daniel等人通過計算不同頻帶下的區域同質性的值(regional homogeneity,ReHo)和介數中心度的值(degree of central,DC),得出抑郁癥可能與感覺運動網絡的異常有關[32]。根據神經認知模型的研究,注意網絡分為3個功能網絡:警報網絡、定向網絡和執行控制網絡。同時,Wang等人通過構建注意網絡,得出抑郁癥與缺乏注意網絡有關[33]。因此,默認網絡、感覺運動網絡和注意網絡在抑郁癥的識別中具有重要的作用,由以上實驗結果證明本文的研究結果得到了證明。
在2.1節與2.2節中,通過分類準確率找到了最具有判別性的腦網絡特征,并對其中的異常成分進行分析,驗證了所選特征的有效性。在本節中,為了從另一個方面驗證所選異常成分特征的有效性,本文在HSIC判別分數函數下,對4種統計指標的特征進行最大相關最小冗余分析,結果如圖5所示。

圖5 特征有效性結果Fig.5 Feature effectiveness results
在特征冗余度分析中,冗余度的大小與分類準確率有關,分類準確率高的特征對應較低的冗余度。而在特征相關度分析中,其結果與冗余度的意義相反,分類準確率高的特征對應較高的冗余度。從整體來看,在4個統計指標中,隨著特征數的增多,相對極差表現出較高的相關性與較低的冗余性。冗余度最低為相對極差所對應的30個特征處,為6.9,此時對應最高的分類準確率為97.6%;冗余度最高為均值在10個特征處,為75.6,此時對應最高的分類準確率為78.5%。而相關度最高為相對極差所對應的30個特征處,為2 113;相關度最低為均值在10個特征處,為262.8。
由以上結果分析可知,相對極差最高分類準確率所對應的30個特征具有最高的互信息值,為2 106.1(最大相關值為2 113,最小冗余值為6.9),且與其他3個統計指標相比,該指標具有較高的相關性和較低的冗余度,與其具有的準確率結果相匹配。結果表明:相對極差中最高的分類準確率對應的特征是有效的,其所包含的信息是最具有腦網絡判別性的特征,能夠有效地對正常被試與抑郁癥患者進行區分。
本文從不確定腦網絡中挖掘頻繁子圖時,涉及到頻繁子圖挖掘算法的選擇。在1.4節提到的4種算法中,分別需要計算當前子圖的支持度的值并與給定的最小支持度相比較。若其是頻繁的,接著進行子圖擴展,找到更多的頻繁子圖,直到所有的邊都搜索完畢。不同的算法判斷子圖是否頻繁以及生成候選子圖的方法不同,進而影響到程序的運行時間。在以上算法的研究中,對于時間復雜度的討論研究者們通過數據集的運行時間來確定。因此,在這里使用本文數據集得到了4種算法的運行時間,如圖6所示。該圖展示了同一數據集在不同的支持度下各個算法的運行時間。

圖6 不同算法的運行時間Fig.6 Running time under different algorithms
由圖6可知,在同一數據集下,本文所采用的方法在不同的支持度下具有最少的時間消耗,能夠較快地找到頻繁子圖,表明該算法在降低時間復雜度方面有效。本實驗中所使用的操作系統是Windows7,處理器為Inter?CoreTMi5,內存為8 GB,操作系統64位。
本文提出的相對極差作為特征提取方法,與傳統方法均值、方差、極差相比,在不同的特征選擇方法下,其分類準確率優于其他3個指標,表現出較好的分類性能,具有較強的泛化性。接著對相對極差分類準確率最高的特征進行異常成分分析可知,30個特征對應的腦網絡成分大部分屬于默認網絡,感覺運動網絡和注意網絡,這表明它們在分類抑郁癥患者和正常被試過程中起到較大的作用,且該結果與已有研究相對應。最后,將4種特征提取方法獲得的特征進行最大相關最小冗余分析,相對極差與其他3個統計指標相比,該指標具有較高的相關性和較低的冗余度,與已有的準確率結果相匹配,進一步驗證了相對極差作為特征提取方法的有效性。因此,本文提出的相對極差作為特征提取方法,能很好地找到與分類有關的特征,具有很強的泛化性。本研究為不確定腦網絡特征提取方法提供了重要的參考意義。