趙小虎,葛曼玲,陳盛華*,王磊,宋子博,謝沖,楊澤坤
作者單位:1.河北工業大學省部共建電工裝備可靠性與智能化國家重點實驗室,天津300130;2.河北工業大學河北省電磁場與電器可靠性重點實驗室,天津300130;3.廊坊職業技術學院,廊坊065001
自閉癥又稱自閉癥譜系障礙(autism spectrum disorders,ASD)是一種由多類不同原因所引發的神經發育性障礙[1],其主要癥狀表現在社會交流障礙、刻板行為、情感缺陷等方面,會造成患者在日常生活、交流和學習中障礙[2,3]。通過臨床對照研究發現:ASD 早期準確檢測和及時干預能夠很大程度上改善患者的語言能力、認知能力以及行為習慣。因此,ASD識別工作意義重大[4-6]。
近些年來,利用靜息態功能磁共振成像(resting-state functional magnetic resonance imaging,rs-fMRI)技術[7]在自閉癥患者的臨床早期檢測研究中越來越突出,該技術以其無創、快捷、高空間分辨率以及良好的患者適應性等成為腦功能影像學研究的先進手段。其中,基于相關性的功能連接(rs-fMRI functional connection,rs-fMRI-FC)為評估腦功能提供了科學的檢測指標。例如:以健康人大腦功能影像為對照,通過提取自閉癥患者功能腦影像學標記,利用rs-fMRI-FC 定位自閉癥患者功能異常的腦區,以此來對自閉癥患者早期檢測提供輔助依據[8]。但是,傳統的功能連接計算處于低階運算水準,無法表達腦功能之間交互信息,影響了評估精準性。
隨著網絡拓撲技術的發展,腦網絡概念被越來越多的科學家所重視。它能夠從腦連接層面刻畫大腦功能的交互,是高階功能連接計算[9]。通過對大腦功能網絡的拓撲屬性變化來研究腦區之間信息傳遞異常,能夠高效地挖掘發生腦功能特異性改變的腦區,從網絡這一高級層面輔助檢測患者。但現階段,利用fMRI數據構建腦功能網絡并結合機器學習算法在腦疾病的早期研究檢測中,大多通過提取腦網絡單一拓撲指標分析識別腦疾病[10,11]。然而,腦網絡單一拓撲屬性僅僅只是針對大腦網絡某一個方面的描述,未能夠充分考慮到多個大腦區域之間的拓撲結構信息,很難有針對性地給出全面的描述。所以,識別效果很難被大幅度地改善。
特征融合是機器學習中的先進技術,常常被用于腦疾病的研究中,例如對提取的特征向量采用串聯的方式進行融合研究[12,13]。但是,這種方法尚未在ASD 中進行過測試。此外,這種首尾串聯融合的方法,由于每個特征對整體的貢獻不同,僅靠簡單的串聯融合進行分類精度可能不高。
針對上述問題,我們提出特征加權融合的方法,將其應用于rs-fMRI 數據在自閉癥患者腦功能網絡研究中,試圖通過融合多種網絡特征將fMRI-FC計算水準提到高階。為此,我們以健康人數據為對照,設計了一種網絡特征加權融合的自閉癥檢測方法,將不同的腦網絡拓撲指標進行加權融合,使得分類器所得到的腦網絡信息更加全面。并借助機器學習方法驗證其在自閉癥患者檢測中的優勢,為rs-fMRI檢測自閉癥提供了一種新方法。
本文的主要貢獻包括:(1)利用自閉癥和健康被試的rs-fMRI數據,通過偏相關構建低階功能連接矩陣FC 來反映不同腦區之間功能連通性;(2)在此基礎上通過構建多稀疏度關聯矩陣來建立腦網絡,從高階水平上分析大腦功能,并采用以稀疏度為橫軸,取特征值曲線下面積(area under the curve,AUC)來表征網絡屬性在連續稀疏度下的整體特征;(3)選取網絡中4種常用局部節點指標,將其分類準確率所占的比重作為權重系數進行特征融合,以此構建特征向量,輸入到支持向量機中分類并進行交叉驗證以檢驗融合效果。最后,分別與單一特征分類效果和傳統特征融合比較,以說明加權特征融合的優越性。本文的研究思路如圖1所示。
圖1 本文研究方法的流程圖Fig.1 Study Flowchart
數據來源于國際神經影像數據共享倡議組織(International Neuroimaging Datasharing Initiative, INDI)分享的公開數據集ABIDE I (http://fcon_1000. projects. nitrc. org/indi/abide/abide_I.html)。本文從中選取了TRINITY實驗中心數據,該數據包括24 例ASD 患者組(12.0~25.9 歲男性青少年)以及25 例正常對照組(normal control,NC)數據(12.0~25.7 歲男性青少年)。各組納入標準如下:(1) ASD組:右利手的男性青少年;滿足自閉癥診斷觀察量表(Autism Diagnostic Observation Schedule,ADOS)上的ASD自閉癥判別標準。(2) NC組:右利手的男性青少年,年齡和智商與ASD 組相匹配;沒有任何精神遺傳疾病,包括閱讀障礙或使用障礙;沒有被診斷為ASD的一級親屬的存在;社會反應量表分數低于50 分或社會交流問卷分數低于10 分。所有ASD 患者和健康對照者都是通過相關的遺傳學研究計劃、臨床服務、學校和倡導團體所招募的,并且獲得圣詹姆斯醫院和Linn Dara CAMHS倫理委員會的道德認可,所有參與者及其父母都獲得書面知情同意。所有ASD患者和健康對照者排除標準包括:(1)通過韋氏智力量表評估智商小于70;(2)患有神經病學、精神病學或遺傳病史;(3)具有MRI 禁忌證;(4)當前使用精神藥物。靜息態磁共振數據采集是在都柏林圣詹姆斯醫院高級醫學成像中心(Centre for Advanced Medical Imaging,CAMI)的Philips 3 T Achieva MRI 掃描儀上完成。受試者在圖像采集過程中仰臥在fMRI 掃描儀中,閉上眼睛休息五分鐘并盡可能保持靜止。掃描參數具體為:層數38 層,TR 2000 ms,TE 28 ms,切片厚度3.5 mm,視野范圍(FOV)為240 mm×240 mm,翻轉角90°,共采集150個時間點。
使用DPARSF_V5.1[14](Data Processing Assistant for Resting-State fMRI)工具包對fMRI 圖像數據進行預處理,具體的步驟包括:(1)將每位實驗被試采集的前5 個時間點刪除,以排除掃描前期的不穩定因素,使信號更加穩定;(2)進行時間層校正,以保證每個Volume內所有體素獲取的時間在理論上一致;(3)去除頭動偽影的影響;(4)將圖像配準至蒙特利爾神經研究所的標準空間,然后進行3 mm×3 mm×3 mm 重采樣;(5)進行帶通濾波以減少低頻漂移和高頻生理噪聲的影響;(6)回歸干擾信號;(7)采用4 mm 半高全寬的高斯濾波器對圖像進行空間平滑,以減小空間噪聲。
1.2.1 節點的定義
將預處理后數據使用自動解剖標記(automated anatomical labeling atlas,AAL,第1 版)圖譜[15]將除小腦外的整個大腦皮層劃分為90 個解剖區域(AAL-90)。將每個腦區定義成網絡中的一個節點,對應值為節點值。通過計算每個腦區所處坐標范圍內所有體素的血氧水平依賴信號的算術平均值來作為這個腦區(網絡中的節點)的節點值。
1.2.2 邊的定義
偏相關指只考慮兩個變量之間的相關性,排除其他相關因素的干擾[16]。在腦網絡的構建中,指忽略其他腦區的影響,只考慮兩個腦區信號之間的相關性,因此,又稱凈相關分析[17]。
本文主要采用相關矩陣求逆法計算任意兩腦區之間的偏相關值。首先,求得相關矩陣:
將任意兩個腦區的偏相關系數值作為腦功能網絡邊,得到一個90×90 對稱矩陣,對每個被試進行Fisher-r到Fisher-z轉化,獲得更接近正態分布的時間序列[18]。
1.3.1 稀疏度選擇
為了驗證腦功能連接矩陣的拓撲特性,使用稀疏度來排除噪聲元素,連通性稀疏度s (即現有邊與網絡中最大可能邊數的比率)被用作閾值度量,以確保所有被試網絡節點和邊數相同。本文選取閾值s 在0.05~0.50,步長選為0.05。 然后,通過GRETNA_V2.0 網絡分析工具包[19]在MATLAB 環境下計算每個稀疏度閾值下網絡指標。為了衡量網絡屬性在連續稀疏度下整體特征,本研究以稀疏度為橫軸,特征值為縱軸構建坐標系,用對應的10 個稀疏度下特征值做曲線,計算每個屬性曲線下的面積AUC 值,用于后續分析[20-21]。AUC為大腦功能連接拓撲提供了總體上的標量信息,使其不受單一閾值選擇的影響。
1.3.2 網絡指標
腦功能網絡拓撲屬性種類繁多,分為局部屬性和全局屬性兩種網絡特征。通常,腦功能網絡節點特征由局部屬性體現。目前對精神疾病的腦網絡屬性研究多以網絡中節點度、聚類系數、節點效率和節點局部系數為主[22,23],因此,本文選用上述4個局部節點指標做分類研究,如表1所示。
表1 腦功能網絡分析指標簡表Tab.1 Brief descriptions of brain functional network metrics employed in this study
為了從特征集中找到最優的特征子集,防止過擬合現象,以優化模型性能和高效訓練分類器,有必要在分類前進行特征選擇。F-score 是度量特征在不同類別間區分度的一種指標,其本質是選取類內差異小,類間差異大的特征[24,25]。
在本文中,對于每類節點指標網絡拓撲屬性,每名被試會得到一個1×90 的行矩陣,通過F-score 進行特征提取,具體過程:首先,對90 個腦區計算F-score 進行評分,選取前10 個評分最高的腦區;然后,對自閉癥患者和健康對照組所得到的腦區進行雙樣本t檢驗,選取具有統計意義的特征腦區(P<0.05)作為特征向量。
除此之外,最小冗余最大相關性(minimal redundancy maximum relevancy,mRMR)和ROC 敏感性分析也被廣泛應用于特征腦區篩選上。mRMR 算法是通過利用互信息衡量不同特征之間相關性和冗余度,并根據信息差和信息熵這兩個代價函數來尋找特征子集,使得選出的特征與目標類別之間具有最大相關性,且互相之間具有最小冗余度,可以很好地實現特征選擇[26]。ROC 敏感性分析是根據一系列不同的二分類方式,以真陽性率為縱坐標,假陽性率為橫坐標繪制曲線。在臨床應用中,通過對各個腦區做ROC敏感性分析,可以選取對疾病識別較為敏感的腦區。
根據以往研究發現,特征融合常采用多種特征向量首尾串聯進行融合[12,27]。在此基礎上,本文提出了一種加權的特征融合方法。從腦功能網絡中得到的4個節點指標特征向量F,在進行特征融合時,對每種特征向量矩陣乘上一個權重系數M,然后再對其首尾串聯實現加權融合,具體計算方法:
其中,F1,F2,F3,F4為4 類節點指標特征向量,Acc(Fk)為每類節點指標模型分類準確率,Ff為融合后的特征向量矩陣。
在本文中,把49名被試的網絡特征作為數據集,按照3∶2比例分成30名訓練集和19名測試集,作為機器學習的基本輸入信息通過min-max Normalization對數據進行歸一化處理。選擇徑向基函數作為核函數,選取比例參數g=1 2σ2代替核參數σ,形成一組參數對(C,g)。其中,參數C 和g 的取值范圍設定為[-10,10] (步長0.1),用網格搜索方法尋找誤差最小的懲罰系數C 和核參數σ 為最優參數。創建訓練模型,對測試集數據進行計算。隨機交叉驗證,即在每次實驗分類前,將所有的特征向量隨機排序并分組,用于機器學習分類實驗。本文采用了10次隨機交叉驗證和留一法交叉驗證兩種方法加以驗證,確保分類結果的可靠性。
為了檢驗單一局部節點指標的分類結果,分別利用三種不同算法對網絡屬性進行特征腦區篩選,并將其放入機器學習中進行10次隨機交叉驗證得到平均準確率,結果如圖2所示。
圖2 節點指標分類結果對比圖Fig.2 Classification by network node index
盡管F-score 分類精度相對其他兩種方法要好些,但總的來說,單一節點指標分類精度都不高,這是因為只考慮腦網絡單一特征屬性,將會忽略其他特征屬性,其很可能會對結果產生很大影響,從而導致分類精度都不高。因此,可以在特征融合時根據分類效果不同,通過引入權值方法,綜合考慮各個屬性,以提高分類效果。
2.2.1 特征腦區
通過圖2我們發現,通過F-score算法,在4類單一節點指標中分類精度相對較好,因此,為了研究特征加權融合后對分類效果的影響,我們利用F-score算法來挑選特征腦區,得到了在兩類被試中具有組間差異的特征腦區,并將其可視化。如圖3 及表2所示:
表2 具有顯著性差異的特征腦區(P<0.05)Tab.2 Characteristic brain regions with significant differences(P<0.05)
圖3 通過F-score提取的特征腦區Fig.3 Feature brain regions extracted by F-scores
由表2可見,四個腦功能網絡節點指標所確定的特征腦區主要集中在額葉、顳葉和梭狀回、海馬、丘腦以及默認模式網絡等區域,即自閉癥患者在這些區域相對健康對照組較為敏感。
2.2.2 SVM分類交叉驗證
據前述,分別將4類單一節點指標特征和加權融合后特征向量Ff放入機器學習中用SVM 分類器進行分類訓練,為了測試算法的準確性,分別采用了10次隨機驗證和留一法驗證,結果如表3所示。
由表3、4可見,兩種交叉驗證一致地證實了網絡特征指標加權融合后的分類結果相對于單一節點指標特征有大幅度改善。從10 次隨機驗證結果來看,特征加權融合后的分類準確率范圍在84.21%~94.74%,平均準確率為89.47%,相對于單一節點指標特征,平均提高21.05%。從穩定性上分析,通過特征加權融合后的方差比單一節點指標特征中穩定性最好的(節點度特征指標)還要低,方差達到0.17%。這表明:融合后特征向量更全面地反映了腦網絡中拓撲信息,具有更強的分類能力,彌補了僅靠單一網絡節點指標分類造成的腦網絡局部信息被忽略的缺陷。另外,為了防止僅靠一種特征提取算法造成的偶然性和局限性,在此又對本文前面所提及的3種特征提取算法進行了對比,如圖4所示:
表3 隨機交叉驗證單一指標和加權融合分類準確率Tab.3 Random cross validation for classification accuracy by a single index and weighted fusion
表4 留一法驗證單一指標和加權融合分類準確率Tab.4 Leave-one validation for classification accuracy by a single index and weighted fusion
圖4 不同算法提取分類結果對比圖Fig.4 Classification by network node index and fusion
從圖4中可以看出,無論是通過哪種算法進行特征提取得到的特征向量放入機器學習中訓練分類,通過本文的基于網絡特征加權融合的方法分類精度都優于傳統的單一節點指標作為特征向量結果。
為了驗證本文提出的特征加權融合算法的效果,與傳統的多種特征向量串聯融合進行了實驗對比[12],并進行了10 次隨機驗證和留一法驗證已檢驗,如表5所示。
對比表3 和表5,不難發現,與單一節點指標相比,特征融合后分類精度都取得了不錯的效果,但本文中提出的基于網絡特征加權融合算法在分類的穩定性和精度上仍然優于傳統的特征首尾串聯融合算法。綜上所述,本文所提出的特征加權融合模型具有優良性能。因此,本文的方法將有利于提高自閉癥檢測的精準性。
表5 特征加權融合和特征串聯融合分類準確率Tab.5 Classification accuracy of feature weighted fusion and feature non-weighted fusion
本研究順應當下人工智能時代,參照健康對照組,提出了一種網絡特征加權融合的方法,并將其運用在自閉癥的識別檢測上。通過對不同的腦網絡拓撲指標進行加權融合,在網絡層面上融合多種網絡特征,使得分類器所得到的腦網絡信息更加全面。通過和單一節點指標特征進行對比,該方法取得了較好的分類結果,比單一節點指標特征分類準確率平均提高21.05%,而相對于傳統的首尾串聯融合在精度上提高了4.74%。這種加權融合的算法為臨床輔助診斷自閉癥提供了一種新方法。
值得注意的是,文獻[12]將多種尺度腦網絡的特征進行融合,對抑郁癥患者進行早期檢測,識別率可達88.67%,相對于單一尺度下網絡特征均有明顯的提高。文獻[28]結合節點相關屬性和整個網絡拓撲相關屬性融合對阿爾茨海默病進行分類,最終實現了91.9%的分類準確率,比基于單一拓撲指標特征的方法高10.8%;文獻[29]通過利用rs-fMRI 構建動態腦網絡,對rs-fMRI時間序列特征和高階網絡的拓撲屬性特征進行融合對輕度認知障礙患者識別診斷,最終分類準確率達到了87.7%,比最先進的方法至少提高了5.5%。由此可見,通過采用融合多種形式的腦網絡拓撲指標方法可以提高分類精度,為早期患者識別檢測提供了新指標和方法論,本文實踐處于當前高水平。
本文提出腦功能網絡特征加權融合的自閉癥檢測模型,提取了特征腦區主要包括在后扣帶回、梭狀回、顳中回、海馬旁回等默認模式網絡區域中。研究表明,后扣帶回腦區可能具有調節腦網絡穩定性的作用,從而影響注意力的集中[30];顳中回是語言、情感和社會認知基礎網絡的一部分[31];此外,有研究發現與健康對照相比,自閉癥患者的頂葉和顳葉皮質厚度增加[32,33],另外,還有一些基于任務的連通性研究也報告了ASD 患者在任務相關大腦區域的連通性不足,包括在涉及工作記憶的額葉、頂葉、枕葉連接[34-36];在默認網絡中,Weng等人[37]發現ASD的社交障礙與默認網絡的多個區域的連接強度有關。具體表現在后扣帶皮層、額上回、顳葉與海馬旁回之間連接性減弱。說明自閉癥患者在這些大腦區域相對健康對照組較為敏感,與本文提取的特異于ASD的特征腦區有很大交集。
雖然,本文提出的網絡特征指標加權融合方法在識別ASD取得了較好的實驗結果,但研究具有一些局限性。文中采用了解剖模板AAL,已有研究發現存在一些潛在局限性[38]。例如,腦區劃分較為粗糙,可能會忽略較為重要的皮層和邊界信息。未來的研究中可以采用多模板方法進行網絡分析,在一定程度上解決單一模板的偏差。
本研究在偏相關性的功能連接構建腦功能網絡基礎上,對照健康組,提出網絡特征加權融合算法,提取了特異于ASD 的靜息態腦功能網絡的影像學標記,以此為特征向量輸入到機器學習中,可明顯提升對ASD識別的準確率,比單一節點指標特征分類準確率平均提高21.05%,可達89.47%,也比傳統的無加權特征融合提高了4.74%,提高了識別精準性。
作者利益沖突聲明:全部作者均聲明無利益沖突。