999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于sparse group Lasso方法的腦功能超網絡構建與特征融合分析

2020-03-06 13:23:56趙云芃李欣蕓劉志芬陳俊杰
計算機應用 2020年1期
關鍵詞:分類特征方法

李 瑤,趙云芃,李欣蕓,劉志芬,陳俊杰,郭 浩

(1.太原理工大學 信息與計算機學院,山西 晉中030600; 2.太原理工大學 藝術學院,山西 晉中 030600;3.山西醫科大學第一醫院 精神衛生科,太原 030000)

0 引言

近年來,神經影像學技術用于探索腦區間的交互作用已經得到了越來越多的關注。低頻血氧水平依賴(Blood Oxygenation Level Dependent,BOLD)信號存在顯著的低頻相關,可作為神經生理學指標用于靜息狀態功能磁共振成像(Resting-State functional Magnetic Resonance Imaging, RS-fMRI)來檢測靜息狀態下的腦自發活動[1]。該自發活動可通過BOLD信號的時間相關性來量化,進而將其表征為腦網絡。復雜的腦網絡研究有助于闡明神經精神疾病的機制,并有可能提供相關的成像標記,為臨床腦疾病的診斷和評估提供新的視角[2],因此,腦功能網絡已成功地用于研究腦疾病的研究,包括癲癇、抑郁癥、阿爾茨海默癥、精神分裂癥等。

傳統的網絡模型大多都是捕捉兩個腦區間的信息。然而,已有研究表明在人腦交互活動中,不僅兩個腦區間存在聯系,多個腦區間也同樣存在直接交互信息[3]。為了彌補傳統網絡的不足,超網絡被提出[4]。超網絡基于超圖理論,區別于傳統網絡,其節點表示腦區,超邊表示多個腦區間的直接交互,是對傳統的延伸。近年來,超圖已成功地應用于各種各樣的醫療影像領域包括圖像分割以及分類[5-6]。Liu等[5]使用視圖對齊超圖學習方法對阿爾茲海默癥中得到的不完整的多模態數據進行分類診斷。彭瑤等[6]提出一種基于超圖的多模態特征選擇算法來改善原有方法對腦疾病的診斷。一些最近的研究給出了神經科學和超圖之間的聯系[4,7-9]。Jie等[4]通過超圖技術創建腦功能超網絡,來進行腦疾病診斷。靳研藝等[7]考慮到腦區間的組效應,進一步對Jie等[4]創建的超網絡進行改進。張帆等[8]考慮到全局的拓撲信息,提出了基于腦功能超網絡的多特征融合分類方法。Gu等[9]提出了基于BOLD磁共振影像數據的超圖表示方法,且將超邊分成具體的三類:橋、星型以及聚類,來分別代表二分:焦點和空間分布式架構。進一步地,一個新的基于學習的超網絡最近也被提出來表示多個腦區間的復雜連接模式[10]。Zu等[10]采用基于超圖學習的方法來識別自閉癥譜系障礙和注意力缺陷多動障礙疾病中子網絡中的生物標記物。除此之外,其余感興趣的超圖應用也被發現在蛋白質功能預測和模式識別中[11],Gallagher等[11]將聚類系數擴展到超網絡中,并從蛋白質相互作用的角度來看待這些指標的物理意義。

在最近的研究中,Jie等[4]利用Lasso(Least absolute shrinkage and selection operator)的方法求解稀疏回歸模型進行超網絡的構建,但Lasso方法由于本身的局限性,導致構建的超網絡缺乏解釋分組效應的能力[12]。然而,多個研究表明腦區間經常存在組結構,腦區結構傾向于共同參與以實現某種功能[13],因此,考慮到組結構的問題,之前的研究中,提出使用基于group Lasso(gLasso)方法來改善超網絡的創建[14],但group Lasso方法是在組級別上進行變量選擇,這樣構建的超網絡過于寬松,可能包含一些錯誤的連接。

為了解決上述問題,考慮到腦區間存在著潛能的組結構,本文對Guo等文章[14]進行了延伸,進一步提出sparse group Lasso(sgLasso)[15-17]方法來求解稀疏回歸模型進行超網絡的創建從而解決組結構問題。sparse group Lasso方法是混合了Lasso與group Lasso方法,既選擇組間變量也選擇組內的變量,是一個雙級選擇方法。該方法能夠有效地去除不重要的組以及重要組內的不重要的單個變量[15-16]。

除此之外,多個研究證明真實網絡鄰域之間存在顯著的重疊,不僅單個頂點間的鄰居節點更容易重疊,而且單一的邊也有更大的鄰居凝聚力[11,18-19],因此為了更加準確闡明神經精神疾病的機制以及全面地評估疾病的性能,本研究又引入超網絡中廣泛使用的幾個成對節點間的相互聚類系數作為另一種特征提取方法。

本文主要工作包括:1)使用sparse group Lasso方法來創建腦功能超網絡;2)通過使用兩組超網絡聚類系數計算方式提取特征使其更全面地表達腦功能網絡拓撲且使用非參數檢驗來選擇具有差異的特征;3)使用多核支持向量機(Support Vector Machine,SVM)對選擇的特征進行分類。

1 被試與方法

1.1 方法框架

對于基于sparse group Lasso方法來創建超網絡來進行腦網絡分析的流程框架主要包括數據收集及預處理,基于sparse group Lasso方法的功能超網絡創建,特征提取,特征選擇及分類。具體來說,這個框架由下列幾個步驟組成。

1)數據收集及預處理。

2)超網絡的創建:對于每個被試,使用稀疏線性回歸模型來創建超網絡,即通過sparse group Lasso方法優化目標函數,將選定區域由其他區域的時間序列的線性組合來表示。

3)特征提取與選擇。

a)使用超網絡中獨有的局部聚類系數的定義,計算成對節點間的聚類系數。也就是一對節點共享了多少條邊。

b)使用聚類系數在傳統圖中的定義,即一個頂點的鄰居也互相是鄰居的比例。將其概念應用至超網絡中來定義聚類系數,進而求得每個節點的局部聚類系數。

4)使用非參數檢驗來分別對兩種不同類型的局部聚類系數選取腦區特征。

5)分類模型構建:

a)將兩種不同類型的局部聚類系數選取出的具有顯著差異的特征作為分類特征融合至一起來構建對應的分類器。

b)使用交叉驗證方法來測試創建的分類器以及獲得最后分類結果。

1.2 數據采集和預處理

按照山西醫學倫理委員會(reference number: 2012013)的建議征得所有參與者的同意,并參照Helsinki宣言與所有被試達成書面協議。本次實驗中,一共招募66名被試,分別包括38名首發,無用藥抑郁癥(Major Depressive Disorder, MDD)患者(15名男性;平均年齡:28.4±9.68歲,區間:17~49歲)和28名健康被試(13名男性;平均年齡:26.6±9.4歲,區間:17~51歲),所有被試者均為右利手。他們的影像數據通過3T磁共振掃描儀(Siemens Trio 3-Tesla scanner, Siemens, Erlangen, Germany)進行收集來獲得。詳細被試信息參考表1。本文所用數據集已存至網盤,其鏈接為https://pan.baidu.com/s/11Ae-Qm9WX4MqwwobYjPP7g,提取碼為964a。

表1 被試基本特征 Tab. 1 Basic characteristics of subjects

參與者的影像數據由山西醫科大學第一附屬醫院中熟悉磁共振的放射科醫師來完成采集以及掃描工作。掃描過程中,所有參與者要求閉眼保持靜止,不去想其他事情。每次掃描得到248個連續的EPI功能圖像(volumes),且設置具體的掃描參數如下:33 axial slices, repetition time (TR)=2 000 ms,echo time (TE)=30 ms,thickness/skip=4/0 mm,field of view (FOV)=192 mm×192 mm,matrix=64 mm×64 mm,flip angle=90°。由于初始數據信號的不穩定性,將功能圖像的前十個時間序列丟棄。

應用SPM8(http://www.fil.ion.ucl.ac.uk/spm)進行磁共振圖像數據預處理,主要通過時間層校正、頭動校正、MNI空間標準化、帶通濾波器(0.01~0.10 Hz)和去線性漂移。首先對圖像進行時間層校正和頭動校正。將頭動大于3 mm或轉動超過3°的被試丟棄,使其不包括在最后的66例被試中;圖像校正后,接著進行12維度放射變換,將校正后的圖像標準化到蒙特利爾神經學研究所(Montreal Neurological Institute,MNI)標準空間中;最后進行去線性漂移和帶通濾波來避免低頻漂移及高頻生物噪聲所造成的影響。

1.3 超網絡創建

1.3.1 超圖論

圖論已經被廣泛用于計算和腦研究成像,因為它可用于量化大腦連接,通過圖來表示感興趣對象之間的關系,且圖中的節點表示的是對象,邊即節點之間的連接來可以描繪對象之間的關系[20]。之前的許多研究都采用簡單圖來創建網絡模型,節點作為腦區,兩個節點間的連接作為一條邊,但這個只能僅僅表達成對腦區間的成對關系,但在腦區間的功能互動中,越來越多的研究證明腦區間互動存在高階關系,因此為了克服這個局限性,引入超網絡。

1.3.2 稀疏線性回歸模型

預處理完成后,按照自動解剖標記 (Anatomical Automatic Labeling, AAL)[22]模板將大腦劃分為90個感興趣區域(Region Of Interest,ROI),包括左右半腦各45個ROI,每個ROI作為功能腦網絡中的一個節點。需要注意的是90個ROI指的是大腦區域,小腦除外。每個腦區的平均時間序列通過執行回歸來排除大腦中平均腦脊液(Cerebro-Spinal Fluid,CSF)、白質信號以及頭動校正的影響。這里需要注意的是,全腦平均信號是否回歸在該領域內意見還不一致,因此為了避免爭議,本研究在數據預處理的過程中并未作全腦信號。利用rs-fMRI時間序列基于線性回歸方法構建功能連接超網絡[4],具體來說,就是通過該方法將選定的腦區通過其他腦區的線性組合來表示,以此獲得該腦區與其他腦區的交互作用,同時迫使與無意義腦區的交互作用為零。

稀疏線性回歸模型具體表示如下:

xm=Amαm+τm

(1)

其中:xm表示第m個ROI的平均時間序列;Am=[x1,x2,…,xm+1,xm+2,…,xM]表示第m個ROI的數據矩陣(除了第m個腦區的所有平均時間序列,且對應第m個ROI的平均時間序列設置為0);αm表示系數向量,其量化了從其他ROI到第i個ROI的影響程度;τm表示噪聲項。αm中非零元素表示的是與特定ROI有著交互作用的ROIs,零元素表示與特定ROI的交互作用是無意義的ROIs。

1.3.3 基于sparse group Lasso的超網絡創建

在之前的研究中,通過Lasso方法來求解稀疏回歸模型來創建腦網絡[4],但Lasso方法缺少解釋分組效應的能力[12]。也就是說,如果一個特定的變量與一組變量的成對相關性都很高時,那么Lasso方法通常只選擇一組變量中的一個,且不關乎哪一個,因此選取的方法過于嚴格,會丟失一些有用的連接。為了解決這一問題,考慮到腦區之間的組結構,已有的研究通過引入group Lasso(后面用gLasso表示)方法來進行超網絡的創建,主要是在事先定義的組級上進行有效的變量選擇[23]。也就是說,gLasso將整個組視為一個整體,并確定它是否對問題重要。雖然組套索給出了一組稀疏組,但如果在該模型中包含一個組,那么該組中的所有系數都將是非零的。有時希望同時包括組稀疏性和組內稀疏性,例如,如果預測因子是腦區,希望在多個腦區相互作用中識別特別“重要”的腦區;然而,這種方法不能在一個組內產生稀疏度。也就是在功能腦網絡中具有組結構的多個腦區中有幾個腦區與選定腦區具有高度相關作用,gLasso則認為該組中的所有腦區非零,也就是所有腦區均與選定腦區均具有高度相關作用。這樣構建的網絡過于寬松,或者存在許多虛假的連接,或者丟失一些有用的連接。

因此引入sparse group Lasso(后面用sgLasso表示)[15]方法來改善超網絡的創建,這個方法仍然是基于線性回歸模型,但是既可以在組級上進行變量選擇,又可以在單個變量級上進行變量選擇,也就是說,可以在自由地選擇組間或組中的單個變量。在功能腦網絡中,如果存在組效應的多個腦區中有一個或幾個腦區均與選定腦區相關,則該方法不會只選擇該組,而是選擇該組中與它相關的一個或多個腦區,當然如果該組均高度相關,則會選擇整組,這樣便能過濾掉一些虛假且保留一些有用的連接。因為sgLasso方法是選擇出重要的組,在重要的組里再選擇重要的變量,因此在利用sgLasso方法進行超網絡創建之前,需要通過聚類算法先依據90個腦區的平均時間序列進行聚類得到分組,再基于該方法進行超網絡構建。本研究中采用k中心點聚類法[24]來進行聚類從而對腦區進行分組,通過設置不同的k值,則會獲得不同的超網絡拓撲及分類性能。在本研究中,當聚類數目k設置為30時,該方法實現最高的分類準確率(詳細分析在3.1節涉及)。接著使用sgLasso方法來創建超網絡,式(2)是優化目標函數:

min(‖xm-Amαm‖2+λ1‖αm‖1+

(2)

其中:αm通過聚類被分成了k個非重疊的樹組(αmG1,αmG2,…,αmGk),而G1有樹結構的節點;λ1,λ2均是回歸參數,λ1被用來調整模型組內稀疏性,即控制非零組中非零系數的數量,λ2被用來調整組級稀疏性[25-26],即控制具有至少一個非零系數的組的數量。該模型是Lasso與gLasso的結合:λ1=0得到gLasso估計,λ2=0即得到Lasso估計。需要注意的是,該模型看起來與elastic net模型有點相似,但卻是不同的,因為l2范式在0處不可微分,因此一些組完全歸零;然而,在每個非零組中,它給出了彈性網絡擬合[27]。基于該方法來構建每個被試的超網絡,ROI作為節點,第m個ROI以及在αm中非零元素對應的ROIs作為超邊。對于每一個ROI,固定λ2值,通過變化λ1值從0.1~0.9,增量為0.1,則會產生一組超邊。在該實驗中,將λ2設置為0.4,得到了該模型中最高的準確率,為87.88%。本實驗中,通過SLEP包[28]來優化求解(詳細的分析描述見3.2節)。

1.4 特征提取與選擇

功能連接超網絡創建之后,需要選取具有代表性、能夠識別目標的特征集合,這就需要特征定義。在腦功能超網絡分析中,有多項指標可以反映節點及整個網絡的特性,但在醫學影像領域中,大多數研究都是將聚類系數作為網絡局部特性指標來改善疾病診斷性能。在之前的研究中,只涉及到單個節點的聚類系數作為特征提取方法;然而依據多個研究證明真實網絡鄰域之間存在顯著的重疊,不僅單個頂點間的鄰居節點更容易重疊,而且單一的邊也有更大的鄰居凝聚力(neighborhood cohesiveness around individual edges)[11,18-19],因此為了盡可能更加準確且全面地評估疾病的性能,本研究又引入超網絡中廣泛使用的幾個成對節點間的相互聚類系數作為另一種特征提取方法。

1.4.1 單一節點的聚類系數的特征提取

超網絡構建完成后,需對其執行特征提取計算。本研究中,從不同角度引入了超圖中三種不同定義的單一節點的聚類系數(HCC1、HCC2、HCC3)來描述超網絡的局部聚合[11]。單一節點的聚類系數與傳統圖中聚類系數定義相同,即一個節點其鄰居的緊密程度。從連接超網絡中依據這三個基于單一節點的聚類系數提取特征。表2表示了定義及這些屬性的計算。

表2 基于單個節點的聚類系數的定義與公式 Tab. 2 Definitions and calculation formulas of clustering coefficients based on single node

表2中:u,t,v指的是某一節點;N(v)={u∈V:?e∈E,u,v∈e}指的是節點集,E指的是超邊集,e指的是某條超邊,N(v)表示包含節點的所在超邊含有的其他節點的集合;若?ei∈E,且u,t∈e,但v?ei,則I(u,t,v)=1,否則I(u,t,v)=0;S(v)={ei∈E:v∈ei},v表示節點,ei表示超邊,S(v)表示包含節點的超邊的集合。

1.4.2 成對節點間的相互聚類系數的特征提取

多個研究證明真實網絡可以被小世界網絡表示,其鄰域之間存在顯著的重疊,不僅單個頂點間的鄰居節點更容易重疊,而且單一的邊也有更大的鄰居凝聚力(neighborhood cohesiveness around individual edges)[11,18-19],因此對傳統的聚類系數進行擴展,產生節點對間的聚類系數,而且該計算聚類系數的方式已被廣泛用于超網絡中[11]。在這種定義形式下,聚類系數則指的是一對節點共享了多少條邊。在整個超圖研究中,已經有多種方法計算了節點對的聚類系數[11,18-19]。在本文研究中,則引入了5種廣泛使用的節點對的聚類系數從不同的角度反映通過單一的邊的鄰居凝聚力,從而更全面地表達超網絡中的拓撲屬性。從連接超網絡中依據單一的邊的聚類系數定義分別提取特征。表3表示了定義及這些屬性的公式。

表3 基于一對節點的聚類系數的定義與公式 Tab. 3 Definitions and calculation formulas of clustering coefficients based on a pair of nodes

表3中:u,v指的是腦區節點,S(v)={ei∈E:v∈ei},v表示節點,ei表示超邊,S(v)表示包含節點v的超邊的集合,Total指的是超邊的總數量。

通過計算成對節點的聚類系數之后,單一節點的聚類系數則是通過平均該節點與其所有鄰居節點的聚類系數來得到[19]:

(3)

COMHCC(u,v)指的是通過任何方法計算求得的超圖中成對節點間的聚類系數。N(v)={u∈V:?e∈E,u,v∈e},V指的是節點集,E指的是超邊集,e表示某一條超邊,N(v)表示包含節點v的所在超邊含有的其他節點的集合。

這5組指標是從不同的角度反映通過單一的邊的鄰居凝聚力,來進一步地計算每個節點的聚類系數,從而更全面得表達超網絡的局部聚類屬性。從連接超網絡中依據單一的邊的聚類系數定義分別提取特征。

1.4.3 特征選擇

特征提取完后的特征有著一些冗余或無關的特征,需要對其進行特征選擇,去掉無關或冗余的數據,這樣便于建立更準確的預測模型,因此對于MDD患者和正常人,分別對使用兩種不同方式提取的聚類系數產生的270個以及450個節點屬性進行組間ks非參數檢驗[29],已通過錯誤發現率(False-Discovery Rate,FDR)(q=0.05)校正[30]。將選取出的具有顯著組間差異的兩組特征作為分類特征通過多核學習融合至一起進行預測模型構建。

1.5 分類

通過本文選取的超網絡中兩組具有顯著差異的腦區特征作為輸入特征來構建分類模型。通過兩種不同類型的聚類系數彼此提供互補信息來進行MDD分類,采用多核學習來分別通過兩種不同類型的聚類系數估計的內核的最佳線性組合來有效地融合特征。核的整合是通過多個核的線性結合[31]:

(4)

其中:ki(x,y)是第i組的聚類系數中被試x和y間的內核矩陣;M是需融合的核矩陣的數量;αi是權重參數。接著,利用基于LIBSVM分類包(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)的高斯內核的SVM分類器對復雜核進行分類。

留一交叉驗證(Leave One Out Cross Validation, LOOCV)被用來評估分類性能,即若樣本數量為N時,則每次實驗取1個樣本當作測試集,其余樣本作為訓練集。此外,為了得到更好的分類模型,本實驗加入參數尋優過程,主要是對訓練集進行k折交叉驗證,將訓練驗證分類準確率最高的(c,g)作為最優參數,參與模型的構建,從而得到最好的分類模型。本次過程重復N次,得到N個分類模型進行分類測試,最后選取N次實驗的分類準確率的平均值作為最后分類結果。本研究中,(c,g)參數取值的變化范圍設置為[2-5,25],步進大小為1。另外,需要對分類特征進行標準化再進行分類模型構建。需要注意的是,在基于sgLasso方法中由于聚類時初始種子點隨機選取會影響最終的分類結果,在實驗中,通過執行50次實驗來計算其分類結果平均值作為最后分類結果。

2 實驗結果與分析

2.1 差異腦區

利用sgLasso方法進行超網絡構建并提取特征。對提取的每一個特征,均進行非參數置換檢驗且對所有被試評估MDD和CON之間的差異,特征已通過FDR校正。

表4和表5列出了通過兩種不同類型的聚類系數得到的顯著差異的大腦區域。通過兩組聚類系數得到的重疊區域較少,主要集中于右側中央溝蓋、部分邊緣系統區域(右側后扣帶回)以及雙側丘腦。如圖1所示,因此可說明能從兩組聚類系數中得到全面評估疾病診斷性能以及識別與疾病病理學相關的生物標記物。

表4 基于單一節點的聚類系數得到的顯著差異腦區 Tab. 4 Significantly different brain regions obtained by clustering coefficients based on single node

表5 基于一對節點的聚類系數得到的顯著差異腦區 Tab. 5 Significantly different brain regions obtained by clustering coefficients based on pairs of nodes

圖1 使用BrainNet軟件將所有異常腦區域映射到皮質表面Fig. 1 All abnormal brain regions mapped onto cortical surfaces using BrainNet software

基于sgLasso方法構建超網絡,對兩組不同類型的聚類系數利用統計分析計算方法分別得到13個異常腦區以及11個異常腦區(包括重疊區域),包括右側額蓋區、右側補充運動區、雙側丘腦、額葉區域(左側內側額上回、雙側額中回、左側眶部額下回)、邊緣系統(左側內側和旁扣帶腦回、右側內側和旁扣帶腦回、右側海馬旁回、右側后扣帶回、右側嗅皮質、右側距狀裂周圍皮層)、枕葉區域(左側楔葉、左側舌回、左側枕上回、左側中央旁小葉)、顳葉區域(左側顳極:顳上回、左側顳極:顳中回)。這些腦區已經在之前的文獻中被證明與抑郁癥的病理研究存在著顯著的關聯,并將該方法取得的差異腦區與其他文獻所得到的結果一致。Zhu等[32]證明右側額蓋區的模塊度與抑郁嚴重程度呈負相關。Liu等[33]證明在右側補充運動區,抑郁癥患者與正常人存在差異。Jin等[34]使用圖論來評估抑郁癥青少年腦功能網絡的拓撲特征時,發現抑郁癥青少年中的左側內側額上回等腦區受到嚴重破壞。Guo等[35]使用機器學習對抑郁癥分類,其中異常腦區包括內側和旁扣帶腦回,右側后扣帶回和雙側額中回等。Qiu等[36]使用結構磁共振成像證明抑郁癥異常腦區包括右側海馬旁回以及左側顳級:顳中回等。Lord等[37]研究單極性抑郁癥靜息態功能連接社區結構的變化時,發現左側舌回等腦區發生變化。Liu等[38]通過使用回波平面成像序列獲得靜息態fMRI,從而計算低頻振幅以研究靜息狀態下的低頻(0.01~0.08 Hz)振蕩的振幅時,發現與正常人相比,抑郁癥患者在左側枕上回等腦區的低頻振幅明顯降低。Rolls等[39]發現左側中央旁小葉等腦區在研究抑郁癥的有效連接時與正常被試存在差異。Lui等[40]發現頑固性抑郁組患者主要在雙側丘腦區等的功能連接受損。Guo等[41]基于最小生成樹的多特征融合方法進行分類時,表明右側嗅皮質在兩組被試間存在差異。Zhang等[42]發現在右側距壯裂周圍皮層抑郁癥的節點中心性指標明顯下降。使用不同成像方法識別的大腦區域之間的覆蓋腦區有限,最一致的區域包括左側顳級:顳上回等[43]。

2.2 分類表現

評估了基于sgLasso方法創建的超網絡模型的分類性能,并且與傳統的超網絡創建方法(Lasso方法與gLasso方法)進行比較。分別使用兩種不同類型的聚類系數作為特征提取,非參數置換檢驗用來特征選擇,SVM用來分類,LOOCV用來評估分類性能,得到其準確率、敏感性(可準確識別病人的比例)、特異度(可準確識別正常被試的比例)和平衡準確率(Balanced ACcuracy,BAC)(敏感性和特異度的均值,為了保證數據之間的平衡)。這里需要注意的是,這三種方法提取出來的用于分類的特征所對應的腦區是不同的腦區,假若使用相同的腦區,則會導致存在非差異性特征參與分類模型的構建,從而并不能創建最優的分類模型,以致不能得到最好的分類準確率;同時,利用這三種方法創建超網絡所使涉及的參數也是不一致的,均是根據分類結果,從而選出每種方法中最優的參數。分類結果在表6中表示。結果表明,sgLasso得到了最高的準確率,為87.88%,優于基于Lasso創建的超網絡及基于gLasso創建的超網絡。基于Lasso創建的超網絡低于sgLasso方法,其潛在的原因主要是Lasso只能選擇存在組結構中的一個腦區,且無論哪一個,這將導致Lasso構建的網絡過于嚴格或者失去一些重要的連接。這一結果暗示著不考慮組結構的存在則不能創建更合適的超網絡。基于gLasso的超網絡構建方法進行分類最后得到的分類結果不如sgLasso方法所得的結果,其潛在的原因主要是它不具有組內變量選擇的靈活性,僅選擇相關組,以使每組內的估計系數全部為零或全部為非零,這將導致gLasso構建的網絡過于寬松或者加入一些錯誤的連接。這結果暗示著若為了改善超網絡的創建,需要考慮到組信息,但不能逼迫使用整組信息,可以適當地對組結構進行擴展。

表6 不同方法的分類性能 單位:%Tab. 6 Classification performance of different methods unit:%

除此之外,本研究也與關于抑郁癥研究的其他文獻在分類結果上進行比較,從分類結果上看,本研究結果令人滿意。使用皮爾遜相關或者稀疏逆協方差[44-45]來創建腦網絡,這樣僅能捕捉到兩個腦區間的交互作用,忽略了腦區間的高階交互。靳研藝等[7]利用Lasso方法和elastic net方法分別創建腦功能超網絡,但是Lasso方法缺乏解釋組效應的能力,從而導致丟失一些有用的連接,致使不能構建更加精確的超網絡;因此提出elastic net方法來改善超網絡的創建,雖然該方法能解決組效應問題。但需要注意的是該方法并不能使高度相關的變量均屬于組中的活躍集中,而且本研究僅將單一節點的聚類系數作為腦區特征,僅考慮到單個頂點的鄰居節點的重疊性,并未考慮腦區間鄰域之間顯著的重疊。本文的新方法使用sgLasso方法結合多特征融合來進行腦疾病的分類,既考慮到了多腦區間的交互,又考慮到超網絡的組結構問題,同時將兩組聚類系數結合,較好地彌補以上研究的不足之處。

為了判斷兩種方法中所選特征對分類的貢獻程度,本文采用Relief算法計算每種方法中對應特征值的分類權重,Relief作為一種特征權重算法,可以判斷特征對于分類的重要性,若權重越大,則表明分類能力越強,反之亦然。在本次實驗中,將sgLasso方法中的單節點聚類系數特征、雙節點聚類系數特征、多特征分別計算的差異特征利用Relief算法計算對應特征值的分類權重并進行比較,結果顯示在圖2中,結果表明,多特征得到的分類權重均高于單個特征的分類權重。通過Relief算法來評估特征的重要性。潛在的原因是基于多特征的方法有效地融合了兩個不同的信息,單個節點的聚類系數特征以及雙節點聚類系數特征,可以更加全面地表達腦區域間的交互信息。這一結果暗示著,表明多特征方法更適合評估特征的重要性,更適合分類抑郁癥患者與正常人。

圖2 腦區特征對應的分類權重Fig. 2 Classification weight corresponding to brain region feature

3 方法論及參數影響

功能超網絡的不同構建,會對分類性能產生影響。在現有研究中使用Lasso進行超網絡創建[4],該方法中,通過使用l1范數來控制網絡的稀疏度,僅僅是對單個變量的選擇,未考慮到腦區間的組效應,導致一些相關的腦區無法選擇出來,使得超網絡過于嚴格,從而缺失重要的連接。考慮到組結構問題,Guo等[14]引入group Lasso方法進行超網絡的創建,但group Lasso僅僅是在組級上進行變量選擇,將整組作為整體,使得超網絡又過于寬松,從而導致包含一些錯誤的連接。本文提出sgLasso方法來進行超網絡創建,基于sgLasso方法是引入l1、l2范數懲罰項,即該方法范式是混入Lasso與gLasso懲罰項,可以進行組間選擇以及組內變量選擇,即雙級選擇,區別于簡單組選擇,變量可以在組級上以及單個變量間進行選擇,不僅可以選出重要的組,而且可以選出這些重要組中重要的變量。

除此之外,本文所提出的方法中的一些參數同樣也會影響分類性能,例如聚類數k,超網絡構建模型正則化參數λ1和λ2,優化權重參數αi。為了探討這個問題,本文對基于sgLasso方法的多特征融合方法進行了實驗。

3.1 聚類數k的影響

k指的是sgLasso方法中的聚類數目,設置不同的k值會獲得不同的超網絡拓撲和分類性能,本研究中,為了分析不同k值對于超網絡拓撲及分類結果的影響,設置k值取值范圍為[6,90],其中步長為6。對每一個k值基于sgLasso方法進行超網絡構建,特征提取,特征選擇,分類及評估驗證。由于第一個初始種子點的隨機選擇的影響,對于每個k值則分別進行50次實驗,最后取50次實驗的平均值作為最后的結果。圖3展示了sgLasso方法的實驗結果,結果表明當k=30時,sgLasso方法表現出最高準確率87.88%。

圖3 基于sgLasso方法中不同k值的分類準確率Fig. 3 Classification accuracy based on sgLasso method under different k values

3.2 正則化參數λ1和λ2的影響

以前的研究已經表明參數λ影響超網絡的拓撲。正則化參數λ決定了網絡的稀疏以及規模。本研究中,參數λ1是l1范數項的正則化參數,偏向于控制模型組間稀疏,步長設置為0.1。參數λ2是l2范數項的正則化參數,偏向于控制模型組級稀疏,同λ1,步長設置為0.1。不同的λ1和λ2的設置會得到不同的網絡拓撲,會使模型選擇不同的組變量,從而導致產生不同的組結構,同時也會影響分類性能。在基于sgLasso方法的超網絡的創建中,本文固定λ2值,通過變化特定范圍內的λ1值產生一組超邊;同時,為了探討λ1,λ2對分類性能的影響,λ2分別設置為0.1,0.2,…,0.9,λ1使用了一系列升序組合,{0.1},{0.1,0.2},{0.1,0.2,0.3},…,{0.1,0.2,…,0.9},以此來進行不同的超網絡創建。進而提取特征來進行分類,判斷分類性能。分類結果展示在圖4中。結果顯示在sgLasso方法中,當λ2=0.4,λ1使用{0.1,0.2,…,0.9}時,表現出最高正確率達到87.88%。當λ1使用{0.1}時,準確率低于60%,主要是因為一個腦區節點可能只包含在一條超邊中,導致HCC3計算無意義。

圖4 基于sgLasso方法中參數(λ1,λ2)的分類準確率Fig. 4 Classification accuracy based on sgLasso method under different parameters (λ1,λ2)

3.3 有效權重αi的影響

在多核學習中,重要的一步是選擇權重參數αi,這直接影響數據融合的方式,對分類性能有很大影響。在獲取權重參數αi之后,多個內核集成混合內核,然后可以通過傳統的SVM分類器來解決該模型。本文采用了shogun工具箱(http://www.shogun-toolbox.org),來獲得優化權重。當α1=0.121 9和α2=0.878 1時,sgLasso方法的精度達到最大值87.88%。

4 結語

本文研究考慮到現有研究中存在的組結構的問題,引入sparse group Lasso方法來進行超網絡創建;同時,考慮到真實網絡不僅單個頂點的鄰居節點更容易重疊,鄰域之間也存在顯著地重疊,引入一組雙節點的聚類系數也作為特征提取。最后特征經過多核學習融合成一個混合核進行分類診斷。通過分類結果分析,顯示基于sgLasso方法的多特征分類表現(87.88%)優于現有的關于超網絡創建方法。由此暗示著不存在組結構或僅存在組結構,均不能得到令人滿意的效果,若對組結構進行適當的擴展,則可獲得更為有效的分類特征;同時,通過兩組聚類系數選取的差異特征評估,多特征的分類權重均優于單組特征的分類權重。這表明基于多特征的方法有效地融合了兩個不同的信息,可以更有效地分類抑郁癥患者和正常對照組。

在目前的研究中,有兩個主要的問題。首先,基于sgLasso方法中由于k中心點聚類法本身的影響,即初始種子點的隨機選取以及k值的不同設置從而導致網絡拓撲及分類結果不唯一,因此在未來的研究中可以采取不同的聚類方法來進行分組,以此建立更加穩定的超邊來進一步改善超網絡。其次,可以采用不同分配腦區的模板,探究不同模板創建的超網絡對于分類性能的影響。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 性欧美在线| 久久五月视频| 日韩欧美中文| 亚洲精品天堂自在久久77| 久久婷婷人人澡人人爱91| 国产成人啪视频一区二区三区| 久久精品无码一区二区国产区| 国产性精品| 亚洲va在线∨a天堂va欧美va| 国产国拍精品视频免费看| 日韩AV手机在线观看蜜芽| 久久精品亚洲中文字幕乱码| 熟妇丰满人妻| 亚洲婷婷丁香| 国产精品福利在线观看无码卡| 不卡午夜视频| 国产精品视频导航| 色婷婷电影网| 亚洲最大福利视频网| 国产毛片基地| 国产丝袜第一页| 免费一级毛片在线播放傲雪网| 亚洲无码久久久久| 日韩精品免费在线视频| 精品综合久久久久久97超人该| 国产成人av一区二区三区| 在线观看免费AV网| 国产a v无码专区亚洲av| 白丝美女办公室高潮喷水视频| 四虎在线高清无码| 国产色婷婷视频在线观看| 亚洲一区二区视频在线观看| 乱系列中文字幕在线视频| 亚洲AⅤ综合在线欧美一区| 亚洲色图欧美一区| 亚洲欧美国产视频| 亚洲欧美不卡中文字幕| 欧美在线网| 国产成人久久777777| 亚洲αv毛片| 中文字幕永久在线观看| 欧美日韩精品在线播放| 亚洲精品手机在线| 国产在线小视频| 呦视频在线一区二区三区| 1级黄色毛片| 人妻丰满熟妇av五码区| 人妻一区二区三区无码精品一区 | 久久婷婷六月| 国产成+人+综合+亚洲欧美| 黄色网站不卡无码| 国产福利影院在线观看| 精品国产成人高清在线| 国产成人精品无码一区二 | 国产成人精品亚洲77美色| 国产精品欧美日本韩免费一区二区三区不卡 | 亚洲人成电影在线播放| 国产精品亚洲а∨天堂免下载| 亚洲精品中文字幕无乱码| 91在线国内在线播放老师| 99久久精彩视频| 无码人中文字幕| 精品国产香蕉在线播出| 欧美一级高清视频在线播放| 在线a视频免费观看| 国产玖玖玖精品视频| 国产欧美日韩视频怡春院| 久久国产拍爱| 制服丝袜在线视频香蕉| 综合色区亚洲熟妇在线| 97狠狠操| 国产情精品嫩草影院88av| 欧美中文字幕在线二区| 日韩国产黄色网站| 国产麻豆精品久久一二三| 亚洲va精品中文字幕| 国内精品手机在线观看视频| 亚洲av色吊丝无码| 欧美中文字幕一区| 毛片网站在线播放| 91福利在线观看视频| 国产欧美中文字幕|