李 楠 張芳芳
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院 山西 太原 030024)
ADHD是一種常見(jiàn)的神經(jīng)發(fā)育和精神障礙疾病[1],主要癥狀有注意力不集中、注意時(shí)間短暫、活動(dòng)過(guò)度等,如果不及時(shí)診斷和治療,會(huì)影響患者學(xué)業(yè)、身心健康及以后的家庭生活和社交能力。目前,ADHD的發(fā)病機(jī)制尚未完全了解,其診斷主要依賴(lài)于行為分析[2],其診斷方法用2000年美國(guó)提出第四版DSM(Diagnostic and Statistical Manual of Mental Disorders)測(cè)評(píng)表進(jìn)行診斷,由1~100分進(jìn)行測(cè)評(píng),這種方法誤診、漏診率比較高,為了提高ADHD的診斷率,近年來(lái)ADHD分類(lèi)研究就成了神經(jīng)影像領(lǐng)域的一個(gè)研究熱點(diǎn)[3]。rs-fMRI是一種神經(jīng)影像學(xué)方式,且基于rs-fMRI神經(jīng)影像的數(shù)據(jù)研究精神疾病的分類(lèi)方法已經(jīng)開(kāi)展了很多研究,rs-fMRI技術(shù)已廣泛應(yīng)用于腦的基礎(chǔ)研究和臨床診斷。
目前,已有大量研究者對(duì)ADHD展開(kāi)研究而且取得了較多的科研成果,研究主要集中在以下兩個(gè)方面:(1) 通過(guò)腦功能網(wǎng)絡(luò)對(duì)ADHD進(jìn)行分類(lèi),2012年Dai等[4]提出了功能連接的方法對(duì)ADHD進(jìn)行分類(lèi),得到的分類(lèi)結(jié)果為65.87%;2014年Dey等[5]構(gòu)建腦功能網(wǎng)絡(luò)的方法對(duì)ADHD進(jìn)行分類(lèi),得到的分類(lèi)結(jié)果為72.55%,分類(lèi)結(jié)果有明顯提高,但是上述方法構(gòu)造腦功能網(wǎng)絡(luò)后均需要進(jìn)行特征選擇、降維,最后結(jié)合分類(lèi)器進(jìn)行分類(lèi),實(shí)驗(yàn)過(guò)程復(fù)雜,需要耗費(fèi)更多的時(shí)間。(2) 通過(guò)特征提取與分類(lèi)器結(jié)合進(jìn)行分類(lèi),2015年譚穎等[6]提出了基于小波變換與SVM的方法對(duì)ADHD進(jìn)行分類(lèi),得到的分類(lèi)結(jié)果為62.7%,這類(lèi)方法實(shí)驗(yàn)過(guò)程簡(jiǎn)單,耗費(fèi)時(shí)間短,但是這類(lèi)方法的分類(lèi)結(jié)果可以進(jìn)一步提高,為ADHD病人的研究提供更有效的方法。
針對(duì)上述問(wèn)題,近年來(lái),很多學(xué)者用ICA(Independent Component Correlation Algorithm)的方法研究rs-fMRI數(shù)據(jù),但是ICA算法用于rs-fMRI數(shù)據(jù)存在局限性。首先,無(wú)論是在時(shí)間還是空間上,ICA是基于成分因素的獨(dú)立性假設(shè),違反了這些假設(shè),ICA的性能就會(huì)降低[7];其次,ICA成功用于rs-fMRI數(shù)據(jù)是由于其處理稀疏分量[8]。字典學(xué)習(xí)算法因其具有更稀疏的表示而受到學(xué)者的關(guān)注和研究[9],所以本文提出了字典學(xué)習(xí)的特征提取方法對(duì)ADHD病人與正常人進(jìn)行分類(lèi)。字典學(xué)習(xí)算法在圖像去噪、圖像修復(fù)、面部識(shí)別[10]、圖像分類(lèi)[11]等領(lǐng)域有廣泛的應(yīng)用,且發(fā)展前景廣闊。為了將字典學(xué)習(xí)算法應(yīng)用到神經(jīng)影像領(lǐng)域中,本文利用字典學(xué)習(xí)對(duì)rs-fMRI進(jìn)行特征提取,最后用分類(lèi)算法SVM對(duì)其進(jìn)行分類(lèi)。字典學(xué)習(xí)特征提取的方法比ICA提取的特征更穩(wěn)定,與其他方法相比,耗費(fèi)的時(shí)間也比較短,而且得到的分類(lèi)結(jié)果優(yōu)于其他方法。實(shí)驗(yàn)結(jié)果證明了字典學(xué)習(xí)特征提取方法有助于對(duì)ADHD的分類(lèi),對(duì)ADHD的分類(lèi)研究提供了一種新方法。
字典學(xué)習(xí)的最終目的是通過(guò)訓(xùn)練數(shù)據(jù)找到我們所需要的字典,字典對(duì)特征提取有至關(guān)重要的作用,本文通過(guò)rs-fMRI數(shù)據(jù)訓(xùn)練出一個(gè)理想的字典,并以最小重構(gòu)誤差為準(zhǔn)則求出稀疏表示,即得到rs-fMRI數(shù)據(jù)的稀疏分量。求得字典和稀疏表示的的原理如下:
字典學(xué)習(xí)[12]的目的是把Y矩陣分解成D和X矩陣:Y≈D×X,即給定一組信號(hào)Y=[Y1,Y2,…,YN],我們的目標(biāo)是找到一組信號(hào)Y的線(xiàn)性表示:[Y1,Y2,…,YN]≈D[X1,X2,…,XN],D稱(chēng)為字典,X為稀疏編碼,且稀疏編碼X要盡可能稀疏,字典D的每一列都是一個(gè)歸一化向量,字典學(xué)習(xí)的目標(biāo)函數(shù)為:
(1)
式中:L為稀疏度約束參數(shù)。因?yàn)槭?1)中有兩個(gè)未知變量D、X,所以其求解方法是先固定字典D,再去最小化稀疏編碼X。這樣交替更新字典D和稀疏編碼X,直到滿(mǎn)足迭代終止條件為止,得到的D和X即為我們所求解的D和X。所以字典學(xué)習(xí)包括兩個(gè)階段,稀疏編碼階段和字典更新階段。
假設(shè)稀疏參數(shù)X=[X1,X2,…,XN],字典D=[d1,d2,…,dk],我們的目的是根據(jù)字典D使得X盡量稀疏,由式(1)得:
(2)
式中:i=1,2,…,N,l為稀疏度約束參數(shù)。
通過(guò)稀疏編碼階段,我們已經(jīng)知道樣本的編碼X,然后交替更新字典和編碼。我們根據(jù)逐列更新的方法更新字典,如果我們現(xiàn)在更新到字典的第k列dk,編碼矩陣X對(duì)應(yīng)的第k行xk、dk和xk分別為:
(3)
(4)

1.2.1 構(gòu)造殘差向量
首先用xi和di相乘重構(gòu)出數(shù)據(jù),然后計(jì)算出殘差向量:
(5)
式中:j=1,2,…,N,Ekj為第j列的殘差向量,由式(5)可以得出每列的殘差向量,所以最后構(gòu)造出的殘差向量為:
Ek=[Ek1,Ek2,…,EkN]
(6)
1.2.2 更新字典
由式(3)、式(4)和式(5)得:
(7)
(8)
iter=iter+1
(9)

實(shí)驗(yàn)步驟分為三步:(1) 數(shù)據(jù)的獲取及訓(xùn)練集和測(cè)試集的劃分;(2) 用字典學(xué)習(xí)算法進(jìn)行特征提取;(3) 利用SVM分類(lèi)進(jìn)行分類(lèi),具體的流程框圖如圖1所示。

圖1 實(shí)驗(yàn)流程圖
本文研究的rs-fMRI數(shù)據(jù)來(lái)自Neuro Bureau[13]提供的預(yù)處理ADHD- 200[14]全球競(jìng)賽數(shù)據(jù)集中北京大學(xué)的數(shù)據(jù)集。數(shù)據(jù)庫(kù)共有244個(gè)被試,其中ADHD被試101人,健康被試143人,所有被試均為右利手,平均年齡為12歲,智力水平在80分以上,且沒(méi)有神經(jīng)系統(tǒng)疾病、精神分裂癥、發(fā)育障礙、情感障礙及藥物依賴(lài)。本文選擇數(shù)據(jù)庫(kù)里所有的被試進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)的預(yù)處理步驟包括運(yùn)動(dòng)校正、時(shí)間層校正、配準(zhǔn)、高斯平滑及被試間的配準(zhǔn)[13]。
在實(shí)驗(yàn)中,將數(shù)據(jù)集劃分為訓(xùn)練樣本和測(cè)試樣本,實(shí)驗(yàn)數(shù)據(jù)樣本劃分結(jié)果如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)樣本劃分結(jié)果
在rs-fMRI的研究中,特征提取過(guò)程對(duì)分類(lèi)準(zhǔn)確率有重要影響。本文采用字典學(xué)習(xí)提取成分因素的方法進(jìn)行特征提取。
首先對(duì)字典進(jìn)行初始化,即對(duì)字典函數(shù)的參數(shù)進(jìn)行設(shè)置,其中稀疏度為1,字典迭代20次,最重要的是設(shè)置成分因素,通過(guò)提取不同的成分因素對(duì)結(jié)果的影響,最終在實(shí)驗(yàn)中選擇提取13個(gè)成分因素。這些成分因素分別對(duì)應(yīng)若干個(gè)體素,然后用劃分好的訓(xùn)練樣本對(duì)字典進(jìn)行訓(xùn)練,最終得到稀疏矩陣X。圖2為訓(xùn)練字典的過(guò)程。

圖2 訓(xùn)練字典過(guò)程
稀疏矩陣X包含提取13個(gè)成分因素,每個(gè)成分因素又包含63 061個(gè)體素,即X=[13,63 061],將所有體素映射到MNI(Montreal Neurological Institute)標(biāo)準(zhǔn)模板上,得到一個(gè)包含所有體素的四維腦圖像。將包含所有體素的四維腦圖像與每個(gè)被試對(duì)象進(jìn)行擬合,得到每個(gè)被試對(duì)象的時(shí)間序列,由于得到的時(shí)間序列包含13個(gè)成分因素,不能直接進(jìn)行分類(lèi),所以通過(guò)參數(shù)矢量化(vectorize=ture)將每個(gè)被試對(duì)象的時(shí)間序列轉(zhuǎn)化為一維數(shù)組,得到的一維數(shù)組即為提取的每個(gè)被試對(duì)象的特征。其中一個(gè)被試對(duì)象的時(shí)間序列如圖3所示,一個(gè)被試對(duì)象提取的特征如圖4所示。圖3和圖4為同一個(gè)被試對(duì)象。

圖3 時(shí)間序列

圖4 提取的特征
由于rs-fMRI數(shù)據(jù)是線(xiàn)性可分的[6],所以本文選擇線(xiàn)性SVM分類(lèi)器[15]進(jìn)行分類(lèi),懲罰參數(shù)C=1。在SVM分類(lèi)之前,首先把ADHD病人的類(lèi)別標(biāo)簽labels標(biāo)記為1,正常人的類(lèi)別標(biāo)簽標(biāo)labels標(biāo)記為0,每個(gè)被試分別對(duì)應(yīng)一個(gè)特征向量和一個(gè)類(lèi)別標(biāo)簽labels。然后將特征向量和類(lèi)別標(biāo)簽labels輸入到SVM分類(lèi)器進(jìn)行分類(lèi)。最后用特異性、靈敏度、分類(lèi)準(zhǔn)確率以及ROC(receiver operating characteristic)曲線(xiàn)來(lái)量化分類(lèi)器的性能。各個(gè)性能指標(biāo)的計(jì)算方法如下:
式中:SN為靈敏度,也稱(chēng)真陽(yáng)性率,指正確判斷ADHD病人的程度,即實(shí)際有病且被正確診斷的百分比;SP為特異性,指正確判斷正常人的程度,即實(shí)際無(wú)病且被正確診斷為無(wú)病的百分比;ACC為分類(lèi)準(zhǔn)確率,即正確判斷所有被試的程度;TP為真陽(yáng)性個(gè)數(shù),即ADHD病人正確分類(lèi)的個(gè)數(shù);TN真陰性個(gè)數(shù),即正常被試正確分類(lèi)的個(gè)數(shù);FP假陽(yáng)性個(gè)數(shù),即正常被試錯(cuò)誤分類(lèi)的個(gè)數(shù);FN假陰性個(gè)數(shù),即ADHD病人錯(cuò)誤分類(lèi)的個(gè)數(shù);FPR為假陽(yáng)性率。ROC曲線(xiàn)的橫坐標(biāo)為FPR,縱坐標(biāo)為SN,曲線(xiàn)下的面積可以反映分類(lèi)器的性能,面積越大,分類(lèi)器的性能越好[6]。
為了排除單次實(shí)驗(yàn)結(jié)果的偶然性及訓(xùn)練集和測(cè)試集的劃分影響實(shí)驗(yàn)結(jié)果的真實(shí)性,本文將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,分別進(jìn)行三次實(shí)驗(yàn),實(shí)驗(yàn)一的測(cè)試集為24個(gè)被試對(duì)象,實(shí)驗(yàn)二的測(cè)試集為44個(gè)被試對(duì)象,實(shí)驗(yàn)三的測(cè)試集為54個(gè)被試對(duì)象,對(duì)三次實(shí)驗(yàn)的結(jié)果進(jìn)行均值化得到最終的分類(lèi)準(zhǔn)確率。用字典學(xué)習(xí)分別對(duì)訓(xùn)練集提取特征,然后利用參數(shù)矢量化將提取的特征轉(zhuǎn)化為一維數(shù)組,最后利用SVM分類(lèi)器對(duì)一維數(shù)組進(jìn)行分類(lèi),字典學(xué)習(xí)的分類(lèi)結(jié)果如表2所示,分類(lèi)的ROC曲線(xiàn)如圖5所示。

表2 字典學(xué)習(xí)分類(lèi)結(jié)果 %

圖5 分類(lèi)的ROC曲線(xiàn)
特征提取的方法對(duì)分類(lèi)器的性能有顯著影響,為了與本文提出的方法進(jìn)行對(duì)比,選擇ICA的特征提取的方法進(jìn)行對(duì)比,其他條件相同的情況下,用ICA對(duì)rs-fMRI進(jìn)行特征提取,最后結(jié)合SVM分類(lèi)器對(duì)提取的特征進(jìn)行分類(lèi),ICA特征提取方法得到的平均分類(lèi)準(zhǔn)確率為71.92%,表3為本文方法與ICA及文獻(xiàn)中的分類(lèi)結(jié)果進(jìn)行比較。

表3 本文以其他方法分類(lèi)結(jié)果的對(duì)比 %
從表2可以看出三個(gè)實(shí)驗(yàn)的平均分類(lèi)準(zhǔn)確率為77.60%,實(shí)驗(yàn)一的分類(lèi)準(zhǔn)確率最高,達(dá)到83.33%,且分類(lèi)靈敏度和特異性較好,實(shí)驗(yàn)二和實(shí)驗(yàn)三的分類(lèi)準(zhǔn)確率和靈敏度明顯低于實(shí)驗(yàn)一。從ROC曲線(xiàn)也可以看出,實(shí)驗(yàn)一的ROC曲線(xiàn)下的面積達(dá)到0.76,實(shí)驗(yàn)二和實(shí)驗(yàn)三的ROC曲線(xiàn)下的面積只有0.60左右,實(shí)驗(yàn)一的曲線(xiàn)下的面積明顯大于實(shí)驗(yàn)二和實(shí)驗(yàn)三曲線(xiàn)下的面積,綜上所述,在本文的實(shí)驗(yàn)過(guò)程中,實(shí)驗(yàn)一的分類(lèi)性能較好。
從表3可以看出,文獻(xiàn)[4]通過(guò)構(gòu)建腦功能網(wǎng)絡(luò)對(duì)ADHD進(jìn)行分類(lèi),得到的分類(lèi)結(jié)果為65.87%,而且構(gòu)建腦功能網(wǎng)絡(luò)的過(guò)程復(fù)雜,需要耗費(fèi)更多的時(shí)間;文獻(xiàn)[6]通過(guò)小波變換與SVM對(duì)ADHD進(jìn)行分類(lèi),得到的分類(lèi)結(jié)果為62.7%,小波變換作為一種傳統(tǒng)的方法,應(yīng)用在很多領(lǐng)域,但是文獻(xiàn)[6]是提取了大尺度功能時(shí)間序列的平均信號(hào),對(duì)ADHD分類(lèi)有一定的局限性;ICA特征提取的方法對(duì)ADHD分類(lèi),得到的分類(lèi)結(jié)果為71.92%,ICA提取的特征為獨(dú)立分量,但是有研究表明,ICA應(yīng)用于rs-fMRI,是由于其處理稀疏分量,而不是獨(dú)立分量,所以針對(duì)ICA提取的獨(dú)立分量而不是稀疏分量;本文用字典學(xué)習(xí)的特征提取方法對(duì)ADHD進(jìn)行分類(lèi),得到的平均分類(lèi)準(zhǔn)確率為77.60%,字典學(xué)習(xí)提取rs-fMRI的稀疏分量,在穩(wěn)定性方面優(yōu)于ICA,大大縮短了特征提取的時(shí)間,分類(lèi)的結(jié)果分別比文獻(xiàn)[4]、文獻(xiàn)[6]、ICA方法提高了11.73%、14.9%、5.68%,實(shí)驗(yàn)結(jié)果驗(yàn)證了字典學(xué)習(xí)算法應(yīng)用在rs-fMRI領(lǐng)域的有效性。由以上分析可知,基于字典學(xué)習(xí)特征提取的方法對(duì)ADHD的分類(lèi)結(jié)果有明顯的提升,其與SVM結(jié)合有助于ADHD病人與正常人的分類(lèi)。
隨著腦科學(xué)的不斷發(fā)展,本文針對(duì)rs-fMRI數(shù)據(jù)提出了一種基于字典學(xué)習(xí)的特征提取方法,對(duì)ADHD病人與正常人的特征進(jìn)行分類(lèi)。實(shí)驗(yàn)得到的平均分類(lèi)準(zhǔn)確率為77.60%,在研究中發(fā)現(xiàn),本文提出的字典學(xué)習(xí)的特征提取方法有助于ADHD病人與正常人的分類(lèi)。但是本文提出的字典學(xué)習(xí)提取的不同成分因素針對(duì)的是全腦的體素,沒(méi)有對(duì)全腦的體素進(jìn)行選擇,所以在以后的學(xué)習(xí)和研究中,重點(diǎn)對(duì)字典學(xué)習(xí)提取的部分體素和特征進(jìn)行學(xué)習(xí)和研究,進(jìn)一步探討字典學(xué)習(xí)提取的不同成分因素對(duì)ADHD病人與正常人分類(lèi)的影響。