付佳俊,盧梅麗,曹一凡,郭兆樺,高資成
(天津職業(yè)技術(shù)師范大學(xué)信息技術(shù)工程學(xué)院,天津 300222)
大腦是人類最復(fù)雜的器官之一,控制著人類的高級(jí)情感和復(fù)雜行為。如今人們對(duì)大腦的認(rèn)知仍十分有限,相關(guān)學(xué)者一直試圖解開大腦工作原理之謎。大腦會(huì)根據(jù)人執(zhí)行任務(wù)的差異而產(chǎn)生不同的反應(yīng),任務(wù)態(tài)功能磁共振成像(task functional magnetic resonance imaging,t-fMRI)是一種通過測(cè)量血液動(dòng)力學(xué)間接刻畫大腦神經(jīng)活動(dòng)的影像數(shù)據(jù),現(xiàn)已成為使用最廣泛的腦功能研究手段之一。其獲取方式為先對(duì)信號(hào)去噪[1],再使用多層同時(shí)掃描技術(shù)[2]快速采集功能磁共振全腦影像。功能磁共振成像能對(duì)特定的大腦活動(dòng)皮層區(qū)域進(jìn)行精準(zhǔn)定位,且能實(shí)時(shí)跟蹤信號(hào)的改變,其空間分辨率和時(shí)間分辨率分別可以達(dá)到2 mm和1 s。多年來,研究人員一直試圖通過功能磁共振成像解碼識(shí)別人腦功能。其中,多體素模式分析(multi-voxel pattern analysis,MVPA)[3]是最常用的方法之一。MVPA的核心原理是在不同認(rèn)知狀態(tài)下,利用獨(dú)立的實(shí)驗(yàn)數(shù)據(jù)測(cè)試由多個(gè)體素信號(hào)形成的空間模式訓(xùn)練分類器的性能。盡管MVPA很受歡迎,但需要人為選取特征,可重復(fù)性差且耗時(shí)。
隨著深度學(xué)習(xí)的發(fā)展,越來越多基于深度學(xué)習(xí)的方法被運(yùn)用于影像數(shù)據(jù)分析。Dvornek等[4]使用基于Long Short-Term Memory的遞歸神經(jīng)網(wǎng)絡(luò),通過靜態(tài)fMRI對(duì)ASD患者對(duì)照和進(jìn)行分類。Eickenberg等[5]利用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的模型,通過fMRI信號(hào)對(duì)觀看自然風(fēng)景的大腦進(jìn)行預(yù)測(cè)。Seeliger等[6]根據(jù)生成對(duì)抗網(wǎng)絡(luò),借助fMRI信號(hào)來重構(gòu)視覺圖像。Wen等[7]使用深度殘差神經(jīng)網(wǎng)絡(luò)模擬視覺皮層處理,提供了一種高效策略,以建立高維和分層視覺特征的皮質(zhì)表征預(yù)測(cè)模型。Zhao等[8]基于三維卷積,開發(fā)了一種用以識(shí)別和分類不同類型的功能性腦網(wǎng)絡(luò)。Khosla等[9]使用一種三維卷積神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)集成學(xué)習(xí)策略,該方法利用了rs-fMRI數(shù)據(jù)的全分辨率三維空間結(jié)構(gòu),并適合非線性預(yù)測(cè)模型。與傳統(tǒng)機(jī)器學(xué)習(xí)方法不同,深度學(xué)習(xí)可以自動(dòng)提取數(shù)據(jù)的特征,以達(dá)到自動(dòng)分類的目的。卷積神經(jīng)網(wǎng)絡(luò)作為當(dāng)下使用最多的方法之一,越來越多的人將其運(yùn)用于fMRI分類中。深度學(xué)習(xí)通過多層網(wǎng)絡(luò)的非線性變換自動(dòng)提取數(shù)據(jù)中的隱含特征,但是由于缺乏對(duì)其內(nèi)部工作機(jī)理的理解與分析,通常被看作“黑盒”模型,導(dǎo)致用戶只能觀察模型的預(yù)測(cè)或分類結(jié)果,而不能了解模型產(chǎn)生決策的依據(jù)。尤其在醫(yī)療數(shù)據(jù)的應(yīng)用場(chǎng)景中,僅向用戶提供最終的預(yù)測(cè)結(jié)果而不解釋其原因,很難讓用戶信任和理解該模型。因此,對(duì)模型分類結(jié)果進(jìn)行可解釋性分析至關(guān)重要[10-13]。
鑒于fMRI數(shù)據(jù)的高維特性,本文采用三維卷積神經(jīng)網(wǎng)絡(luò)模型(3D-CNN)[14]對(duì)其進(jìn)行分類,并與支持向量機(jī)(support vector machine,SVM)在不同評(píng)價(jià)指標(biāo)下進(jìn)行比較。同時(shí),通過梯度加權(quán)類激活映射方法(Grad-CAM)[15]和導(dǎo)向梯度加權(quán)類激活映射方法(Guided Grad-CAM)對(duì)3D-CNN進(jìn)行可解釋性分析,以可視化的方式定位得到輸入樣本中影響3D-CNN決策的關(guān)鍵因素,以確定特定任務(wù)下所激活的功能腦區(qū)。
在CNN被廣泛使用之前,大多圖片分類實(shí)驗(yàn)使用全連接神經(jīng)網(wǎng)絡(luò)。全連接神經(jīng)網(wǎng)絡(luò)雖然在最終的分類結(jié)果上表現(xiàn)較好,但是也存在以下缺點(diǎn):圖像展開為向量,丟失空間信息;參數(shù)過多,效率低下,訓(xùn)練困難;大量的參數(shù)易導(dǎo)致網(wǎng)絡(luò)過擬合。CNN的提出恰好解決了以上問題。卷積操作能很好地提取數(shù)據(jù)的相鄰空間信息,避免數(shù)據(jù)的像素展開成向量后造成的空間信息損失。相比二維卷積,三維卷積增加了空間維度,其輸入數(shù)據(jù)和卷積核均為三維,表示為(P,Q,R),卷積操作如圖1所示。

圖1 三維卷積操作示意圖
對(duì)于功能磁共振數(shù)據(jù),三維卷積能有效提取其空間特征。三維卷積操作如下

式中:vxyzij表示網(wǎng)絡(luò)第i層通道為j位于(x,y,z)的值;bij為偏置;wpqrijm表示通道為m的卷積核位于(p,q,r)的值。
本研究基于三維卷積方法,構(gòu)建了一種用于識(shí)別任務(wù)態(tài)功能磁共振成像的三維卷積神經(jīng)網(wǎng)絡(luò)(3DCNN)。該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是由輸入層、卷積層、池化層、激活函數(shù)層以及全連接層拼接而成。卷積層由多層三維卷積構(gòu)成,是網(wǎng)絡(luò)的核心層,網(wǎng)絡(luò)中大部分的計(jì)算量都來源于此層。池化層對(duì)數(shù)據(jù)進(jìn)行下采樣,從而減少網(wǎng)絡(luò)參數(shù)量。激活函數(shù)層為網(wǎng)絡(luò)增加了非線性因子,非線性激活函數(shù)能夠在輸入、輸出之間生成非線性映射。全連接層則是為了融合前面提取的特征,最后在輸出層對(duì)數(shù)據(jù)類別進(jìn)行預(yù)測(cè)。3D-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 3D-CNN網(wǎng)絡(luò)結(jié)構(gòu)
3D-CNN網(wǎng)絡(luò)由5層卷積層和3層全連接層組成。輸入的原始數(shù)據(jù)通道大小為1。其中,第1層卷積層的輸入大小為53×63×46,輸出通道大小為3,卷積核的大小為1×1×1。卷積核設(shè)置為1×1×1,目的是將圖片通道變?yōu)?,以便后續(xù)可使用Guided Grad-CAM進(jìn)行可視化。整個(gè)網(wǎng)絡(luò)的池化層大小為2×2×2,全連接層的長(zhǎng)度分別是64、32,最后是一個(gè)四分類的全連接層,分別對(duì)應(yīng)LH、RH、AD、VS。損失函數(shù)選擇交叉熵?fù)p失函數(shù),其在做分類(具體幾類)訓(xùn)練時(shí)用。優(yōu)化器被用來更新和計(jì)算影響模型訓(xùn)練和模型輸出的網(wǎng)絡(luò)參數(shù),使其逼近或達(dá)到最優(yōu)值,從而最小化損失函數(shù)E(x)。常用的優(yōu)化器有Adam、SGD、RMSprop等,本研究選用SGD優(yōu)化器。訓(xùn)練時(shí)網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.001,動(dòng)量參數(shù)設(shè)置為0.9,權(quán)重衰減為0.000 5,batch大小為64。
支持向量機(jī)是在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法。在深度學(xué)習(xí)被廣泛運(yùn)用之前,SVM是監(jiān)督學(xué)習(xí)中最具影響力的算法之一。該算法的核心思想是找出最大的決策邊界,從而達(dá)到能最大程度分類數(shù)據(jù)的目的。SVM最初主要是用來解決二分類問題,在這個(gè)基礎(chǔ)上進(jìn)行擴(kuò)展后,也能夠處理多分類問題以及回歸問題。具體實(shí)驗(yàn)步驟如下:
(1)對(duì)fMRI數(shù)據(jù)進(jìn)行預(yù)處理,為提高輸入特征的有效度,將所有數(shù)據(jù)去除背景(設(shè)為0)并僅保留大腦體素。去除背景前后的數(shù)據(jù)(Axial方向的切片)對(duì)比如圖3所示。

圖3 預(yù)處理前與預(yù)處理后的t-fMRI數(shù)據(jù)對(duì)比
(2)將之前的三維數(shù)據(jù)(X,Y,Z)轉(zhuǎn)換為(X*Y*Z)。由于功能磁共振成像數(shù)據(jù)的復(fù)雜性,并不是每一個(gè)特征值都能很好地體現(xiàn)區(qū)分度,故某些特征值不存在分析的價(jià)值。將轉(zhuǎn)換后的數(shù)據(jù)表示為X=(X0,X1,…,Xn-1)m×n,其中,Xj=[x0j,x1j,…,x(m-1)j]T。通過設(shè)置方差閾值去除不必要的特征,以提取關(guān)鍵的大腦區(qū)域。計(jì)算式為
2016年,倦怠發(fā)生比例最高的是重癥醫(yī)學(xué)(55%)、泌尿醫(yī)學(xué)(55%)和急診醫(yī)學(xué)(55%);2017年,倦怠比例發(fā)生最高的是急診醫(yī)學(xué)(59%)、婦科醫(yī)學(xué)(56%)和家庭醫(yī)學(xué)(55%);2018年倦怠發(fā)生比例最高的是重癥醫(yī)學(xué)(48%)、神經(jīng)醫(yī)學(xué)(48%)和家庭醫(yī)學(xué)(47%)。見表1。

(3)使用LinearSVC對(duì)數(shù)據(jù)進(jìn)行分類。LinearSVC是根據(jù)liblinear實(shí)現(xiàn)的線性分類支持向量機(jī),既能實(shí)現(xiàn)二分類,也能實(shí)現(xiàn)多分類。
1.4 腦激活定位
執(zhí)行不同任務(wù)時(shí)會(huì)激活對(duì)應(yīng)的腦區(qū),為了探索這種相關(guān)性,借助分類結(jié)果,采用可視化的方式對(duì)其進(jìn)行定位。相關(guān)實(shí)驗(yàn)表明,CNN的卷積層能提取輸入數(shù)據(jù)的空間位置信息,因此卷積層具有定位的能力。基于此能力,可以獲取圖像中影響CNN決策的關(guān)鍵因素。但是為了整合卷積層所提取的特征,CNN網(wǎng)絡(luò)使用了全連接層,這樣破壞了CNN的定位能力。為了解決這個(gè)問題,Zhou等[16]提出了類激活映射(class activation mapping,CAM)解釋方法。CAM以熱力圖的形式可視化類激活圖,即使用全局平均池化(global average pooling,GAP)替代CNN最后的全連接層。CAM雖然能減少CNN的訓(xùn)練參數(shù),但是造成了網(wǎng)絡(luò)結(jié)構(gòu)的改變,所以需要重新訓(xùn)練網(wǎng)絡(luò),這無疑是很耗時(shí)的一項(xiàng)工作。因此,本文采用效率更高的Grad-CAM方法,Grad-CAM是CAM的一種泛化形式,該算法不需要對(duì)網(wǎng)絡(luò)重新訓(xùn)練。Grad-CAM的計(jì)算為

式中:c為網(wǎng)絡(luò)判別的類別;yc為該類別對(duì)應(yīng)的logits(即沒經(jīng)過Softmax的值);A為卷積輸出的特征圖(最后一層卷積);k為特征圖的第k通道;i、j分別為特征圖的橫、縱坐標(biāo);Z為特征圖的大小(即長(zhǎng)×寬)。
這一過程是求特征圖上梯度的均值,相當(dāng)于一個(gè)全局平均池化操作。
得到權(quán)重后將特征圖在通道維度上進(jìn)行線性加權(quán),融合得到熱力圖,如式(6)。Grad-CAM對(duì)融合后的熱力圖增加一個(gè)ReLU操作,只保留與結(jié)果呈正相關(guān)的值。

一般來說,Grad-CAM在2D數(shù)據(jù)上會(huì)有更好的表現(xiàn)。因此,從3D數(shù)據(jù)fMRI中提取Axial方向的2D切片,再把提取出來的切片作為Grad-CAM的輸入。
Grad-CAM是一種以粗粒度的方式對(duì)影響CNN決策的關(guān)鍵因素進(jìn)行可視化的方法,缺少了如GuidedBP[17]這樣像素級(jí)別的細(xì)粒度可視化效果。因此,本文繼續(xù)采用Guided Grad-CAM,對(duì)CNN網(wǎng)絡(luò)進(jìn)行細(xì)粒度的可視化解釋,Guided Grad-CAM由Grad-CAM與GuidedBP結(jié)合而成。在GuidedBP中,舍棄第一層卷積層,直接獲取第二層卷積層的梯度。
本實(shí)驗(yàn)硬件環(huán)境基于Windows平臺(tái),配置為11 th Gen Intel Core i7-11800H,NVIDIA GeForce RTX 3070顯卡。實(shí)驗(yàn)代碼均使用Python編程語(yǔ)言。
為了更好地對(duì)比3D-CNN與SVM的性能,采用4個(gè)常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率(Accuracy,ACC)、精確率(Precision)、召回率(Recall)以及F1-score。表1展示了4種任務(wù)態(tài)在不同模型中各個(gè)評(píng)價(jià)指標(biāo)的情況。

表1 SVM和3D-CNN模型在不同評(píng)價(jià)指標(biāo)上的表現(xiàn)
從表1可知,3D-CNN在各個(gè)指標(biāo)上的數(shù)據(jù)都優(yōu)于SVM,產(chǎn)生這種現(xiàn)象很大程度上是由于三維fMRI數(shù)據(jù)在轉(zhuǎn)換為一維數(shù)據(jù)過程中丟失了信息。而3DCNN的輸入是原始數(shù)據(jù),因此很好地保留了數(shù)據(jù)的空間特征。
圖4為3D-CNN模型在訓(xùn)練時(shí)的損失曲線,從圖4可以看出,模型在40次迭代后已基本趨于收斂。

圖4 3D-CNN訓(xùn)練時(shí)的損失曲線
可視化結(jié)果如圖5所示。

圖5 Grad-CAM和Guided Grad-CAM在4種不同t-fMRI上的可視化結(jié)果
從4種不同t-fMRI中分別選出3幅在Axial方向的圖像。在每張圖中,第1列為原始圖像,第2列為Grad-CAM中的熱力圖,第3列和第4列分別為Grad-CAM和Guided Grad-CAM的可視化結(jié)果。相關(guān)研究表明,當(dāng)人使用左(右)手時(shí),右(左)腦會(huì)產(chǎn)生反應(yīng)。大腦中負(fù)責(zé)聽覺處理的主要部位是顳橫回,距狀溝則負(fù)責(zé)視覺處理。其中,顳橫回位于大腦外側(cè)溝下壁上,距狀溝位于腦半球內(nèi)側(cè)面后部。對(duì)比圖5發(fā)現(xiàn),其可視化結(jié)果與實(shí)際研究相符,即左(右)手握緊激活右(左)腦區(qū),聽覺刺激激活大腦中央,視覺刺激激活大腦后部。
本文提出的3D-CNN模型能很好地對(duì)任務(wù)態(tài)fMRI進(jìn)行分類,與傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM相比,3DCNN具有更好的分類效果,其能直接對(duì)t-fMRI進(jìn)行分類,無需人為特征提取,并且避免了高維數(shù)據(jù)轉(zhuǎn)換為一維數(shù)據(jù)時(shí)造成的空間信息丟失。通過采用Grad-CAM和Guided Grad-CAM對(duì)3D-CNN進(jìn)行可解釋性研究,確定了不同任務(wù)狀態(tài)下所激活的大腦區(qū)域,從而達(dá)到通過t-fMRI解碼大腦活動(dòng)狀態(tài)的目的。