林萬云 杜民
阿爾茨海默病(Alzheimer disease, AD)是一種退行性神經系統疾病。該病是一種最常見的癡呆疾病,占所有癡呆疾病的60%~70%[1]。患有該病的患者往往會經歷漸進的認知衰退、語言障礙和定向障礙。到2015年,全世界已有約300萬人患有老年癡呆癥,預計這一數字在未來40年將增加3倍[2]。目前還沒有發現有效的藥物或方法來治療該疾病或阻止其發展,如果患者被診斷為老年癡呆癥,大多數治療方法都將無效。該病的進展是一個持續的過程,其發病過程大致可分為正常人(normal control,NC) 、輕度認知障礙(mild cognitive impairment,MCI) 以及AD。對早期AD的診斷并提前采取措施進行干預能夠減緩病情,降低發病概率或推遲發病,因此對于MCI階段的研究更加重要。當前,中國人口老齡化問題日益突出,因此AD的早期診斷和治療至關重要,不僅可以減輕個人家庭負擔,而且可以減少社會資源的消耗。
研究表明,早期MCI患者的大腦內側顳葉開始萎縮,其中海馬萎縮最為嚴重[3-4]。早期AD的發現和治療,可以有效地減少患者大腦功能的惡化。已經有許多相關研究將傳統機器學習方法應用于磁共振圖像(magnetic resonance image,MRI)中并取得不錯結果。例如,利用MRI解剖學特征的變化,提出一種使用極限學習機來診斷AD以及MCI的方法[5],以及基于MRI提取腦部海馬區域紋理特征參數建立AD早期分類預測的模型[6]。還有一些研究使用基于卷積神經網絡(convolutional neural networks,CNN)的端到端的深度學習方法。例如,采用2D CNN模型和2D MRI切片數據來進行AD診斷[7],以及從3D 圖像中提取2.5D的數據[8-9]來進行AD的診斷。然而,腦萎縮的發生是一個漸進的過程,早期難以察覺,再考慮到正常衰老導致腦部正常萎縮的情況,該病早期引起的腦部萎縮很難被發現。MRI是結構像,雖然圖像質量高,可以清楚看到腦部結構但無法反映組織內部情況。正電子發射型計算機斷層顯像(positron emission computed tomography,PET)是功能像,能夠反映人體內部代謝情況,是核醫學領域比較先進的臨床檢查影像技術。在AD的早期階段海馬體等區域萎縮并不明顯,但是內部的代謝情況已經有較大改變,因此從PET圖像中可以更好地獲取相關的疾病信息。此外,由于所研究醫學圖像都是3D的,大腦的不同區域之間存在一定的聯系,如果直接從3D圖像上取2D或2.5D切片數據勢必會丟失這一部分的信息,這會導致三維圖像中空間位置信息無法得到充分利用。
相比于MRI,使用PET圖像可以更容易獲取早期AD大腦的變化。相比于傳統機器學習方法,CNN方法可以實現端到端的預測。相比于2D或2.5D CNN,3D CNN可以充分利用MRI、PET影像的三維空間位置信息。MRI、PET等圖像是含有大量體素的三維圖像,其中大部分區域與AD關系不大[10-11],直接使用全圖的話,不僅造成計算資源的浪費,可能冗余數據還會對最終結果產生影響。因此,本文擬采用基于PET模態數據的3D CNN模型,通過充分利用MRI、PET影像的三維空間位置信息,并且選取海馬體附近區域作為感興趣區域(region of interst,ROI)加快疾病識別效率,實現了AD的智能早期輔助診斷(即3年發病的預測)。總體算法流程如圖1所示。

圖1 算法流程圖Figure 1 Algorithm flowchart
本文使用的數據來自阿爾茨海默病神經影像學倡議(Alzheimer’s Disease Neuroimaging Initiative,ADNI)數據庫。ADNI是一項正在進行的縱向研究,為了測試MRI、PET、其他生物標志物以及臨床和神經心理學評估是否可以結合起來,用以早期檢測和跟蹤AD,并衡量MCI的進展。在本研究中,使用來自該數據集的T1-MRI和氟代脫氧葡萄糖(fludeoxyglucose,FDG)PET。該數據庫中病例標簽有AD、MCI和NC,本文主要研究MCI階段。MCI受試者根據精神疾病診斷與統計手冊(The Diagnostic and Statistical Manual of Mental Disorders,DSM)第5版標準分為進展型輕度認知障礙(progressive mild cognitive impairment,pMCI)和穩定型輕度認知障礙(stable mild cognitive impairment,sMCI),即MCI如果在3年內發展為AD,應定義為pMCI,如果沒有發展為AD,則定義為sMCI,隨訪數據不超過3年的受試者被忽略。AD與NC是較容易區分的,在大量已發表的研究中使用深度學習方法可達90%以上[12]。而sMCI和pMCI較難區分,準確率一般為60%~70%[13]。本研究數據使用的詳細情況如表1所示。注意,同一位患者如果在不同時間進行檢測會有多張圖片,即一位患者可以有幾張不同的圖像。

表1 實驗中數據使用情況Table 1 Data usage in the experiment
使用zxhtools[14]的zxhreg和zxhtransform,將MR圖像重新采樣到221×257×221的分辨率和1 mm的間距,即每個像素值表示實際的1 mm距離。每個PET圖像配準到各自的MR圖像上,獲得配對的圖像。由于海馬體在AD診斷中具有重要意義,所以選擇海馬體中心大小為96×96×48的區域進行裁剪獲取所需的ROI數據塊。數據可視化展示見圖2。
CNN是一種多層神經網絡,擅長處理圖像特別是大圖像的相關機器學習問題。CNN通過卷積層與池化層配合,組成多個卷積組,逐層提取特征,可以將數據量龐大的圖像識別問題不斷降維,最終使其能夠被訓練。總之,CNN通過卷積來提取特征,并且通過卷積的權值共享及池化層來降低網絡參數的數量級,最后通過傳統神經網絡全連接FC(fully connected,FC)層完成分類等任務,后續又發展出了許多先進的網絡如AlexNet[15]、VGG[16]、ResNet[17]等。
3D CNN是在2D CNN的基礎上改變而來,在2D CNN中,卷積核沿2個方向移動,2D CNN的輸入和輸出數據是3維的。而在3D CNN中,卷積核沿3個方向移動,3D CNN的輸入和輸出數據是4維的,主要用于3D圖像數據。多出的一個維度是除了圖片本身的維度外再加上一個通道數。
本文根據數據集大小及實際情況,構建了一個3D CNN,其網絡結構如表2所示。該模型由4層卷積層和2層FC層組成。每層卷積層后都接有一個最大池化層來減少參數量。第一層FC層有512個結點,第二層FC層有2個節點,最后通過一個softmax層,模型輸出疾病預測的標簽。

表2 3D CNN的結構Table 2 3D CNN structure

圖2 數據可視化展示Figure 2 Data visualization display
評估模型性能,目前常常采用的評價指標有準確率(accuracy),特異度(specificity)、靈敏度(sensitivity)等。



式中:TP(true positive)、TN(true negative)、FP(false positive)和FN(false negative)分別代表真陽性率、真陰性率、假陽性率和假陰性率。還有一些其他常見的評價指標如受試者工作特性曲線(receiver operating characteristic curve,ROC曲線)、曲線下面積(area under curve,AUC)等。ROC曲線是以真陽性率(靈敏度)為縱坐標,假陽性率為橫坐標繪制的曲線。ROC曲線越靠近左上角,AUC值越大,表明性能越好。
本文所有網絡模型都是基于PyTorch編程,所有實驗都在一塊Nvidia GTX1080 GPU上進行。為了加速訓練過程并避免局部最小值,使用ADAM優化器作為優化[18],初始學習率設置為0.000 1。歸一化方式選擇批量歸一化(batch normalization,BN),批量訓練大小設置為16, Relu作為激活函數。交叉熵損失(cross-entropy loss)作為損失函數。使用PyTorch中的nn.Linear實現兩層FC層。epoch數設置為60。在訓練過程中,模型的參數每5個epoch保存一次。
此外,為了避免數據泄露問題[19-20],研究組將數據集根據患者編號隨機拆分以保證同一患者的所有影像數據只出現在訓練集、驗證集、測試集的某一個集合里。由于數據樣本數量不大,為了保證原始數據集的每個樣本都有機會出現在訓練集和測試集中,采用10折交叉驗證方法。最后,在訓練集上進行訓練,在驗證集上選擇最佳模型,在測試集上做最后的測試,訓練集、驗證集、測試集數據的比例是7∶2∶1。
為評估設計的模型是否合理,必須選用其他模型使用相同的數據進行對比實驗分析。本實驗選擇VGG和ResNet作為對比模型,因為這兩個模型不但是計算機視覺中兩個經典的模型,而且在許多分類和分割等比賽中都有較好表現,是公認的在實際中效果比較穩定比較好的模型并且實現起來也比較容易。此外,已發表論文中也有許多是用VGG和ResNet系列的模型做對比實驗,因此本實驗采用3D VGG11和3D ResNet18作為對比模型。為保證實驗準確性,對這3種模型使用相同的參數設置。基于MRI數據sMCI、pMCI分類實驗結果如表3所示。基于PET數據sMCI、pMCI分類實驗結果如表4所示。ROC曲線如圖3所示。

圖3 sMCI與pMCI的受試者工作特征曲線Figure 3 Receiver operating characteristic curves for sMCI and pMCI
從表3可以看到3D CNN模型準確率、敏感度分別達到65.37%、69.44%,ROC曲線下面積如圖3(a)最大,為65.23%,優于作為對比模型的VGG和ResNet。VGG也取得了不錯的效果,特異度達到61.66%,比本文模型略高一些。從表4可以看到和表3中類似的結果,準確率、敏感度分別達到71.19%、79.29%,ROC曲線下面積如圖3(b)最大,為71.09%,也優于作為對比模型的VGG和ResNet。結果表明,設計的3D CNN模型對于本研究涉及的分類任務是合理的,與另外兩個模型相比,在多個評價指標上都取得了不錯的結果。

表3 各模型在MRI數據上的表現(單位:%)Table 3 The performance of each model on MRI data (unit:%)
通過對比表3和表4,以及圖3的結果發現,如果采用相同的模型但使用不同的數據,則模型在PET圖像上的效果要比在MR 圖像上的結果要好。實驗結果表明,在AD的早期診斷中,PET數據比MRI更有優勢。

表4 各模型在PET數據上的表現(單位:%)Table 4 The performance of each model on PET data(unit:%)
本研究通過設計一個3D CNN模型,分別采用MRI、PET圖像進行AD的早期診斷實驗。根據表3、表4實驗結果可以看到各模型使用PET數據時,準確率、敏感度、特異度等指標均高于使用MRI數據時的結果,這符合本文引言中所說的,在AD早期階段腦萎縮還不明顯的時候,腦部相關區域代謝已經有較明顯變化,PET是功能像正好能比較敏感地反映出這些區域的代謝變化,而MRI是結構像無法做到這一點,因此PET圖像在AD早期診斷中可以獲得比MRI更好的效果。Coimbra等[21]使用FDG進行PET成像檢測局部腦代謝的變化,再結合傳統醫學評估,可以對AD進行更靈敏、準確的早期診斷。Lin[22]由MRI圖像合成相對應的PET圖像,進一步提高診斷準確率。Marcus等[23]等通過分析腦部PET圖像中葡萄糖代謝的模式特征可以將AD與其他癡呆病因區分開,這樣的結果對于本實驗有一定的啟發性,同時表明PET成像在評估AD病程中具有重要價值。
本模型與對比模型相比有較好的結果。因為,與大多數圖像分類模型的結構相比,本研究組在第一層卷積層中使用較小尺寸的卷積核來防止過早的下采樣,而ResNet在第一層使用較大尺寸的卷積核并且使用較大的步長來迅速減小輸入圖像的尺寸,雖然這樣做可以減少參數加快計算速度,但是由于CNN在前面層主要提取一些淺層的特征,到后面層的CNN才會提取到高級的語義特征,所以在第1層使用大步長和大尺寸卷積核會導致在前面層就丟失大量信息,這可能對結果產生不利影響。本模型在越前面的層使用越小尺寸的卷積核和越小的步長,充分保留相關的特征信息。等到后面層已經提取到有效的語義層次的信息,這時就采用較大尺寸的卷積核和步長,不僅可以減少參數量,加快運算速度,還能去除大量冗余信息,避免冗余信息對結果產生不利影響。此外,在實驗中使用的是ROI數據塊,輸入尺寸僅為96×96×48, 因此,模型在前面層使用大步長和大尺寸卷積核使輸入尺寸迅速減小過多會導致嚴重的性能下降。還有一個可能的原因是本研究的病例樣本數量只有幾百個,不宜采用太深的模型,否則容易出現過擬合等問題。先前介紹中已有大量研究使用端到端CNN方法來進行疾病的診斷,并取得非常不錯的結果,這表明采用CNN進行疾病的診斷具有巨大潛能。本研究所提出的方法也展示了良好的結果,對于AD的早期診斷具有一定的輔助作用,具備進一步研究的意義。本實驗的不足之處在于對AD早期診斷的準確率仍有很大的提升空間,如果需要進一步提高預測結果,則需要進一步結合臨床實際探索更加合理有效并且更具有可解釋性的方法[例如,收集不同模態數據的信息如MRI、PET、腦脊液(cerebro-spinal fluid,CSF)、基因等信息并設計有效的融合方法融合這些信息],因此,更為具體的實驗方案有待建立和實施。
本研究從ADNI數據庫獲得數據后對原始數據進行相關的預處理,同時設計了一種3D CNN模型用于快速準確地對AD進行早期診斷。還對比了MRI和PET圖像對于AD診斷的結果,實驗結果表明腦部PET圖像在AD早期診斷中具有非常好的效果,對于疾病的相關研究以及早期診斷具有重大意義。本研究樣本有限,對于所設計模型的更多測試還需要進一步跟蹤ADNI數據庫以及對比其他深度學習方法,進一步優化實驗方法。