黎建忠,曾安,2,潘丹,Song Xiaowei,郭慧,王卓薇
(1.廣東工業(yè)大學計算機學院,中國 廣州 510006;2.廣東省大數(shù)據(jù)分析與處理重點實驗室,中國 廣州 510006;3.廣東建設職業(yè)技術學院現(xiàn)代教育技術中心,中國 廣州 510440;4.廣州市本真網(wǎng)絡科技有限公司,中國 廣州 510095;5.西蒙弗雷澤大學影像技術實驗室,加拿大 溫哥華 V6B 5K3;6. 天津醫(yī)科大學總醫(yī)院醫(yī)學影像科,中國 天津 300052)
阿爾茨海默癥(alzheimer's disease,AD)是一種不可逆的慢性神經(jīng)系統(tǒng)退行性疾病[1]。AD現(xiàn)有藥物治療非常有限,但早期準確發(fā)現(xiàn)能減緩疾病進程。輕度認知損害(mild cognitive impairment,MCI)是介于健康者(health controllers,HC)和AD之間的過渡階段。
目前,國內外研究學者基于神經(jīng)影像學,提出了一些關于AD及其前驅階段分類的思想和方法。腦組織中的異常蛋白質的沉積和神經(jīng)原纖維纏結是AD的重要病理學征象[2]。AD的產(chǎn)生同時伴隨著顳葉和海馬體的萎縮,這些生物標識可以通過結構性磁共振成像(structural magnetic resonance imaging,sMRI)進行測量[3]。在AD的早期診療階段,不少研究者采用sMRI作為依據(jù)診斷病情[4]。除此之外,在扣帶回和海馬體等大腦區(qū)域,AD和葡萄糖的低代謝有較強的關系[5];AD患者在整體皮質區(qū)域有較高的淀粉樣蛋白負荷[6]。低代謝和高淀粉樣蛋白負荷可以通過正電子發(fā)射斷層掃描(positron-emission tomography,PET)測量。而功能性磁共振成像(functional magnetic resonance imaging,fMRI)可用于測量不同腦區(qū)域的功能一致性和功能連接的強度[7]。因此,研究者嘗試從不同的模態(tài)捕獲AD疾病信息,得到較好的分類準確率。
近年來相關的研究相對獨立,一般文獻的結論是其提出的分類框架基于準確率上較優(yōu),而很少把實驗結果用于比較的目的。滕升華等[8]學者提出了一種兩層字典協(xié)調工作的復合稀疏表示分類器,在AD VS NC和MCI VS NC的分類實驗上,分別獲得約92.05%及88.57%的準確率。實際上,關于AD及其前驅階段的分類研究,會受到研究人群的構成及規(guī)模、特征類型、隨訪期長度和分類算法等因素的影響。所以,對于該領域的研究現(xiàn)狀,目前難以做出全面客觀的總結。但是,對于該領域上的分類問題,合適的樣本、特征及分類算法的選擇等因素,對分類準確率的影響程度各有不同。文獻[2-3]已經(jīng)證實,AD與腦萎縮有密切關系,而腦萎縮主要反映在皮層表面積的縮小及厚度降低和灰質體積減少上,因此,灰質體積(gray matter volume,記為GV)、皮層表面積(cortical surface area,記為SA)及其平均厚度(thickness average,記為TA)三類特征,可以作為判斷AD患者大腦形態(tài)結構變化的證據(jù)。因此,本研究提出基于三類解剖特征的支持向量機(support vector machine,SVM)建模方法,對AD、MCI和HC階段的sMRI進行分類,探索樣本、特征與算法選擇對分類的影響。
SVM是建立在統(tǒng)計學習理論基礎上的一種數(shù)據(jù)挖掘方法,能有效處理回歸問題和模式識別等諸多問題。其機理是尋找一個滿足分類要求的最優(yōu)分類超平面,使得該超平面在保證分類精度的同時,使超平面兩側的間隔區(qū)域最大化。理論上,SVM可實現(xiàn)對線性可分數(shù)據(jù)的最優(yōu)分類。
SVM推廣到線性不可分情況的核心思想是通過一個核函數(shù)將非線性可分的輸入空間映射到一個線性可分的空間,在此線性可分的空間中進行訓練、學習。目前關于核函數(shù)及其參數(shù)的選取沒有統(tǒng)一的準則,一般依靠經(jīng)驗選擇。常用的SVM核包括線性核、徑向基核及Sigmoid核等函數(shù)。
本研究編寫過程中使用的數(shù)據(jù)來自阿爾茨海默病神經(jīng)成像倡議(ADNI)數(shù)據(jù)庫(adni.loni.usc.edu)。ADNI成立于2003,由首席調查員Michael W. Weiner, MD領導,是一個公私合作伙伴。ADNI的主要目的是檢測一系列磁共振成像(MRI)、正電子發(fā)射斷層掃描(PET)、其他生物標記物以及臨床和神經(jīng)心理學評估是否可以聯(lián)合應用于度量輕度認知損害(MCI)和早期阿爾茨海默病(AD)的進展。
本研究選取來自88名被試者的297張sMRI組成實驗樣本。其中,AD階段55張,MCI階段130張,HC階段 112張。在樣本的構成上,同一名被試者對應不同時間點上的多張成像。其中AD男性9名,女性9名;MCI男性20名,女性17名;HC男性18名,女性15名。選取的sMRI維度為256×256×170,翻轉角為8,磁場強度為3T,層厚為1.2 mm,TR/TE=7.0/3.0。
本研究使用FreeSurfer工具箱實現(xiàn)一系列算法,對人腦神經(jīng)影像進行預處理,獲得不同大腦區(qū)域的灰度體積、皮層表面積及平均厚度統(tǒng)計數(shù)據(jù),作為訓練模型的輸入特征。
預處理即是三維重構的過程,主要包括運動校正、去除非腦組織、自動Talairach變換、白質分割、深部灰質體積結構的強度歸一化、自動拓撲校正[9]等。
由于預處理算法的復雜性及計算量的龐大,采用實驗室環(huán)境中的服務器處理sMRI效率較低。因此,本研究使用“天河二號”超級計算機完成預處理,極大縮短了實驗周期。
本研究中,經(jīng)過sMRI三維重構后,獲得大腦顳上溝、尾側前扣帶回、額中回后部、楔前葉、嗅區(qū)、梭狀回、頂下小葉、顳下回、扣帶回峽、枕葉外側、額眶回、舌回、內側眶回、顳中回、海馬旁回、中央旁小葉、島蓋部、眶回、三角區(qū)、距狀旁回、中央后回、后扣帶回、中央前回、楔前葉、喙側前扣帶回、額中回下部、額上回、頂上小葉、顳上回、緣上回、額極、顳極、顳橫和島葉,共34個相關區(qū)域,左右腦各三類特征(灰質體積、皮層表面積及平均厚度),共34×2×3=204個特征。
基于三類解剖特征的SVM算法流程見圖1。

圖1 基于三類解剖特征的SVM算法流程
Fig1SVMalgorithmbasedonthreetypesofanatomicalfeatures
首先,從ANDI數(shù)據(jù)庫獲取sMRI;
其次,對88個樣本的297張sMRI進行三維重構,提取sMRI中對應左右腦各34個不同大腦區(qū)域(參見3.3)的三類解剖特征,即灰質體積(GV)、皮層表面積(SA)及平均厚度(TA),共204個特征作為模型的訓練數(shù)據(jù)。三個分類實驗中,把只使用SA、GV或TA其中一類特征訓練的情況稱為“單類特征”;把同時使用三類特征共同訓練的情況簡記為SA+GV+TA,稱為“組合特征”。
接著,選擇不同的核函數(shù)及參數(shù)值訓練SVM模型。當選擇RBF核作為核函數(shù)時,取γ為特征數(shù)量的倒數(shù)。即在單類及組合特征實驗中,γ分別取值為γ=1/68=0.0147 及γ=1/204=0.0049。為了驗證本研究算法的有效性,采用10-折交叉驗證來劃分訓練集與測試集。
最后,對AD、MCI和HC三類人群進行分類識別,并通過準確率等衡量指標,評估模型的性能。
本研究利用線性核、RBF核及Sigmoid核函數(shù)進行分類研究,對AD、MCI及HC三類人群分類的10次10-折交叉驗證分類準確率的平均準確率和標準差結果,見表1~表3。
從特征類型的角度,在表1和表2的分類實驗中,選擇組合特征的平均準確率高于單類特征;在表3的分類實驗中,選擇TA單類特征的平均準確率高于組合特征及其他兩類單類特征。從核函數(shù)選擇的角度,在表1~表3中,對于使用同一類單類特征或組合特征的情況,不同核函數(shù)及參數(shù)值對分類準確率的影響不大。表明對提高分類器的預測性能,特征選擇比核函數(shù)及其參數(shù)值的選擇更重要。
綜合表1~表3,AD組vs HC組的分類效果總體上優(yōu)于AD組vs MCI組和HC組 vs MCI組。表明AD組與HC組在特征上區(qū)別較大,而AD組vs MCI組和HC組 vs MCI組間的區(qū)別相對較小。標準差反映10次交叉驗證準確率的波動程度。表中標準差基本小于0.02,表明SVM模型的準確率波動范圍處于較低水平,模型相對穩(wěn)定。
為了進一步探索不同樣本、特征和算法對AD及其前驅階段分類問題的影響,分析Heung-Il Suk等[10]基于低層特征(low level features,LLF)和堆棧自動編碼器特征(stacked auto-encoder features,SAEF)的深度學習模型方法(見表4第二列)、葉婷婷[11]等基于有效距離特征選擇(effective distance based multi-modality feature selection,MMFS_ED)的SVM方法(見表4第三列)的實驗結果,并與本研究提出的基于三類解剖特征的SVM方法做比較。表4和圖2展示了不同樣本、不同特征類型和不同算法模型下的最佳準確率。
表1AD組vsMCI組的平均準確率和標準差
Table1AverageaccuracyandstandarddeviationinADvsMCI

特征集線性核RBF核γ0.0147或0.00490.52.5Sigmoid核γ,r1,0GV0.898±0.0300.899±0.0200.896±0.0160.899±0.0190.892±0.014SA0.875±0.0250.885±0.0190.900±0.0150.893±0.0180.890±0.018TA0.878±0.0110.883±0.0390.888±0.0140.881±0.0290.874±0.024SA+GV+TA0.932±0.0280.933±0.0230.937±0.0170.936±0.0120.955±0.013
表2HC組vsMCI組的平均準確率和標準差
Table2AverageaccuracyandstandarddeviationinHCvsMCI

特征集線性核RBF核γ0.0147或0.00490.52.5Sigmoid核γ,r1,0GV0.911±0.0140.910±0.0110.916±0.0120.916±0.0120.917±0.016SA0.908±0.0130.915±0.0180.910±0.0180.910±0.0110.908±0.011TA0.923±0.0110.921±0.0130.923±0.0100.928±0.0110.923±0.013SA+GV+TA0.964±0.0090.960±0.0120.964±0.0100.960±0.0100.965±0.011
表3AD組vsHC組的平均準確率和標準差
Table3AverageaccuracyandstandarddeviationinADvsHC

特征集線性核RBF核γ0.0147或0.00490.52.5Sigmoid核γ,r1,0GV0.921±0.0080.931±0.0090.935±0.0070.928±0.0100.929±0.008SA0.925±0.0090.920±0.0210.924±0.0150.931±0.0120.930±0.012TA0.967±0.0130.970±0.0060.970±0.0060.970±0.0090.974±0.008SA+GV+TA0.914±0.0160.926±0.0110.924±0.0140.928±0.0110.917±0.025
表4與國內外部分文獻結果的對比
Table4Comparisonswiththeresultspublishedinotherpapers

對比組LLF+SAEFMMFS_EDSA+GV+TA或TAAD vs MCI0.837±0.015-0.955±0.013HC vs MCI0.907±0.0120.8150.965±0.011AD vs HC0.988±0.0040.9550.974±0.008
在AD組 vs MCI組和HC組 vs MCI組的實驗中,文獻與本研究的準確率相差較大,雖然葉婷婷[11]等與本研究同樣使用SVM模型作為核心的分類算法,但是由于受到研究人群和特征類型的影響,準確率存在較大差異。而Heung-Il Suk[10]等選擇的特征類型較多,但是由于研究人群的差異,即使采用了對復雜函數(shù)學習能力更強的深度學習算法訓練模型,其準確率仍遠低于本研究基于三類解剖特征的SVM算法。表明為了達到更高的分類準確率,選擇合適的樣本和特征,比選擇分類算法更重要。

圖2 與國內外部分文獻結果的對比
Fig2Comparisonswiththeresultspublishedinotherpapers
本研究基于sMRI,以左右腦不同區(qū)域的灰質體積、皮層表面積及平均厚度作為特征,建立SVM分類模型,實現(xiàn)AD、MCI和HC 3組人群兩兩之間的分類。本研究選擇的圖像樣本,對于同一個被試,對應不同時間點上的多張成像。通過選擇不同核函數(shù)及參數(shù),以及選擇單類特征或組合特征,建立SVM模型,與基于不同樣本、不同特征及不同算法的文獻結果進行比較。實驗比較和分析得知,在提升分類器性能上,相對于算法的選擇,樣本及特征選擇更重要。在未來的研究中,探索樣本的構成及如何選擇特征類型的方法將成為關鍵工作。
致謝
本項目的數(shù)據(jù)收集和共享由阿爾茨海默病神經(jīng)成像倡議(ADNI)(美國國家衛(wèi)生研究院授權U01AG024904)和DoDADNI(美國國防部獎勵編號W81xWH-12-2-0014)供資。ADNI由美國國家老齡化研究所、美國國家生物醫(yī)學影像和生物工程研究所提供資金,并由下列機構提供慷慨捐助:AbbVie, Alzheimer’s Association; Alzheimer’s Drug Discovery Foundation; Araclon Biotech; BioClinica, Inc.; Biogen; Bristol-Myers Squibb Company; CereSpir, Inc.; Cogstate; Eisai Inc.; Elan Pharmaceuticals, Inc.; Eli Lilly and Company; EuroImmun; F. Hoffmann-La Roche Ltd and its affiliated company Genentech, Inc.; Fujirebio; GE Healthcare; IXICO Ltd.; Janssen Alzheimer Immunotherapy Research & Development, LLC.; Johnson & Johnson Pharmaceutical Research & Development LLC.; Lumosity; Lundbeck; Merck & Co., Inc.; Meso Scale Diagnostics, LLC.; NeuroRx Research; Neurotrack Technologies; Novartis Pharmaceuticals Corporation; Pfizer Inc.; Piramal Imaging; Servier; Takeda Pharmaceutical Company; and Transition Therapeutics. 加拿大衛(wèi)生研究院正在提供資金,以支持在加拿大境內的ADNI臨床站點。美國國家衛(wèi)生研究院基金會為私營部門的捐助提供了便利(www.fnih.org)。受捐贈機構是北加利福尼亞研究和教育研究所,這項研究由南加州大學的阿爾茨海默癥治療研究所負責協(xié)調。ADNI數(shù)據(jù)由南加州大學神經(jīng)影像實驗室發(fā)布。