李晨陽,王晨涵,王靜,焦方陽,徐蒨,張慧瑋,左傳濤*,蔣皆恢,3*
1.上海大學(xué)生命科學(xué)學(xué)院生物醫(yī)學(xué)工程研究所,上海 200444;2.復(fù)旦大學(xué)附屬華山醫(yī)院 PET 中心,上海 200235;3.核醫(yī)學(xué)與分子影像四川省重點(diǎn)實(shí)驗(yàn)室,四川 瀘州 646000;*通信作者 蔣皆恢 jiangjiehui@shu.edu.cn;左傳濤zuochuantao@fudan.edu.cn
原發(fā)性帕金森病(primary Parkinson's disease,IPD)是常見的神經(jīng)退行性疾病之一[1],其臨床表現(xiàn)與非典型性帕金森綜合征(atypical Parkinson's syndrome,APS)如多系統(tǒng)萎縮(multiple system atrophy,MSA)和進(jìn)行性核上性麻痹(progressive supranuclear palsy,PSP)基本重疊,誤診率達(dá)20%~25%,此類患者初步診斷為IPD后又證實(shí)為MSA或PSP[2]。盡管目前已有多位學(xué)者進(jìn)行廣泛研究,但在臨床上IPD準(zhǔn)確診斷仍然具有挑戰(zhàn)性[3]。因此,在制訂此類疾病治療與診斷策略的同時(shí),設(shè)計(jì)一套可解釋的分類預(yù)測(cè)模型挖掘影像生物標(biāo)志物具有重要臨床意義。
PET是一種非侵入性神經(jīng)影像技術(shù),基于不同靶點(diǎn)的顯像劑,在可視化帕金森病患者腦內(nèi)病理生理變化方面發(fā)揮關(guān)鍵作用[4-5]。目前可用的PET顯像劑中18F-FDG具備早期檢測(cè)神經(jīng)退行性異常的潛力[6],在臨床實(shí)際應(yīng)用中可獲得性最佳。人工智能計(jì)算機(jī)輔助診斷的出現(xiàn)使影像組學(xué)和深度學(xué)習(xí)(deep learning,DL)方法在該領(lǐng)域廣泛應(yīng)用[7-8]。然而,這兩種模型具有各自的優(yōu)缺點(diǎn)。影像組學(xué)方法可以提取可解釋的影像標(biāo)志物,但需要先驗(yàn)知識(shí)并對(duì)感興趣區(qū)(ROI)和特征提取進(jìn)行手動(dòng)編碼,操作煩瑣[9-11];DL方法在實(shí)現(xiàn)高精度分類與預(yù)測(cè)任務(wù)上表現(xiàn)出色,但其特征缺乏可解釋性,臨床醫(yī)師很難利用合適的DL特征作為影像標(biāo)志物[7]。因此,迫切需要一種替代方法彌補(bǔ)傳統(tǒng)方法可解釋性和模型可重復(fù)性的差距。
本研究擬采用一種新提出的可解釋的深度學(xué)習(xí)影像組學(xué)(interpretable deep learning radiomics,IDLR)模型探究和挖掘影像生物標(biāo)志物。該模型能夠利用影像組學(xué)特征指導(dǎo)和監(jiān)督DL特征的篩選,從而保持DL方法固有的分類和預(yù)測(cè)精度,同時(shí)使DL特征具有影像學(xué)上的可解釋性,進(jìn)而驗(yàn)證IDLR模型在18F-FDG PET圖像中對(duì)IPD和APS的鑒別診斷潛力。
1.1 研究對(duì)象 本研究為橫斷面研究,納入2015年3月—2023年2月復(fù)旦大學(xué)附屬華山醫(yī)院帕金森病PET成像基準(zhǔn)(HPPI)數(shù)據(jù)庫內(nèi)的330例受試者,包括IPD 211例[男131例、女80例,平均年齡(60.1±7.6)歲]、PSP 59例[男39例、女20例,平均年齡(64.7±6.9)歲]、MSA 60例[男31例、女29例,平均年齡(58.5±6.2)歲]。納入標(biāo)準(zhǔn):①根據(jù)相關(guān)診斷標(biāo)準(zhǔn)確診為IPD與APS[12];②無腦炎或精神安定藥物治療等已知致病因素病史,無癡呆、核上凝視異常或共濟(jì)失調(diào);③臨床數(shù)據(jù)的可用性。所有受試者隨機(jī)分為2個(gè)隊(duì)列,隊(duì)列1為訓(xùn)練組(270例),用來構(gòu)建不同的分類模型與特征篩選;隊(duì)列2為測(cè)試組(60例),用來評(píng)估模型與分類效果。所有受試者由2名運(yùn)動(dòng)障礙高級(jí)研究人員進(jìn)行篩查和臨床檢查,接受帕金森病臨床量表評(píng)估和顯像,包括Hoehn-Yahr分級(jí)量表(H&Y)和統(tǒng)一帕金森病評(píng)定量表(unified Parkinson's disease rating scale,UPDRS)[13]。本研究經(jīng)本院倫理委員會(huì)批準(zhǔn)[〔2013〕臨審第(336)號(hào)]。
1.2 檢查方法 使用GE 3.0T MR750掃描儀,不限時(shí)掃描,信號(hào)漂移率約為0.03%;圖像重建速度13 000幅/s,視野45 cm,磁場(chǎng)均勻度0.5 ppm。受試者在檢查前至少禁食6 h,在靜息狀態(tài)下采用西門子Biograph 64 HD PET/CT系統(tǒng)以3D模式定位。18F-FDG由復(fù)旦大學(xué)附屬華山醫(yī)院制備,放化純>90%。受試者靜脈注射185 MBq18F-FDG后休息60 min,隨后行10 min PET掃描。最后使用有序子集最大期望值迭代法重建圖像[14]。
1.3 圖像預(yù)處理 所有圖像采用統(tǒng)計(jì)參數(shù)圖進(jìn)行預(yù)處理,使用適當(dāng)?shù)淖儞Q參數(shù)將PET圖像在空間上歸一化到蒙特利爾神經(jīng)研究所(MNI)空間。為了提高信噪比,空間歸一化的PET圖像使用8 mm各向同性高斯核進(jìn)行平滑。所有18F-FDG PET圖像均基于全局皮質(zhì)攝取進(jìn)行計(jì)數(shù)歸一化和標(biāo)準(zhǔn)化,并以全部小腦作為參考區(qū)域計(jì)算全局淀粉樣蛋白-PET標(biāo)準(zhǔn)化攝取值比值(standardized uptake value ratio,SUVR)。
1.4 IDLR模型工作流程 本研究提出的IDLR模型包括4部分(圖1):①特征提取,由影像組學(xué)提取器[9,16]及3D深度神經(jīng)網(wǎng)絡(luò)提取器[17]組成;②特征篩選/融合,計(jì)算DL特征和一組篩選后16個(gè)關(guān)鍵影像組學(xué)特征的相關(guān)系數(shù),與這些關(guān)鍵影像組學(xué)特征顯著相關(guān)(P<0.01)的DL特征保留為IDLR特征;③特征可解釋性分析,在模型的最后一層卷積層上使用Grad-CAM類激活圖[18]加權(quán)與平均,生成切片熱力圖;④診斷/分類預(yù)測(cè)模型,篩選后的可解釋特征構(gòu)建不同的分類模型以評(píng)估性能。

圖1 IDLR模型工作流程。Grad-CAM為梯度加權(quán)類激活圖,SVM為支持向量機(jī)
1.5 二分類與對(duì)比實(shí)驗(yàn) 為證實(shí)IDLR模型的性能優(yōu)越性,本研究與兩種已提出的傳統(tǒng)模型(Wu等[9]的影像組學(xué)模型和Sun等[15]的DL模型)進(jìn)行比較分析。影像組學(xué)模型使用影像組學(xué)特征與支持向量機(jī)(support vector machine,SVM)結(jié)合作為分類器建立,而DL模型直接采用3D-ResNet殘差網(wǎng)絡(luò)作為分類器建立,并采用帕金森病腦區(qū)劃分ROI的SUVR特征構(gòu)建圖像平均體素的分類器。這些分類模型均以隊(duì)列1為訓(xùn)練組,在隊(duì)列2中進(jìn)行獨(dú)立測(cè)試。機(jī)器學(xué)習(xí)與DL模型均采用10折交叉驗(yàn)證的訓(xùn)練和驗(yàn)證,使用受試者工作特征(ROC)曲線與分類評(píng)估指標(biāo)(準(zhǔn)確度、敏感度、特異度)評(píng)價(jià)模型的分類精度與性能指標(biāo)。
1.6 模型可解釋性 為增強(qiáng)DL模型學(xué)習(xí)表示的可解釋性,并解釋DL特征,本研究首先對(duì)篩選后的IDLR特征進(jìn)行相關(guān)性分析,使用Grad-CAM應(yīng)用于每個(gè)疾病種類的圖像切片,為每種疾病的部分病例圖像生成切片熱力圖,提供從Grad-CAM導(dǎo)出的特征重要性值,從而形成區(qū)域式熱力圖。特定位置的重要性表明它們對(duì)總估計(jì)的貢獻(xiàn),隨后與傳統(tǒng)影像組學(xué)提取的關(guān)鍵ROI[19-20]進(jìn)行對(duì)比,更好地了解特定預(yù)測(cè)的關(guān)鍵大腦區(qū)域。
1.7 統(tǒng)計(jì)學(xué)分析 采用SPSS 24.0與R 4.3.2軟件。符合正態(tài)分布的計(jì)量資料以±s表示,多組間比較采用單因素方差分析;計(jì)數(shù)資料以例數(shù)表示,采用χ2檢驗(yàn)比較。不同ROC曲線下面積比較采用Delong檢驗(yàn)。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 一般結(jié)果 2個(gè)隊(duì)列受試者的人口統(tǒng)計(jì)學(xué)信息見表1。2個(gè)隊(duì)列各組受試者年齡差異有統(tǒng)計(jì)學(xué)意義(P<0.05),性別差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。2個(gè)隊(duì)列H&Y評(píng)分差異有統(tǒng)計(jì)學(xué)意義(P<0.001);隊(duì)列1中UPDRS評(píng)分差異無統(tǒng)計(jì)學(xué)意義(P=0.895),隊(duì)列2中差異有統(tǒng)計(jì)學(xué)意義(P<0.001)。

表1 2個(gè)隊(duì)列受試者的臨床資料比較
2.2 分類結(jié)果分析 IDLR方法在隊(duì)列1區(qū)分MSA與IPD、MSA與PSP、IPD與PSP組間兩兩分類中均具有較好的分類和診斷性能,具有高準(zhǔn)確度、敏感度和特異度(準(zhǔn)確度均>0.83,敏感度均>0.88,特異度均>0.81),見表2。在隊(duì)列2中,IDLR方法也具有較好的分類效果(圖2),AUC最大,在IPD/MSA/PSP組間兩兩分類的精確性均顯著提升(MSA與IPD 0.935 7,MSA與PSP 0.975 4,IPD與PSP 0.982 5),優(yōu)于傳統(tǒng)影像組學(xué)與SUVR模型(Z=1.31~2.96,P均<0.05;Z=1.22~3.23,P均<0.05),相較于DL模型準(zhǔn)確度略有提升,但差異無統(tǒng)計(jì)學(xué)意義(Z=0.55~0.93,P均>0.05)。
表2 隊(duì)列1中4種模型區(qū)分不同疾病的性能(±s)

表2 隊(duì)列1中4種模型區(qū)分不同疾病的性能(±s)
注: MSA為多系統(tǒng)萎縮,IPD為原發(fā)性帕金森病,PSP為進(jìn)行性核上性麻痹,SUVR為標(biāo)準(zhǔn)化攝取值比值,IDLR為可解釋的深度學(xué)習(xí)影像組學(xué),DL為深度學(xué)習(xí)
模型MSA與IPD MSA與PSP IPD與PSP準(zhǔn)確度敏感度特異度準(zhǔn)確度敏感度特異度準(zhǔn)確度敏感度特異度SUVR模型 0.74±0.09 0.72±0.05 0.69±0.01 0.65±0.11 0.82±0.05 0.79±0.01 0.74±0.18 0.62±0.04 0.77±0.10 0.81±0.17 DL模型 0.88±0.14 0.91±0.03 0.77±0.11 0.81±0.11 0.72±0.13 0.88±0.02 0.86±0.12 0.83±0.02 0.79±0.04 IDLR模型0.94±0.02 0.88±0.03 0.97±0.05 0.83±0.08 0.92±0.01 0.89±0.03 0.98±0.02 0.94±0.03影像組學(xué)模型0.79±0.02 0.75±0.08 0.69±0.11 0.75±0.08 0.68±0.02 0.81±0.05 0.94±0.03 0.69±0.06 0.76±0.02

圖2 隊(duì)列2中4種模型區(qū)分不同疾病的ROC曲線。A為MSA與IPD;B為MSA與PSP;C為IPD與PSP;PSP為進(jìn)行性核上麻痹;MSA為多系統(tǒng)萎縮;IPD為原發(fā)性帕金森病
2.3 模型可解釋性分析 本研究計(jì)算DL特征與16個(gè)關(guān)鍵影像組學(xué)特征的相關(guān)性,篩選后的IDLR特征通過強(qiáng)相關(guān)映射回對(duì)應(yīng)的ROI(圖3),隨后使用Grad-CAM方法在隊(duì)列2中顯示每種疾病分別生成的平均相關(guān)熱力圖(圖4)。當(dāng)IDLR模型在疾病組間兩兩區(qū)分時(shí),大腦區(qū)域和高維圖像特征Grad-CAM強(qiáng)調(diào)的顯著特征位置與映射的帕金森病腦區(qū)ROI中部分關(guān)鍵影像組學(xué)特征的位置密切相關(guān)。這種對(duì)齊強(qiáng)調(diào)了IDLR模型的可解釋性和這些關(guān)鍵影像組學(xué)特征空間分布的一致性。

圖3 16個(gè)關(guān)鍵影像組學(xué)特征監(jiān)督篩選后的IDLR特征映射的腦區(qū)ROI

圖4 隊(duì)列2中IDLR模型在影像組學(xué)特征篩選后關(guān)鍵特征的腦區(qū)ROI分布,每列為不同疾病組間Grad-CAM可解釋性圖像切片熱力圖。PSP為進(jìn)行性核上性麻痹,MSA為多系統(tǒng)萎縮,IPD為原發(fā)性帕金森病
本研究提出一個(gè)IDLR模型與流程框架,利用18FFDG PET圖像評(píng)估其對(duì)IPD和APS進(jìn)行分類的臨床適用性。本研究的模型利用深度神經(jīng)網(wǎng)絡(luò)提取器(3DResNet)的功能提取特征,在16個(gè)關(guān)鍵影像組學(xué)特征指導(dǎo)下選擇IDLR特征。該方法不僅提高了分類和預(yù)測(cè)的準(zhǔn)確度,而且保證了DL特征的可解釋性。
3.1 IDLR模型的性能優(yōu)越性 本研究利用影像組學(xué)特征的監(jiān)督與指導(dǎo)提取IDLR特征,這些特征有望成為臨床實(shí)踐中有價(jià)值的影像標(biāo)志物。目前多項(xiàng)研究基于FDG PET圖像利用人工智能技術(shù)對(duì)APS進(jìn)行鑒別診斷及挖掘相關(guān)影像標(biāo)志物:Hu等[21]使用一種基于多變量影像組學(xué)模型在18F-FDG PET圖像上對(duì)PD與MSA進(jìn)行分類診斷,但數(shù)據(jù)量樣本較小且流程較煩瑣;Matthews等[22]使用多種機(jī)器學(xué)習(xí)分類器的方法基于FDG PET圖像尋找帕金森病的影像標(biāo)志物,但由于機(jī)器學(xué)習(xí)缺乏可解釋性,輔助臨床醫(yī)師判斷的說服力不足。本研究提出的IDLR模型旨在保證其高精度分類疾病的同時(shí)簡(jiǎn)化工作流程并解釋模型,在分類實(shí)驗(yàn)中具有最高的分類精度,并超過傳統(tǒng)影像組學(xué)和DL模型。其性能優(yōu)越的原因如下:①巧妙地整合了影像組學(xué)和DL方法,充分發(fā)揮其優(yōu)勢(shì)提高整體性能;②通過采用影像組學(xué)特征作為指導(dǎo)框架消除冗余信息,保留最相關(guān)和最豐富的相關(guān)特征;③通過將IDLR特征、臨床量表和影像組學(xué)特征協(xié)同整合到分類過程中,有效解決欠擬合問題,并簡(jiǎn)化傳統(tǒng)方法分割等工作流程。這種綜合方法有助于模型在分類任務(wù)中表現(xiàn)出色。
3.2 IDLR模型特征與腦區(qū)的相關(guān)性 本研究發(fā)現(xiàn)IDLR模型通過評(píng)估DL特征和16個(gè)關(guān)鍵影像組學(xué)特征的相關(guān)性,篩選出IDLR特征中的大多數(shù)與來自大腦內(nèi)不同ROI的2個(gè)或多個(gè)關(guān)鍵影像組學(xué)特征呈高度相關(guān),表明IDLR特征能夠封裝多個(gè)腦區(qū)的多樣化高維度特征,從而解決傳統(tǒng)影像組學(xué)方法中分類不平衡和獲取影像參數(shù)異質(zhì)性高的問題。此外,本研究選擇的大多數(shù)IDLR特征映射回的腦區(qū)位于與既往IPD疾病相關(guān)研究一致的區(qū)域,如運(yùn)動(dòng)區(qū)域、內(nèi)側(cè)額上回、枕上回、枕中回與枕下回[23]。一方面,內(nèi)側(cè)額上回、枕回與相關(guān)運(yùn)動(dòng)區(qū)域是受到早期IPD相關(guān)神經(jīng)環(huán)路功能障礙影響的腦區(qū),也是基底神經(jīng)節(jié)和雙側(cè)運(yùn)動(dòng)網(wǎng)絡(luò)受到疾病影響易產(chǎn)生損傷的區(qū)域[24];另一方面也表明IDLR特征可以全面捕獲來自多個(gè)腦區(qū)的各種有臨床價(jià)值的信息,從而減少對(duì)僅從特定ROI腦域提取的傳統(tǒng)影像組學(xué)特征的過度依賴。
3.3 IDLR模型的可解釋性探索 本研究深入探索了模型的可解釋性。Grad-CAM可解釋性圖像切片熱力圖突出顯示的區(qū)域表明,本研究的IDLR模型在不同疾病組分類分析過程中識(shí)別出的不同可解釋學(xué)習(xí)區(qū)域能夠與各大腦區(qū)域相關(guān)聯(lián),與既往研究結(jié)果一致[25],證實(shí)了本研究模型可解釋性的可靠性和一致性,并證明了其與該領(lǐng)域已建立的研究保持一致的能力。
3.4 本研究的局限性 ①主要集中于單一模態(tài)的18F-FDG PET成像數(shù)據(jù),而MRI具有較好的腦部成像能力,且目前PET/MRI在中樞神經(jīng)系統(tǒng)疾病的運(yùn)用逐步增多,未來可探索更多成像模式中該方法的可解釋性;②DL訓(xùn)練組和測(cè)試組可納入更大的數(shù)據(jù)量,以提高研究的可信度;③測(cè)試組每個(gè)隊(duì)列均構(gòu)建了不同的分類模型,同樣需要額外的測(cè)試徹底評(píng)估模型的可推廣性和穩(wěn)定性。
總之,IPD與APS的鑒別診斷具有重要臨床意義。本研究提出18F-FDG PET圖像結(jié)合可解釋的深度學(xué)習(xí)影像組學(xué)方法構(gòu)建的IPD與APS分類診斷模型,顯著提升了傳統(tǒng)計(jì)算機(jī)輔助診斷方法的分類精確度,為后續(xù)挖掘影像標(biāo)志物提供了新的思路。