曾小輝,彭 濤,高月琴,牛翔科,陳雪卉,張仕慧,陳志凡
(成都大學附屬醫院放射科,四川 成都 610081)
前列腺癌居惡性腫瘤導致男性死亡的第2位[1]。隨著人民生活質量提高和人口老齡化,我國前列腺癌發病率呈上升趨勢[2]。前列腺多參數MRI是目前診斷前列腺癌的主要無創檢查方法。為提高前列腺癌診斷率和報告的規范化,2012年歐洲泌尿生殖放射協會提出前列腺影像報告和數據系統第1版(prostate imaging reporting and data system version 1, PI-RADS v1),但存在諸多不足,2014年底由美國放射學會、歐洲泌尿生殖放射學會及AdMeTech基金會共同對PI-RADS v1進行修訂,在線頒布了前列腺影像報告和數據系統第2版(prostate imaging reporting and data system version 2, PI-RADS v2)[3-4]。隨著對前列腺癌的深入研究,有學者[5-6]發現高級別前列腺癌(Gleason評分≥7分)和非高級別癌患者預后明顯不同,但通過多種模型結合影像學表現及臨床相關指標診斷高級別前列腺癌的報道較少見。本研究探討支持向量機(support vector machine, SVM)、決策樹(decision tree, DT)和Logistic回歸3種機器學習模型在診斷高級別前列腺癌中的價值。
1.1一般資料 回顧性分析2013年1月—2018年2月于我院接受前列腺多參數MR掃描并取得病理結果的194例患者的資料,年齡50~90歲,平均(74.7±8.9)歲。MRI顯示中位前列腺體積為55.16(35.47,77.77)cm3;中位總前列腺特異抗原(total prostate specific antigen, tPSA)為16.30(8.32,46.52)ng/ml,中位游離前列腺特異抗原(free prostate specific antigen, fPSA)為2.08(1.23,4.65)ng/ml,前列腺特異性抗原密度(adjusted-prostate-specific antigen density, adjusted-PSAD)為0.28(0.14,1.16)ng/(ml·cm3)。根據Gleason評分[7]將患者分為2組,高級別癌組63例(Gleason評分≥7分),Gleason評分分別為:3+4=7分10例、4+3=7分5例、4+4=8分13例、3+5=8分1例、5+4=9分8例、4+5=9分14例、5+5=10分12例;非高級別癌組131例,Gleason評分<7分。納入標準:①臨床資料及相關檢查完整;②MR檢查前3個月內未接受前列腺穿刺、手術及前列腺癌內分泌治療;③MR檢查后1個月內經直腸超聲引導下穿刺或前列腺全切術,并取得病理結果。排除標準:①圖像質量不佳;②MR序列不完整;③既往有前列腺相關手術或治療病史。
1.2儀器與方法 采用Siemens Avanto 1.5T超導型MR掃描儀,相控陣體線圈,掃描前囑患者排空膀胱。仰臥位掃描,先行常規T2WI及DWI,后行動態增強掃描。T2WI參數:FOV 200 mm×200 mm,掃描層數20層,層厚3 mm,層間距0.6 mm,采用自旋回波-回波平面成像序列,TR 4 300 ms,TE 101 ms,矩陣256×205;DWI:b值取800 s/mm2,FOV 260 mm×220 mm,掃描層數20層,層厚3.6 mm,層間距0,TR 3 700 ms,TE 80 ms,矩陣160×100,NEX 6次。動態增強掃描時,采用高壓注射器經肘前靜脈注射Gd-DTPA 0.2 mmol/kg體質量,流率2.5 ml/s;3D-Flash-T1WI,FOV 260 mm×260 mm,掃描層數20層,層厚3.6 mm,體塊(slab)為1,TR 5 ms,TE 1.69 ms,矩陣192×138,掃描次數36次。
1.3相關指標收集及處理 通過臨床信息系統(clinical information system, CIS)查閱獲得臨床指標,包括年齡、fPSA、前列腺抗原比值(fPSA/tPSA)和adjusted-PSAD。由2名具有5年工作經驗的、泌尿系統影像學診斷醫師利用盲法對患者進行PI-RADS v2評分[7],如有分歧經協商達成一致。在T2WI上結合軸位、冠狀位和矢狀位圖像測量前列腺左右徑、前后徑及上下徑,根據公式計算前列腺體積(V)及adjusted-PSAD:V=左右徑(cm)×前后徑(cm)×上下徑(cm)×0.52,adjusted-PSAD=tPSA/V。
1.4模型建立 采用IBM SPSS Modeler軟件中的SVM、DT和Logistic回歸分別對高級別前列腺癌建立預測模型,數據流示意圖見圖1。對各評價因素和相關診斷數據建立數據庫,錄入后建立SVM、DT和Logistic回歸3種模型:對5個評價因素(年齡、PI-RADS v2評分、fPSA、fPSA/tPSA及adjusted-PSAD)建立SVM流、DT流和Logistic回歸數據流,并分析3種學習模型診斷高級別前列腺癌的準確率。采用IBM SPSS Modeler軟件隨機抽樣選出173例(高級別前列腺癌組55例、非高級別前列腺癌組118例)作為訓練集,用于篩選變量和建立預測模型;21例(高級別前列腺癌組8例、非高級別前列腺癌組13例)作為測試集,用于評價模型預測效果。

表1 測試集3種機器學習模型及PI-RADS v2評分診斷高級別前列腺癌的比較分析(%)

圖1 3種機器學習模型數據流示意圖
1.5統計學分析 采用SPSS 20.0統計分析軟件。對數據進行正態分析(Kolmogorov-Smirnov檢驗)和方差齊性(Levene檢驗)檢驗,計量資料符合正態分布以±s表示,非正態分布以中位數(上下四分位數)表示。繪制ROC曲線評價PI-RADS v2評分和3種機器學習模型診斷高級別前列腺癌的效能;并以DeLong方法比較AUC;以病理Gleason評分結果為金標準,采用χ2檢驗比較PI-RADS v2評分及3種模型診斷高級別前列腺癌的敏感度、特異度及準確率的差異。P<0.05為差異有統計學意義。
2.1模型評價及數據 以PI-RADS v2評分預測高級別前列腺癌的準確率為82.66%。訓練集SVM、DT和Logistic回歸3種機器學習模型經學習后診斷高級別前列腺癌的準確率、敏感度及特異度見表1,PI-RADS v2評分及3種機器學習模型診斷高級別前列腺癌的敏感度、特異度、準確率差異均無統計學意義(P均>0.05)。測試集SVM、DT和Logistic回歸3種機器學習模型經學習后診斷高級別前列腺癌準確率分別為76.19%、80.95%及76.19%。通過IBM SPSS Modeler軟件經訓練集學習后,自動獲得3種學習模型診斷高級別前列腺癌變量的重要性,并按所占比例進行排序:SVM模型前3位預測變量為PI-RADS v2、adjusted-PSAD及年齡,所占比例分別為50.00%、15.00%及13.00%;DT模型前3位預測變量為adjusted-PSAD、PI-RADS v2及fPSA,所占比例分別為49.00%、23.00%及14.00%;Logistic回歸模型前3位預測變量為PI-RADS v2、fPSA/tPSA及adjusted-PSAD,所占比例分別為36.00%、27.00%及21.00%。
2.2ROC曲線分析 173例訓練集PI-RADS v2評分和SVM、DT和Logistic回歸3種機器學習模型診斷高級別前列腺癌的AUC分別為0.83、0.81、0.90及0.83(P均<0.01),其中DT模型的AUC最大(圖2),且與PI-RADS v2評分(Z=1.96,P=0.049)、SVM(Z=2.87,P=0.004)和Logistic回歸(Z=2.31,P=0.021)差異均有統計學意義,其模型樹狀圖見圖3;而SVM與Logistic回歸(Z=1.25,P=0.21)及PI-RADS v2評分(Z=0.98,P=0.32)、Logistic回歸與PI-RADS v2評分(Z=0.04,P=0.96)的AUC差異均無統計學意義。

圖2 PI-RADS v2評分及3種機器學習預測高級別前列腺癌的ROC曲線
多參數MRI[8]是目前診斷前列腺癌的主要影像學檢查方法,有助于提高診斷前列腺癌的準確率,但影像學報告不規范等問題限制了其廣泛應用。與PI-RADS v1相比,PI-RADS v2評分系統主要針對臨床顯著性癌或高級別腫瘤[9],其將臨床顯著性高級別腫瘤前列腺癌定義為符合以下條件之一者:①前列腺穿刺活檢任何一針Gleason評分>6分;②前列腺穿刺活檢任何一針癌組織長度大于5 mm。Albertsen等[10]回顧性分析發現高級別前列腺癌患者10年死亡率高于非高級別前列腺癌,并提出應著重診斷高級別前列腺癌,以便臨床減少不必要的前列腺穿刺活檢及降低對非高級別前列腺癌的過度治療。De Visschere等[11]研究報道,應用單一評分系統對前列腺癌進行預測具有一定風險。本研究聯合應用3種機器學習模型對前列腺癌影像學表現和臨床指標進行分析。

圖3 DT模型樹狀圖
機器學習模型能根據疾病與相關危險因素的內在規律近似地以數學方式表達,已成為預測疾病的主流方法。本研究采用SVM、DT和Logistic回歸建立對高級別前列癌的預測模型。SVM的優點為解決小樣本、非線性及高維模式識別問題,追求現有信息情況下的最優解,可提高學習方法的推廣能力;DT具備對未來新數據的分類預測能力,可將大量數據有目的地分類,從中找到潛在的、有價值的信息,且準確性良好,同時還可揭示重要預測因子之間的復雜關系;Logistic回歸的優點是能較好地表現評價因素與因變量之間的依存關系。
本研究中,DT模型診斷高級別前列腺癌的AUC最大,且與PI-RADS v2評分、SVM和Logistic回歸的AUC差異均有統計學意義,而SVM與Logistic回歸及PI-RADS v2評分、Logistic回歸與PI-RADS v2評分的AUC差異均無統計學意義。DT模型預測高級別前列腺癌診斷準確率、敏感度及特異度均較高,但與其他模型相比差異無統計學意義,可能與陽性樣本量較少有關。IBM SPSS Modeler軟件建立的3種預測高級別前列腺癌模型前3位變量中均有PI-RADS v2評分,且單純采用PI-RADS v2評分的診斷價值也較高,與模型預測變量重要性基本相符。van Leeuwen等[12]發現運用前列腺癌相關臨床指標聯合PI-RADS v1評分建立Logistic模型預測前列腺高級別癌的AUC為0.88。Bermejo等[13]認為基于前列腺特異性抗原等單獨生物指標不能很好地診斷前列腺癌,故聯合年齡、PSA、直腸指檢、多參數MR等指標建立DT和Logistic回歸模型,發現2種模型診斷前列腺癌的準確率均較好(AUC=0.72,0.80)。Nhung等[14]采用SVM模型預測前列腺癌的敏感度為95.1%、特異度為84.6%。上述研究[12-14]的目的均在于鑒別診斷前列腺癌與良性前列腺病變,而對高級別與非高級別前列腺癌的分類研究較為缺乏,且上述研究均未對各模型進行對比分析。Lee等[15]基于經直腸超聲,聯合臨床相關指標,建立了診斷前列腺癌的Logistic回歸、人工神經網絡和SVM模型,發現SVM模型的AUC最大(AUC=0.847),且與其他2種模型比較差異有統計學意義。本研究結果與其不符,分析原因:①研究納入的決策因素不同;②Lee等[15]的研究基于超聲,而本研究是基于多參數MR分析建立的模型;③本研究樣本量較小,SVM比人工神經網絡更為適用。
本研究的不足:①為回顧性研究,前列腺大切片病理標本及穿刺點不能完全與影像學直接對照,結果可能存在偏倚;②樣本量小,對于樣本選擇有一定局限性;③僅為3種機器學習模型的訓練集和較少測試集分析,有待樣本量擴大后進一步驗證。
綜上所述,基于PI-RADS v2評分的3種算法模型預測高級別前列腺癌的價值均較好,DT模型可作為預測前列腺高級別癌的較優模型。