劉想,崔應譜,韓超,孫兆男,張耀峰,王祥鵬,張曉東,王霄英
前列腺癌多見于老年男性,其發病率位于男性惡性腫瘤的第2位,約為15%[1]。骨盆和脊柱是前列腺癌最常見的遠處轉移好發部位,轉移發生率高達65%~90%[2]。對于骨轉移患者,在積極治療原發病灶的同時應預防和治療骨轉移及骨相關事件[3]。因此,在臨床實踐中及時準確地檢出骨轉移病灶是重要的診斷任務之一。
臨床上根據癥狀和前列腺特異性抗原(prostate specific antigen,PSA)水平來判斷有無轉移灶,但敏感性和特異性均欠佳[4]。研究發現,有32%的去勢抵抗性前列腺癌(castration-resistant prostate cancer,CRPC)患者在臨床上被認為無轉移癥狀而在行影像學檢查時發現有轉移灶[5]。檢測前列腺癌骨轉移的影像學方法包括CT、MRI以及核素骨掃描,這些方法具有較高的敏感度但特異度低[6]。擴散加權成像(DWI)是前列腺癌多參數(multiparametric,mp)-MRI檢查的功能成像序列之一,對前列腺癌骨轉移的檢測敏感度高于常規MRI,且較核素骨掃描的敏感性、特異性及準確性更高[7-8]。但DWI圖像上骨盆結構和信號復雜,骨轉移灶表現多樣,假陽性和假陰性病灶仍會對診斷造成困擾[9]。
影像組學是一種可對多種醫學圖像進行特征提取和建模的技術手段,目前已被廣泛用于疾病的診斷和鑒別診斷、臨床分期、治療評價和預后評估中[10-13]。但影像組學建模對圖像標注要求較高,人工標注耗時且標注區域的差異也會影響模型的效能[14]。本研究基于DWI圖像,在應用3D U-Net深度學習網絡[15]對盆腔骨結構進行自動分割的基礎上,建立影像組學模型來判斷前列腺癌患者的盆腔骨質結構有無骨轉移灶。
本回顧性研究獲得了倫理委員會的批準(2019-170),按照本單位人工智能(artificial intelligence,AI)模型訓練規范執行研究方案。
根據本單位AI項目管理方法,首先定義研發mpMRI盆腔骨質結構分割與骨轉移灶檢出的AI模型的用例(use case)。主要內容:模型的編號、臨床問題、場景描述、模型在實際工作中的調用流程及模型的輸入和輸出數據結構等。定義AI模型的返回結果為下腰椎、骶尾骨、髂骨、髖臼、股骨頭、股骨頸、坐骨和恥骨的坐標,以及上述分割區域內有無骨轉移灶等。
骨盆結構分割模型訓練:從本院PACS系統回顧性搜集2017年1月-2020年1月的747例盆腔mpMRI圖像,納入標準:①臨床懷疑為前列腺癌或前列腺癌治療后(手術、放療或內分泌治療)因復查而行盆腔mpMRI掃描的患者;②有完整的盆腔DWI圖像;③無原發性盆腔骨疾病(原發性骨肉瘤、骨囊腫、血液系統疾病及骨折等)。排除標準:①有盆腔骨質結構手術史;②同時存在其它惡性腫瘤病史;③圖像質量差(存在運動偽影和化學位移偽影等);④掃描范圍不全,未包括大部分盆腔骨質結構。排除371例不滿足要求的患者后,最終有614例患者的數據入組,用于訓練自動分割盆腔骨質結構的3D U-Net模型。
骨盆結構分割模型外部驗證和骨轉移分類模型的構建:自PACS系統中檢索到2020年2月-2020年12月在本院經病理證實為前列腺癌且此次盆腔mpMRI掃描前未進行過任何治療的275例患者(排除標準同上),其中經臨床綜合診斷(綜合PSA水平、臨床癥狀、MRI檢查和其它影像檢查)認為存在盆腔骨轉移的前列腺癌患者161例,不存在盆腔骨轉移者114例。此樣本的數據既作為骨盆結構分割模型的外部驗證集,又用于有無骨轉移灶分類評估的影像組學建模。
本研究所納入的病例均為匿名化病例,圖像來源于5臺MR掃描儀,掃描參數見表1。

表1 不同儀器的DWI成像參數
將DICOM格式的高b值DWI圖像轉換為Nifty格式。由一位低年資放射科住院醫師(閱片經驗3年)使用ITK-SNAP3.6.0軟件在DWI圖像上分別沿著盆腔各骨質結構的邊緣進行手工勾畫和標注,所標注的圖像標簽如下。1:腰椎;2:骶骨;3:左側髂骨;4:右側髂骨;5:左側髖臼;6:右側髖臼;7:左側恥骨;8:右側恥骨;9:左側坐骨;10:右側坐骨;11:左側股骨頭;12:右側股骨頭;13:左側股骨頸;14:右側股骨頸。由一位放射科專家(閱片經驗≥15年)對標注進行修改確認。以確認后的圖像標簽作為盆腔骨質結構分割模型的金標準。
對614例患者的DWI圖像進行預處理:size = 64×224×224(z,y,x),自動窗寬、窗位。按照8∶1∶1的比例將患者隨機分為訓練集(train set,n=490)、調優集(validation set,n=62)和測試集(test set,n=62),進行3D U-Net模型的訓練。模型訓練使用的硬件為GPU NVIDIA Tesla P100 16G,語言程序包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK等,Adam為訓練優化器,學習率(learning rate)設為10-4,訓練次數(Epoch)為250,每次讀取的圖像數量(batch size)為1。
對前列腺癌患者進行有、無盆腔骨轉移分類評估的影像組學模型的構建,分別在手工標注和自動分割的盆腔骨質結構基礎上進行,從標注和分割出的圖像和標簽中進行特征提取,所提取出的特征用于建立組學模型,處理步驟包括數據均衡、數據歸一化、特征降維、特征選擇和模型建立等,每個步驟的數據分析方法和相關參數見表2。

表2 建立影像組學模型的主要處理步驟和相關參數
在本研究的組學分類模型建立過程中,為了消除分類訓練集數據的不均衡(有轉移灶與無轉移灶例數比為161/114),我們通過降采樣的方式來使正/負樣本平衡;采用Min-Max對特征矩陣進行歸一化處理;由于提取特征的空間維度較高,我們采用皮爾森相關系數(Pearson correlation coefficients,PCC)對數據進行降維,變換后的特征矩陣的特征向量相互獨立;在建立模型之前,使用常用的遞歸特征消除(recursive feature elimination,RFE)算法進行特征選擇并對特征進行排序,選擇前20個特征作為最佳特征子集;最后,選用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO)分類器基于DWI圖像建立預測盆腔范圍內骨轉移的分類模型。按照7∶3的比例將此樣本集中的275例患者隨機分為訓練集(train set,n=193)和測試集(test set,n=82),進行影像組學建模和測試。為確定該模型的參數(如特征的數量),我們應用5折交叉驗證法來評估模型的分類性能,并選擇最佳的模型參數。最終根據各自系數加權的最佳特征的線性組合,建立用于前列腺癌盆腔骨轉移分類的組學模型。
分割模型評價:利用測試集和外部驗證數據對3D U-Net模型的分割性能進行評估。將模型預測的每個盆腔骨質結構標簽與相應的手工標注標簽進行比較,定量評估模型對8個標簽和整個盆腔結構的分割性能,評價指標包括Dice相似系數(Dice similarity coefficient,DSC)、Jaccard相似系數(Jaccard similarity coefficient,JSC)和Hausdorff表面距離(Hausdorff surface distance,HSD)[16-19]。DSC和JSC是衡量兩個像素集合之間相似性的度量指標,取值范圍為0~1,數值越大,代表兩個集合之間的相似度越高;HSD也可作為兩組像素點集之間相似程度的度量指標,它是兩個點集之間距離的一種定義形式,度量了兩個點集間的最大不匹配程度。
分類模型評價:計算分類模型中每個樣本的影像組學得分(rad-score)[11],應用sigmoidal函數將組學得分轉換為盆腔骨質結構存在骨轉移灶的概率P(取值范圍為0~1)。使用受試者工作特征曲線(ROC)來評估分類模型的效能,計算ROC曲線下面積(area under curve,AUC),根據最大化約登指數值的截斷值來計算模型的診斷符合率、敏感度和特異度。
使用SPSS 20.0軟件和MedCalc 14.8軟件進行統計分析。符合正態分布的計量資料以均值±標準差表示,不符合正態分布的連續變量表示為中位數(上、下四分位數)。采用克魯斯卡爾-沃利斯(H-K)檢驗用于比較盆腔骨質結構分割模型中訓練集、調優集和測試集的臨床特征[年齡、總PSA(total PSA,T-PSA)、游離PSA(free PSA,F-PSA)及F/T-PSA]。ROC曲線分析用于評估骨轉移診斷模型在訓練集和測試集中的性能,基于手工標注和自動分割的影像組學分類模型的AUC值的比較采用Z檢驗。以P<0.05為差異有統計學意義。
不同數據集中患者的臨床特征及圖像數據來源情況見表3。用于盆腔骨質結構分割模型訓練的614例患者的年齡為67(62,79)歲,其中326例為前列腺增生患者[年齡64(53,75)歲],154例為病理證實的前列腺癌患者[年齡:70 (62,78)歲];134例(134/614)前列腺癌患者在進行mpMRI掃描前進行過內分泌治療或放療[平均年齡:70(61,79)歲]。用于建立盆腔骨轉移分類組學模型建立的275例患者中,161例為有骨轉移灶患者[年齡72(63,81)歲],114例為無骨轉移灶患者[年齡71(62,80)歲]。

表3 不同數據集中患者的臨床特征及數據來源的病例分布情況
此外,在分割模型樣本組中,訓練集,調優集和測試集之間的臨床特征(年齡、F-PSA、T-PSA、F/T-PSA)的差異均無統計學意義(P>0.05)。在分類模型樣本組中,訓練集和測試集之間的年齡、T-PSA和F-PSA的差異均無統計學意義(P>0.05),而測試集中的F/T-PSA顯著低于訓練集(P<0.05)。
3D U-Net分割模型對不同盆腔骨質結構的分割性能見表4。在測試集中,對盆腔骨質結構整體分割的DSC、JSC 和HSD分別為0.87±0.03、0.77±0.04和(21.75±12.08)mm;在外部驗證數據集中,其DSC、JSC和HSD分別為0.82±0.06、0.71±0.08和(16.27±4.35)mm。在單獨的8個盆腔骨質結構中,除恥骨(測試集DSC:0.69±0.13;JSC:0.54±0.13;外部驗證集DSC:0.69±0.14;JSC:0.54±0.14)和髖臼(測試集DSC:0.79±0.08;JSC:0.66±0.09;外部驗證集DSC:0.79±0.09;JSC:0.66±0.11)外,模型對其余骨質結構在測試集和外部驗證集中的DSC均在0.80以上、JSC均在0.70以上。

表4 U-Net分割模型的性能
組學模型中特征的選擇:在提取的1070個特征中,RFE算法根據反復構建模型所返回的feature_importances屬性篩選出最好的(或最差的)骨轉移病灶分類特征,在這個過程中將不重要的特征消除,最終留下排名最靠前的最重要的20個特征(表5)。在選出的20個特征中包括2個基于形狀(shape-based)的特征、2個一階(first order)特征,4個灰度行程長度矩陣(gray level run length matrix,GLRLM)特征、5個灰度相關矩陣(gray level dependence matrix,GLDM)特征、3個灰度共生矩陣(gray level co-occurrence matrix,GLCM)特征和4個灰度區域尺度矩陣(gray level size zone matrix,GLSZM)特征。訓練集和測試集中每個樣本有、無盆腔骨轉移灶的概率分布見圖1。

表5 RFE算法篩選出的20個特征的分類和名稱

圖1 分類模型中各樣本存在骨轉移的概率分布圖。a)訓練集;b)測試集。 圖2 組學分類模型預測骨轉移的ROC曲線。a)基于自動分割圖的組學模型在訓練集中的ROC曲線,AUC= 0.945;b)基于自動分割圖的組學模型在測試集中的ROC曲線,AUC=0.965;c)基于手工標注圖的組學模型在訓練集中的ROC曲線,AUC= 0.967;d)基于手工標注圖的組學模型在測試集中的ROC曲線,AUC=0.975。
組學模型的分類性能:基于自動分割和手工標注圖像的影像組學模型對盆腔骨質結構內有、無骨轉移的分類效能見表6和圖2。在測試集中,基于自動分割和手工標注的組學模型對盆腔骨轉移分類效果均較好(圖3~6),AUC值分別為0.965(95%CI:0.899~0.993)和0.975(95%CI:0.914~0.997),差異無統計學意義(Z=-0.442,P=0.658)。

表6 基于自動分割和手工標注的影像組學模型對盆腔骨質結構內骨轉移的分類性能

圖3 測試集中前列腺癌患者,男,78歲,右側髂骨轉移。a)DWI示右側髂骨高信號轉移灶(箭);b)U-Net模型分割后骨質結構,DSC=0.88,組學模型預測存在骨轉移的概率為0.93(箭所示,真陽性結果)。圖4 測試集中前列腺癌患者,男,56歲,無盆腔骨轉移。a)DWI示盆腔骨質范圍內無高信號灶;b)U-Net模型分割后骨質結構,DSC=0.89,組學模型預測存在骨轉移的概率為0.65(假陽性結果)。 圖5 測試集中前列腺癌患者,男性,69歲,右側恥骨轉移。a)DWI示右側恥骨高信號轉移灶(箭);b)U-Net模型分割后骨質結構,DSC=0.58(恥骨結構未被正確分割),組學模型預測存在骨轉移的概率為0.40(假陰性結果)。圖6 測試集中前列腺癌患者,男,73歲,左側股骨頸轉移。a)DWI示左側股骨頸高信號轉移灶(箭);b)U-Net模型分割后骨質結構,DSC=0.84,組學模型預測存在骨轉移的概率為0.45(箭,假陰性結果)。
前列腺癌骨轉移以成骨性病灶為主,以多發性和跳躍性分布為主,且成骨性改變和溶骨性改變同時存在[3,20]。mpMRI對于前列腺癌骨轉移的診斷具有較高的敏感性和特異性,當全身骨顯像和CT均不能確定骨轉移灶的存在時,通常可行mpMRI[6]。mpMRI包括常規序列(T1WI和T2WI)與功能序列(DWI、DCE-MRI和MRS)。其中,DWI對于前列腺癌骨轉移的檢測敏感度高于常規序列,DWI是對機體內水分子微觀運動的評估,可提供定量(如ADC值)和定性(如信號強度)信息用于疾病的診斷和鑒別[21]。在本研究中,我們在對盆腔骨質結構進行分割的基礎上,基于DWI圖像建立了一個用于檢出前列腺癌患者有無盆腔骨質結構范圍內轉移灶的影像組學模型,該模型在測試集中的骨轉移患者檢出符合率為89.02%,AUC可達0.965。
影像組學是近年來出現的一種新型圖像后處理技術,通過對醫學影像圖像進行定量、高通量的分析和處理,提取出一系列肉眼無法直接觀察到的信息,揭示腫瘤生物學特征與圖像之間的關系,用于建立描述性和預測性的模型,從而幫助醫師做出診斷[22-23]。該技術目前已廣泛應用于各種臨床場景。Ma等[11]基于mp-MRI圖像(T2WI、DWI 和DCE)特征建立的術前預測前列腺癌術后包膜侵犯的組學模型,在測試集中AUC為0.833,且其預測敏感度明顯高于放射科醫師(75.00% vs. 46.88%~50.00%)。Xie等[14]應用基于紋理分析的組學模型來進行子宮肌瘤和非典型平滑肌瘤的鑒別,發現患者年齡、腫瘤邊緣及子宮內膜腔是鑒別二者的重要特征,基于該特征所建立的組學模型準確率可達73.9%,可達到放射專家的診斷水平。在本研究中,基于DWI圖像所建立的組學模型所選取的20個特征中,排在最前面的為基于形狀的兩個特征:shape_Sphericity和shape_SurfaceVolumeRatio。由于本研究中所入組的骨轉移患者存在骨盆骨質形態明顯異常,有局部或彌漫的破壞或膨大,這類影像特征與無骨轉移患者的盆腔骨質有很大差別,因此,基于shape特征能很好地預測轉移與非轉移。而在選擇的20個特征中,基于灰度分布的特征有16個,這反映了有骨轉移灶的盆腔骨質結構和無骨轉移灶的盆腔骨質結構在灰度分布方面具有較大的差異。
為排除盆腔DWI 圖像中骨質結構以外的其他高信號強度物質(如神經組織、淋巴組織及腸內容物等)對骨轉移灶檢出的干擾[9],本研究將基于深度學習的盆腔骨質結構分割模型置于前列腺癌患者盆腔骨轉移分類的組學模型之前,旨在應用連貫的人工智能技術來實現疾病的診斷。該分割模型在測試集中的DSC、JSC 和HSD可達到0.87±0.03、0.77±0.04和(21.75±12.08)mm。在用于分類模型的數據集中,其DSC、JSC和HSD也可達到0.82±0.06、0.71±0.08和(16.27±4.35)mm。良好的盆腔骨質結構分割是后續進行骨轉移灶檢出的基礎。但對單獨的8個盆腔骨質結構分割性能進行分析時,我們發現,模型對恥骨的分割效果(測試集:DSC=0.69±0.13,JSC=0.54±0.13;外部驗證集:DSC=0.69±0.14,JSC=0.54±0.14)明顯劣于其它骨質結構,這可能與恥骨體素在整個盆腔骨質結構中所占的比例少、且部分盆腔掃描范圍未掃及恥骨層面而導致恥骨結構數量偏少有關。因此,在前列腺癌患者盆腔骨轉移的分類結果中,組學模型對于僅存在恥骨轉移的患者易出現漏診(圖4e~f)。
在本研究中用于分割模型訓練和分類模型訓練的數據均為連續性的回顧性收集,數據共來源于本院的5臺儀器設備,其場強(3.0T/1.5T)及b值(b=500、800和1000 s/mm2)均有所差異。不同設備來源的數據所建立的模型可更好的體現模型的泛化性能,這是本研究的一個特色。
分割效果對分類性能的直接影響是多數序貫研究的局限性[24]。因此,對于本研究而言,增加用于分割模型訓練的數據量,尤其是增加恥骨層面的數據量,是提高整個組學分類模型的關鍵。此外,本研究還存在以下局限性:(1)本研究僅在患者水平進行了盆腔范圍內有無前列腺癌骨轉移的判斷,而沒有對單個盆腔骨質結構或從病灶水平進行探討。未來我們還應該進行骨質結構水平及病灶水平的轉移灶檢出,從而實現盆腔范圍內前列腺癌骨轉移的檢出及定位。(2)本研究未將組學模型的分類性能與放射科醫師的診斷效能進行對比。在后續的研究中,我們將對兩者效能進行對比。(3)本研究僅應用了單個的DWI序列進行有無骨轉移病灶的分類,盡管該序列在骨轉移灶檢出的過程中必不可少,但其對于成骨性改變的檢出仍存在一定的局限性,因此在之后的研究中我們考慮在模型中加入其它序列(如ADC圖、T1WI等),以此來提高模型對所有類型轉移灶的預測性能[25]。(4)本研究所有入組的數據均為前列腺癌患者,因此只能代表此一種惡性腫瘤骨盆轉移的現狀,臨床場景較為單一。對于其它來源(如直腸癌、膀胱癌等)的轉移瘤,我們未做分析,在后續的研究中我們將考慮補充同時期來源于其它惡性腫瘤的骨盆轉移瘤病例。
綜上所述,本研究基于深度學習分割DWI圖像上盆腔骨質結構的影像組學模型可以較好地鑒別盆腔范圍內的前列腺癌骨轉移灶,可承擔前列腺癌mpMRI輔助診斷的部分工作。