張文娟,張利文,鄧娟,任鐵柱,徐敏,周俊林
胃癌是全球最常見的消化道惡性腫瘤,在我國發現的胃癌病例中,大部分為進展期胃癌(advanced gastric cancer,AGC),早期胃癌僅占約11.5%[1]。盡管近年來早期診斷和多學科治療策略均有所改進,但由于復發率高,接受了根治性手術的AGC患者的生存率仍然很低,5年生存率低于20%[2]。準確地預后評估對個體化治療方案的選擇和療效評價至關重要,但由于腫瘤異質性,部分相同TNM分期的AGC患者存在明顯的療效差異,預后結果不一[3-4]。因此,如果能提出比現有的TNM分期更加準確的預后評估方法,將患者進行風險分層,提供更個性化的概率預測,將更有助于臨床決策。增強CT是臨床上最常用的胃癌診斷及術前分期方法,隨著大數據及人工智能技術的發展,基于增強CT的影像組學模型在多種腫瘤中均有較好的預后預測價值,為腫瘤的預后預測提供了強有力的依據[5-8]。但影像組學分析中需要精準分割病灶來保證提取特征的穩定性,而深度學習(deep lear-ning,DL)技術的最顯著的特點就是可以通過多隱層神經網絡進行自主學習,通過深層非線性網絡結構無限逼近復雜函數,直接獲得與數據相關聯的特征,實現讓機器自主學習并提取數據特征[9]。因此,相比人工方法,基于DL技術提取的影像組學特征(例如形狀、大小和紋理)與臨床結果的相關性更大[10]?;谝陨涎芯勘尘?本研究中采用一種已經被廣泛認可的殘差卷積神經網絡(residual convolutional neural network,RCNN)算法并基于術前三期增強CT圖像來構建并驗證AGC生存風險預測DL模型,旨在進一步提高對AGC患者的術前影像診斷水平,改善患者的預后。
回顧性搜集2013年1月-2015年12月在本院經病理證實且進行了術后隨訪的AGC患者的臨床和影像學資料。納入標準:①經病理證實為胃腺癌;②經國際抗癌聯盟(Union for International Cancer Control,UICC)及美國腫瘤聯合會(American Joint Committee on Cancer,AJCC)第8版TNM分期中臨床TNM分期 (clinical TNM,cTNM)明確診斷為為進展期胃癌且無遠處轉移(≥T2+M0);③行根治性切除術及D2淋巴結(第一站及第二站區域淋巴結)清掃術,且為R0切除(切緣無腫瘤殘余);④送檢淋巴結數≥15;⑤手術前2周內行腹部CT平掃和三期增強掃描;⑥有完整的基線臨床資料和隨訪資料;⑦術前行胃鏡活檢。排除標準:①術前接受放、化療;②CT圖像有偽影;③胃充盈不良。
患者的基線臨床資料及隨訪信息應包括以下內容。①一般資料:年齡、性別;②胃鏡檢查結果,包括腫瘤部位、Borrmann分型、WHO組織學病理分級;③血清學腫瘤標記物:癌胚抗原、CA125;④病理結果:pTNM分期、WHO組織學病理分類;⑤影像評估:影像醫師分析腫瘤的CT征象并進行TNM分期(cTNM)。⑥隨訪信息:記錄每例患者自接受手術至死亡或最后隨訪日期的時間間隔。所有患者在胃癌根治術后至少隨訪1年。患者在術后的前2年內每3~6個月復查一次,在隨后的3~5年中每6~12個月復查一次,隨訪內容包括臨床病史、體格檢查、血液學檢查、功能狀態評分(performance status,PS)、體重監測、胃鏡、腹部彩超和CT等。本研究中患者的隨訪時間為3~74個月,中位隨訪時間為32個月。
最終共納入符合研究要求的連續337例AGC患者,將患者按照7:3的比例隨機分為訓練集(training set)和驗證集(external validation set),訓練集有237例,驗證集有100例。
患者檢查前禁食6~12 h,檢查前20 min飲用溫開水1000~2000 mL使胃腔充盈,并肌肉注射20 mg山莨菪堿,以抑制胃腸道蠕動。
使用Discovery CT750 HD寶石能譜CT機,掃描參數:120 kVp,160 mA,0.4~0.6 s/r,探測器準直寬度64×0.625 mm,矩陣512×512,視野350 mm×350 mm,掃描層厚5 mm,螺距0.992,重建層厚1.25 mm。經肘靜脈團注等滲對比劑碘佛醇(320 mg I/mL),注射流率3.0 mL/s,行動脈期、靜脈期和延遲期三期增強掃描,延遲時間分別為30~40、60~80和120 s。
在注射對比劑后30~35 s(動脈期)在CT圖像上即可見累及黏膜層的腫瘤(T1,早癌)出現強化,而侵犯肌層的腫瘤(≥T2,進展期胃癌)的強化高峰時間一般在60~70 s之后(靜脈期)出現,強化時間明顯晚于黏膜層且持續時間較長,因此本研究中選擇靜脈期圖像進行腫瘤ROI的勾畫和分割。由2位經驗豐富的放射科醫師在每例患者的增強CT靜脈期圖像中選擇腫瘤最大層面及相鄰的2個層面,分別獨立勾畫矩形框將腫瘤區域(包括腫瘤病灶及其鄰近的組織結構)包含進去。使用ITK-SNAP 3.6.1軟件(www.itk-snap.org)進行圖像分割。
殘差網絡(residual network,RN)可以增加深度學習網絡的深度,同時不會引起訓練集中誤差的增多[11],殘差學習結構可以通過前向神經網絡結合捷徑連接實現,整個網絡仍然可以通過端到端的反向傳播進行訓練。本研究中基于殘差網絡的原理,構建了一個18層的端到端的RCNN(圖1),大小為224×224。模型由8個殘差塊組成,這些殘差塊可以通過捷徑連接高效傳輸梯度,并加速網絡收斂,輸入端為原始CT圖像。我們還定義了專門的損失函數(loss)來訓練模型進行風險預測,其計算公式:
(1)

圖1 基于RCNN的深度學習模型及其諾莫圖構建的主要步驟和方法。
CS=1為觀察狀態的患者人數,C是事件總數,指患者的終點事件被觀測到。在本研究中,終點事件指在隨訪時間終點患者的生存結局;i表示患者集合序號,j是在隨訪時間大于第i個患者患者集合中的患者序號。Si=1表示這個集合里面的患者隨訪終點事件是被觀測到的。A(Tj)是一個患者集合,在該集合中,要求所包含的患者隨訪時間都比第i個患者隨訪時間長。Tj 是隨訪期間的生存時間,β:表示深度學習模型的參數,Dβ(χi)是DL模型的輸出,代表患者的生存風險概率。
同時采用數據增強、dropout和微調等技術對模型進行訓練以避免數據過擬合。本研究中使用Imgaug庫來擴大數據集。數據增強技術包括翻轉、轉換、旋轉、縮放、加性高斯白噪聲和剪切等步驟。此技術僅適用于訓練集,在將增強數據輸入DL模型之前,將所有CT圖像的大小調整為224×224,并將每個被調整大小的切片堆疊為三通道圖像。利用數據增強技術,可將包含237例患者的711幀CT的訓練集數據放大8倍,最終共有5688幀圖像輸入DL模型進行生存風險預測模型的訓練。然后,使用驗證集中100例患者的300幀圖像(未應用數據增強技術)來驗證模型。本研究中構建的RCNN的輸入端為患者的CT圖像,輸出端為每個患者的1、2、3年生存概率,與Cox模型中log-risk函數的估計相同。以每例患者所有層面CT圖像輸入DL模型獲得的預測概率的平均值作為此例患者的生存風險概率。通過定義flatten層之后的dropout層來細化ResNet18,將全連接層(fully-connected layer)定義為sigmoid激活函數的輸出。
本研究中采用隨機初始化的方法加載圖像并構建模型。所有實驗均在一個計算集群中進行:4個服務器NVIDIA TiTAN Xp(12TB幀緩存),基于深度學習的框架軟件Tensorflow 1.10.0(www.tensorflow.org)和程序包Keras 2.2.4(www.tensorflow.org/guide/keras)。使用公式(1)作為損失函數來訓練模型。Batch_size設置為24,學習率設置為0.001,迭代的epoch設置為1000,并在Keras庫中使用Adam優化器進行默認設置,使用earlystup和reducelronpla-tea的回調和一些默認設置來有效地訓練模型。
DL模型的驗證:本研究中采用Kaplan-Meier(KM)曲線研究DL模型與生存期之間的潛在聯系。以訓練集中得到的中位風險評分作為截斷值,得分低于截斷值的患者被歸為低風險組,其它患者被歸為高風險組。采用校準曲線(calibration curve)評價基于DL預測模型獲得的預測風險結果與實際結果的一致性。計算Harre一致性指數(Harrell’s concordance index, C-index)和風險比(hazard ratio,HR)比較不同模型的預后價值。通過決策曲線分析(decision curve analysis,DCA)觀察在一定的閾值概率下不同模型的凈收益。
使用R3.6.1軟件(http://www.R-project.org)進行統計分析。組學特征和臨床變量的比較采用Mann-WhitneyU檢驗和χ2檢驗;采用單因素及多因素Cox回歸分析篩選與預后高度相關的特征;對模型KM曲線的比較采用Log-Rank檢驗;采用G-rho Rank檢驗計算HR。以P<0.05為差異有統計學意義。
訓練集和驗證集中臨床特征的比較結果詳見表1。2個數據集之間臨床特征的差異均無統計學意義(P>0.05)。

表1 訓練集及驗證集中患者臨床特征的比較
單因素和多因素Cox回歸分析結果見表2。結果顯示,cT分期、cN分期及CA125是患者生存期的獨立臨床風險預測因子。

表2 AGC患者生存期的獨立危險因素
我們在研究過程中發現,模型中的殘差塊和恒等映射不僅可以提高學習能力,而且可以解決退化問題,尤其是在數據集有限的情況下。因此,我們構建了基于RCNN的端到端DL模型,以顯示風險預測模型的學習能力。通過數據增強技術重新生成5688幀圖像輸入到DL模型中,最后輸出每個患者的風險預測概率。
經Cox單因素及多因素分析,cT分期、cN分期及CA125是預后預測的獨立影響因子,構建包含這3個預后因子的臨床模型。同時,基于DL模型獲得的風險預測概率和臨床模型中的變量,采用風險比例線性回歸方法建立臨床-DL綜合模型并繪制其諾莫圖(圖2)。諾莫圖可實現個體化預測胃癌患者1、2、3年生存期的生存概率。

圖2 基于綜合模型的諾莫圖。 圖3 DL模型的KM曲線,縱坐標為生存概率,橫坐標為時間。可見隨著時間的增加,低風險組和高風險組患者的生存概率存在差異,說明DL模型可將患者分為不同的風險亞組。a)訓練集;b)驗證集。 圖4 臨床模型的KM曲線,縱坐標為生存概率,橫坐標為時間。可見隨著時間的增加,低風險組和高風險組患者的生存概率存在差異,說明臨床模型可將患者分為不同的風險亞組。a)訓練集;b)驗證集。
基于DL模型的輸出結果,可以將訓練集和驗證集中的患者分別分為兩個不同的風險亞組:低風險組和高風險組。在訓練集中,高風險組和低風險組中患者的中位生存時間分別為21和57個月;在驗證集中,則分別為14和28個月。
為了評價和比較DL模型和綜合模型的預測效能,采用KM曲線分析基于模型的輸出結果對患者進行危險度分層的效能,結果見圖3~4。在訓練集和驗證集中,DL模型和臨床模型都可以成功地將患者分為高風險組和低風險組,說明兩個模型均可將患者進行危險度分層,具有較好的預后預測能力。此外,綜合模型在訓練集和驗證集中均顯示出最佳的預測效能,其C-index值最高,DL模型在訓練集和內部驗證集中的HR最高,表明DL模型預測的高危人群較其它模型預測的高危人群有更高的死亡危險(表3)。

表3 三種預測模型的C-index和HR值
綜合模型的校準曲線顯示其具有良好的風險預測效能(圖5)。校準曲線顯示綜合模型的諾莫圖與完美擬合曲線(Perfect-fit)之間的對比,顯示出不論是在訓練集還是驗證集中,綜合模型預測的生存風險概率和實際隨訪觀察到的1、2、3年生存概率之間具有很好的一致性。DCA結果表明綜合模型較DL模型和臨床模型為患者提供了更大的臨床凈收益(圖6)。

圖5 綜合模型諾莫圖在訓練集中的校準曲線,綜合模型的預測結果和完美曲線之間擬合良好,表明其預測效能較高。 圖6 DL模型、臨床模型及綜合模型的臨床決策曲線,顯示綜合模型的凈收益優于其它兩個模型。
胃癌組織的高度異質性以及復雜的病因使得預測患者的預后具有很大的挑戰性。隨著胃癌綜合治療方法的發展及多學科診療模式(multiple disciplinary team,MDT)的推廣,我們旨在尋求通過更加多元化的生存預測工具來滿足胃癌個體化診療的需求和期望。DL模型具有以下優點:①通過層次神經網絡結構提取與臨床問題直接相關的多層次抽象特征;②不需要對腫瘤邊界進行耗時的勾勒標注,并考慮到了腫瘤周邊微環境以及腫瘤與附著組織的關系;③相應的軟件等工具快速且使用方便,其端對端的設計,只需操作者將原始CT圖像進行輸入,無需進一步的人工干預即可直接獲得臨床問題的預測結果。
本研究中開發并驗證了一個基于殘差網絡的端到端的DL生存預測模型,旨在通過輸入術前CT圖像即可獲得胃癌患者在接受根治性切除術后的生存期預測結果。DL模型在訓練集和驗證集中將預后有差異的胃癌患者分為高、低危不同分組的能力顯示出良好的結果;而且,將DL模型與臨床模型融合構建的綜合模型較DL模型具有更好的預測性能。同時,針對DL模型常見的過擬合問題及為了更好的提高模型的預測性能,本研究中采用損失函數、Dropout和微調技術等一系列方法來訓練模型。He等[11]的研究結果表明殘差塊和恒等映射可以提高模型的學習能力,解決退化問題。我們的研究結果亦顯示,在某些情況下殘差網絡也可以解決CT圖像分析的退化問題。
迄今為止,大多數的DL應用聚焦于疾病診斷過程中的檢測和分類[12-13]。在預后研究方面,Cox比例風險(cox proportional hazard,CPH)模型是目前最常用的癌癥患者生存分析方法,但由于該方法的假設結果是協變量的線性組合,其預測結果可能過于簡單[14-16]。研究者們最近轉向利用AI算法從醫學圖像中提取信息建立模型來進行腫瘤患者生存期的預測,這些方法目前在提高腫瘤復發和生存預測的準確性方面發揮著重要作用。如Chi等[17]將人工神經網絡(artificial neural networks,ANN)應用于生存分析,因為ANN可以很容易地考慮變量間的相互作用,建立非線性預測模型,從而提供比傳統方法更靈活的生存時間預測。他們的研究中比較了兩個不同的乳腺癌數據集的人工神經網絡的結果,顯示神經網絡能成功預測復發概率并將預后分層。Kim等[16]采用基于DL的生存預測算法DeepSurv對口腔癌患者進行生存預測,并與隨機生存森林模型(random survival forest,RSF)和CPH模型進行比較。結果顯示3種模型中,DeepSurv的表現最好,在訓練集和驗證集中的C-index值分別達0.810和0.781,優于RSF的0.770、0.764和CPH的0.756、0.694。Matsuo等[16]比較了DL神經網絡模型和CPH模型在預測宮頸癌患者生存中的作用,與CPH模型相比,DL模型在預測無進展生存期(progression free survival,PFS)方面顯示出更好的性能;而且研究中發現當加入更多特征時,DL模型的性能進一步提高。Wang等[18]從245例高級別漿液性卵巢癌患者的8917幀CT圖像中訓練新型深度學習網絡,提取預后生物標志物,并開發了一個結合DL特征和CPH的DL-CPH模型,對患者的個體復發風險和3年復發概率顯示出良好的預測性能。本研究中提出的DL模型同樣也表現出了較高的預測預后性能,優于TNM分期以及基于傳統的臨床病理風險因素的模型。
在本研究中,Cox回歸分析結果顯示cT分期、cN分期以及CA125是生存風險預測的獨立預測因子。TNM分期是預測AGC患者預后最常用的評估系統[19-20]。既往的研究結果顯示累及漿膜的腫瘤(T3/T4)和N2/N3分期的胃癌復發率高[21],T2/T3和T4期胃癌的腹膜轉移、血行轉移和淋巴結轉移的5年累積復發率分別為8.0%和53.6%、13.0%和33.1%、7.7%和31.2%[22-23]。淋巴結是否發生轉移也是胃癌的重要預后指標,同樣是T3/T4a的患者,淋巴結轉移陰性(N0)和淋巴結轉移陽性(N+)的胃癌患者,其1、3、5年生存率分別為68.9%和66.4%、41.4%和33.1%、33.1%和25.9%。我們前期的研究也表明,cT4a/T4b和/或cN2/N3患者與cT2/T3和/或cN0/N1患者相比,具有更大的早期復發風險[24]。CA125是常見的血清學腫瘤標志物,術前血清CA125水平與胃癌的侵襲性和生存期有一定的相關性[25];而且是評估腹膜轉移的敏感標志物,如崔等[26]的分析了術前血清CA125及CEA、CA199、CA242和AFP等實驗室指標對胃癌腹膜轉移的臨床診斷價值,結果顯示CA125對胃癌腹膜轉移的診斷價值最高,AUC為0.964。在本研究中,上述提到的cT分期、cN分期以及CA125均與預后有關,被納入DL諾莫圖,根據不同指標的權重,計算出每個患者的風險預測概率,再根據截斷值進行危險度分層。
盡管本研究中基于CT增強靜脈期圖像采用RCCN方法構建的DL模型的預測性能較好,但也存在一些局限性:①本研究是單中心回顧性研究,下一步有必要搜集多中心、前瞻性的數據以獲得DL模型更泛化及穩健的預測性能;②本模型僅基于術前CT圖像構建DL模型,若能結合病理圖像及其它類型的圖像可能會有更重要的發現。
綜上所述,基于殘差卷積神經網絡構建的DL模型對AGC患者生存期具有良好的預測價值,相對于TNM分期,DL生存風險模型的諾莫圖可提供更具體、更個性化的預測概率。