田占雨,李霞,李永生,陳家齊
海南醫學院生物醫學信息與工程學院,海南 海口 571199
腎透明細胞癌(clear cell renal carcinoma,CCRCC)占腎細胞癌的75%~80%,是惡性程度高,預后差,死亡率最高的亞型[1]。世界衛生組織/國際泌尿病理學會(World Health Organization/International Society of Urological Pathology,WHO/ISUP)根據核仁突出情況對CCRCC 進行了分級(I級、Ⅱ級、Ⅲ級、Ⅳ級),隨后根據預后結局進一步將患者分為低級別組(I級、Ⅱ級)和高級別組(Ⅲ級、Ⅳ級)[2-3]。現階段對腫瘤分級主要依靠經皮穿刺活檢,需要面臨出血、氣胸以及針道轉移等并發癥的風險。因此,需要一種非侵入性的方法協助判斷CCRCC的腫瘤分級。隨著醫學影像成像技術的發展以及高通量基因組學技術的進步,影像基因組學應運而生。影像基因組學是一個多學科交叉的新興領域,是影像組學和基因組學的有機結合。在之前的研究中,Celli等[4]結合了影像組學與基因組學,利用多元邏輯回歸算法構建機器學習模型,該模型在鑒別診斷低風險子宮內膜癌方面有著出色的分類能力。馬佳琪等[5]通過結合影像基因組學信息,在診斷結直腸癌肝轉移、預測患者預后和治療敏感性等方面顯示出獨特的優勢。將預測模型用于臨床實踐為個性化治療帶來顯著優勢,可以減少患者后續治療的時間成本,并為制定臨床治療方案和改善患者總體生存率提供了指導和新的見解。然而,針對惡性程度較高的CCRCC的腫瘤分級仍然具有挑戰性。
本研究以影像基因組學為切入點,通過結合醫學影像和多組學數據識別不同水平的特征,基于機器學習算法構建多種預測模型,并結合各類算法優勢,篩選最優特征組合以達到準確預測CCRCC腫瘤分級的目的。相較于之前的研究,本研究構建的復合型模型取得了更優的分類效能。此外,進一步探討了多組學水平特征基因的功能,挖掘基因在CCRCC 中的潛在臨床價值。
1.1 一般資料 CCRCC患者的醫學影像數據來源于TCIA 數據庫(The Cancer Imaging Archive,version 3:Updated 2020/05/29),按照入組標準進行篩選。入組標準:(1)經病理診斷確診為CCRCC;(2)CT 增強掃描皮質期與髓質期期相準確且完整;(3)圖像中未出現各類偽影;(4)具備合適的信噪比。符合入組標準的樣本共197 例。CCRCC 患者的多組學數據來源于TCGA數據庫(The Cancer Genome Atlas Program-NCI,2017年)。數據集包含了530例患者的基因組和轉錄組信息,基因表達水平為每千個堿基的轉錄每百萬映射讀取的片段數(fragment per kilobase method,FPKM)。通過比對注釋文件,獲得了16 769個編碼基因的表達譜數據和12 903個基因的遺傳變異數據。最后從數據集中篩選出同時具有醫學影像數據和多組學數據的樣本,包含了197例患者。隨后本研究按照2016年WHO/ISUP簡化分級將I期、II期定義為“低級別組(stage 0)”,III期、IV期定義為“高級別組(stage 1)”。
1.2 影像組學數據提取及預測模型構建 基于醫學影像數據利用ITK-SNAP軟件半自動形式確定原發灶邊界,其中窗寬窗位預設為腹部窗(level:40 HU;window:600 HU)。隨后應用Python軟件(version 3.8)中“Pyradiomics”庫提取影像組學特征[6],參數設定如下:箱寬(bin-width)為25;重采樣像素間距(Pixel Spacing)為3 mm×3 mm×3 mm;內插程序選擇最近鄰。提取出的影像特征主要包含7 個類別維度,形狀特征(shape-based)、一階特征(first-order)、灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)、灰度區域大小矩陣(Gray Level Size Zone Matrix,GLSZM)、灰度行程矩陣(Gray Level Run-Length Matrix,GLRLM)、鄰域灰度差矩陣特征(Neighbouring Gray Tone Difference Matrix,NGTDM)和灰度依賴矩陣(Gray Level Dependence Matrix,GLDM)。
1.3 識別與CCRCC 相關的轉錄組和基因組特征 在轉錄組數據集中,由于FPKM 值包含不同數量級,為避免表達值相差過大而對模型產生不良影響,本研究進行了數據的歸一化,使基因表達譜數據局限在相同數量級范圍內。由于轉錄組水平和基因組水平的數據形式不同,本研究分別進行了差異分析,以篩選在不同CCRCC腫瘤分級之間顯著差異表達或突變的特征基因。
1.4 基因功能富集分析 為發掘在CCRCC腫瘤分級中顯著差異表達的特征基因的潛在信息,探索基因的生物學功能以及腫瘤的生物學行為,本研究使用R 編程軟件中“clusterProfiler”包中的“enrichGO”功能進行功能富集分析。對于富集分析得到的生物學功能,進一步篩選出至少包含3 個重合基因的顯著富集的功能(count>3,P-value<0.05)。隨后使用R“simplify-Enrichment”包中的“GO_similarity”功能進行語義相似性計算,將相似的GO術語進行聚類。最后使用“simplifyGO”功能對功能富集聚類結果進行可視化。
1.5 構建CCRCC腫瘤分級預測模型 本研究基于單一組學特征和聯合多組學特征,并結合不同的機器學習算法構建了針對CCRCC 腫瘤分級的預測模型。主要基于支持向量機算法(Support Vector Machine,SVM)、邏輯回歸算法(Logistic Regression,LR)、隨機森林算法(Random Forest,RF)以及極端梯度提升算法(Extreme Gradient Boosting,XGB)分別構建機器學習模型,用于預測CCRCC 腫瘤分級。各個模型模型參數均采用網格搜索選取最佳輸入參數,并且超參數均位于對應值閾內。
1.6 統計學方法 本研究通過Wilcoxon 秩和檢驗篩選在CCRCC高低分級中存在顯著差異的影像組學特征和顯著差異表達基因(P<0.05)。在基因組層面,本研究應用Fisher 精確檢驗篩選存在顯著差異的突變基因(P<0.05)。最后,針對全部種類的特征應用最小絕對收縮和選擇算子(least absolute shrinkage and selection operator,LASSO),篩選出具備較高權重的關鍵特征。
2.1 CCRCC 影像組學的特征 本研究利用Python 軟件中Pyradiomics 庫,提取了197 例入組樣本的107個影像組學特征。隨后經過Wilcoxon秩和檢驗篩選[7],得到在CCRCC 不同分級之間存在顯著差異的24 個影像組學特征(圖1)。這些特征共同描述出腫瘤的形態和特點(圖2),如腫瘤表面積體積比(original shape surface volume ratio),比值越低則說明腫瘤越近似于緊湊的球狀;平均值(original first order mean)是評估ROI 內的平均灰度,集群陰影(original GLCM cluster shade)是衡量灰度共生矩陣(Gray-Level Co-occurrence Matrix,GLCM)的偏度和均勻度的指標,集群陰影的特征值越高則圖像中平均值的不對稱性就更高,這表示原發灶的內腫瘤組織可能出現出血或壞死。按照CCRCC不同的腫瘤分級繪制了各影像組學特征的表達值。網格體積(original shape mesh volume)應用三角形網格計算腫瘤原發灶體積,在高級別組中網格體積特征值較高,這表明高級別腫瘤相較于低級別腫瘤體積較大;體素體積(original shape voxel volume)是指在ROI 中通過體素數量與單個體素體積的相乘來計算ROI體積,體素體積精確性欠佳但可以用來評價ROI 大致體積,結果同樣顯示高級別腫瘤具備較大的體積;表面積(original shape surface area)直觀的評價ROI 表面積,在高級別組中特征值越大則說明腫瘤原發灶表面積越大。同樣在三維視角下,相較于低級別腫瘤,處于高級別腫瘤階段的腫瘤表面積和腫瘤體積也更大(圖3)。已有研究表明,腫瘤體積和表面積是影響CCRCC 患者預后的獨立因素,并且WHO/ISUP 分級較高的患者預后更差[8]。

圖1 與CCRCC不同風險分級顯著相關的影像組學特征Figure 1 Imaging features significantly associated with different risk grades of CCRCC

圖2 影像組學特征在不同腫瘤分級中的特征值Figure 2 Feature values of radiomics features in different tumor grades

圖3 三維視角下腫瘤表面積及腫瘤體積Figure 3 Tumor surface area and tumor volume in three-dimensional view
2.2 識別與CCRCC相關的基因組學特征 接下來通過Wilcoxon秩和檢驗,識別了在CCRCC不同腫瘤分級中表現出顯著差異表達的2 125 個基因[8](圖4)。此外,通過Fisher精確檢驗,篩選出了在腫瘤分級中其突變具有顯著差異的37個基因,其中BAP1和SETD2在高級別CCRCC 患者中具有較高的突變比例(圖5),并且已有研究證實了,BAP1和SETD2突變在CCRCC疾病具備病理意義,并可能引起較差的臨床結局[9-10]。

圖4 在CCRCC不同腫瘤分級中存在顯著差異的表達基因Figure 4 Expressed genes with significant differences in different tumor grades of renal clear cell carcinoma

圖5 BAP1和SETD2在高級別CCRCC中突變占比較高Figure 5BAP1 and SETD2 have a high mutation ratio in high-grade CCRCC
2.3 機器學習模型的建立與評價 結合先前識別的影像組學特征和多組學特征,進一步通過LASSO降維得到整合的關鍵特征。隨后基于四種機器學習算法分別構建預測模型,以評估影像基因組學聯合特征針對CCRCC分級的預測效能。所有模型訓練過程中訓練集均占比80%,測試集占比20%。為避免因數據集隨機劃分時導致的過擬合,在模型構建過程中本研究設定了五折交叉驗證。經不同機器學習算法擬合后,繪制受試者工作特征曲線(receiver operating characteristic curve,ROC),并通過曲線下面積(area under curve,AUC)評價模型的預測效能。結果表明,使用聯合特征基于SVM 算法構建的預測模型與其他模型相比具有最好的預測效能,其訓練集AUC 為0.999 (95%CI:0.994~1.004),測試集AUC為0.929(95%CI:0.841~1.018)(圖6)。其次是基于LR算法構建的預測模型,其訓練集AUC為1.0(95%CI:1.0~1.0),測試集AUC為0.894(95%CI:0.787~0.100 1)。盡管基于RF 算法和XGB 算法構建的預測模型其預測效能最差,但是仍然可以較好的區分CCRCC的腫瘤分級(AUC>0.8),見圖6。

圖6 基于四種機器學習模型ROC曲線Figure 6 ROC curve based on four machine learning models
上述結果表明基于影像基因組學聯合特征構建的SVM 模型在預測CCRCC分級中表現最佳,因此隨后使用SVM 算法,基于影像組學特征、轉錄組特征和基因組特征,分別構建機器學習模型,以評估不同組學識別的關鍵特征在CCRCC 腫瘤分級方面的預測效能(圖7)。其中影像組學預測模型其AUC 為0.715(95%CI:55.1%~87.8%),轉錄組預測模型AUC為0.856(95%CI:73.2%~98%),基因組預測模型AUC 為0.652(95%CI:47.8%~82.5%)。結果表明,與其他水平的特征相比,基于轉錄組水平關鍵特征基因構建的SVM模型在腫瘤分級方面具有更優的預測效能(AUC=0.856,95%CI:73.2%~98%)。而結合多組學特征的影像基因組學模型(AUC=0.929,95%CI:84.1%~100%)較單一組學(AUC=0.652~0.856)模型預測效能更佳。

圖7 基于支持向量機的單一組學模型評價圖Figure 7 Model evaluation diagram of support vector machine based on single omics
2.4 CCRCC相關基因組學的特征功能 為了進一步挖掘特征基因在CCRCC 腫瘤進展中發揮的作用,本研究使用LASSO算法進一步篩選在腫瘤分級中顯著差異表達的關鍵特征基因進行功能富集分析,以探究其參與調控的通路與功能。關鍵基因被富集在了多條條通路中,并按照P值排序選取了前8 條通路進行可視化展示(圖8)。本研究發現與腫瘤分級相關的特征基因主要富集在了T細胞分化(T cell differentiation)、淋巴細胞分化(Lymphocyte differentiation)、細胞基質黏附(regulation of cell-matrix adhesion)和非典型Wnt 信號通路(Non-canonical Wnt signaling pathway)等生物學過程中。隨后對生物學過程進行GO語義相似性聚類,結果表明特征基因主要富集在免疫相關細胞分化、細胞基質調節和細胞周期負調控等相關功能上(圖9)。為進一步可視化特征基因與生物學過程之間的關系,本研究繪制了基因-功能網絡圖,結果顯示WNT4 處于網絡圖的中心,相比于LBX2 和MCM9 等基因,WNT4 顯然參與了更多的生物學過程(圖10),并且在高級別腫瘤中WNT4 表達較高(圖11),WNT4 可能在CCRCC 進展中發揮更重要的作用。

圖8 基因功能富集分析Figure 8 Gene functional enrichment analysis

圖9 功能相似性聚類Figure 9 Functional similarity clustering

圖10 基因功能網絡圖Figure 10 Gene function network diagram

圖11 WNT4在不同腫瘤分級中的表達Figure 11 WNT4 expression in different tumor grades
影像基因組學將患者影像資料和基因組數據相關聯,廣泛應用在腫瘤診療過程中[11-13]。本研究應用影像基因組學聯合特征構建了預測CCRCC腫瘤分級模型,對比四種機器學習算法在預測CCRCC 腫瘤分級效能的不同。SVM在預測CCRCC腫瘤分級中表現最佳,AUC為0.929(95%CI:0.841~1.018)。RF、LR及XGB 模型同樣能較準確預測CCRCC 腫瘤的分級(AUC=0.881~0.894)。國外同樣也有研究發現SVM較K近鄰模型、RF模型更能反應肺癌患者的預后[14]。其可能原因為SVM結構簡單、適應性好及泛化能力強等優勢和二分類問題更契合有關[15]。因此本研究利用SVM 分別構建預測CCRCC 腫瘤分級的影像組學、基因組及轉錄組的單組學模型,并與聯合模型進行對比。結果顯示影像組學預測模型AUC為0.71(95%CI:0.551~0.878),轉錄組預測模型AUC為0.856(95%CI:0.732~0.98),基因組預測模型AUC 為0.65 (95%CI:0.478~0.825)。這表明轉錄組模型在單組學預測模型中表現更優,可能與差異表達的特征基因數量較多有關。同時,聯合模型中輸入特征數量及特征維度較多,本實驗研究結果指出聯合組學模型(AUC=0.929)較單一組學(AUC=0.652~0.856)模型可更準確預測腫瘤分級。之前的研究也證實了聯合模型的效能更佳[14,16]。本研究為CCRCC腫瘤分級診斷構建的影像基因組學預測模型具有臨床實用性,其中基于SVM算法的多組學預測模型表現最佳,為個體化無創性腫瘤分級提供了支持工具,輔助臨床術前決策。
本實驗應用TCGA 數據庫中多組學數據,通過Wilcoxon 秩和檢驗及Fisher 精確檢驗篩選出CCRCC腫瘤不同分級間存在顯著差異表達和差異突變的基因。通過功能富集分析發現,WNT4 表達基因在功能網絡中處在“樞紐”的位置(圖10),能夠調節非典型WNT信號通路、T細胞分化及胸腺T細胞分化[17]、雌配子傳代和細胞基質的黏附。根據大多數臨床研究發現CCRCC 男性發病率高于女性,結合本研究結果表明可能與WNT4 參與調控雌配子傳代相關[18-19]。同時,WNT4 參與調控細胞分化會引起CCRCC 的不良預后[20],與本研究結果中WNT4 在高級組中表達較高相符[21]。本研究探索了與CCRCC相關的關鍵基因,揭示了關鍵基因參與調控的通路及功能,為CCRCC 的精準治療提供了潛在生物學標志以及新的治療可能。
本研究同樣存在局限性。為了拓展特征維度采用多組學聯合數據,符合納入標準的樣本量僅為197例,在未來的研究中可擴增數據容量,避免選擇性偏差。本研究聯合影像組學數據與基因組學數據構建預測模型,增加了特征維度,并且研究結果較目前國內外大多數研究具有更優的預測效能。同時,結合機器學習算法及功能富富集分析為CCRCC患者提供了無創的分級診斷方式,并為靶向治療提供了潛在的生物學標志。