摘 要:針對生存分析中多組學數據帶來的維數災難和過擬合問題,提出了一種基于多組學數據和稀疏變分自編碼器的生存分析算法VAESCox。該算法將變分自編碼器的基本結構與稀疏編碼和生存分析相結合,在無監督階段訓練變分自編碼器學習低維表示,在監督階段將訓練的權重遷移到生存分析模型,并對傳遞權重進行微調和稀疏編碼。實驗結果表明,在八種不同癌癥類型的數據集上,VAESCox模型在消融和對比實驗中均取得了較高的C指數值。與其他四種基準生存分析方法相比,所提算法不僅緩解了多組學數據融合的過擬合問題,也顯著提高了生存預測性能,表明不同組學數據的融合有助于預后生存結果的精準預測。
關鍵詞:生存分析; 多組學數據融合; 變分自編碼器; 稀疏編碼
中圖分類號:TP391.5 文獻標志碼:A
文章編號:1001-3695(2023)03-020-0771-05
doi: 10.19734/j.issn.1001-3695.2022.07.0361
Survival analysis algorithm based on multi-omics data andvariational sparse autoencoder
Yin Qingyana, Wu Ruipinga, Chen Wangwanga, Bian Genqingb
(a.School of Science, b.School of Information amp; Control Engineering, Xi’an University of Architecture amp; Technology, Xi’an 710055, China)
Abstract:Aiming at the curse of dimensionality and overfitting issues caused by multi-omics data for survival analysis, this paper proposed a survival analysis model based on multi-omics data and sparse variational autoencoder, called VAESCox. The algorithm combined the basic structure of variational autoencoder with sparse coding and survival analysis, trained the variational autoencoder to learn low-dimensional representations in the unsupervised stage, transfered the trained weights to the survival analysis model, fine-tunes and sparse encodes the passed weights in the supervised stage. Experimental results show that VAESCox model achieved higher C-index values in the ablation and comparison experiments on 8 different cancer types datasets. Compared with other four baseline survival analysis methods, the proposed algorithm not only mitigates the overfitting issue of multi-omics data integration, but also significantly improves survival prediction performance, indicating that the integration of different omics data is beneficial for accurate prediction of prognostic survival outcome.
Key words:survival analysis; multi-omics data integration; variational autoencoders; sparse coding
0 引言
基于基因表達數據的生存分析已被廣泛應用于癌癥研究[1~3]。癌癥患者的準確預后對患者的風險分層、亞型分類和臨床治療有著重要作用。各種分子特征相互協調地促進疾病發病、進展和預后。識別與患者生存相關的細胞過程,而不是單一的預后基因,能提供更豐富的信息。因此,將多種分子特征結合起來,可以擴大靶向治療的有效性,提高生存預后預測的效果。
隨著高通量測序技術的進步,多組學數據的融合已被越來越多地應用于生存分析的研究中。生存分析的重要特征是部分患者觀測數據出現刪失,即在研究結束時預期事件沒有發生,或患者沒有進行隨訪。為了研究不同特征對生存時間的影響,Cox [4]提出了Cox比例風險模型,并被廣泛應用于臨床研究。然而,當患者的特征數量遠遠大于樣本容量時,傳統的Cox比例風險模型無法直接應用。為了解決這種高維小樣本問題,基于正則化方法的Cox比例風險模型陸續被提出[5]。近年來,深度學習已被證明是一種有效的高維特征學習方法,為許多生物醫學任務提供了有效的解決方案[6]。Katzman等人[7]提出了結合Cox模型的DeepSurv深度學習算法,但只考慮了低維臨床特征。結合貝葉斯優化方法,Yousefi等人[8]提出將DNA突變、拷貝數變異(copy number variation,CNA)、mRNA等不同組學數據和臨床特征,集成到深度神經網絡中,設計了基于多組學數據的癌癥生存分析SurvivalNet算法。Xie等人[9]提出了基于group lasso正則化和深度學習的生存分析模型,將多組學數據的group先驗知識納入模型的訓練過程中。相比標準的lasso正則化方法,基于group正則化的深度學習方法具有更好的生存預測性能。Poirion等人[10]提出了結合深度網絡和集成學習的半監督DeepProg模型。Chaudhary等人[11]提出了基于自編碼器的多組學數據特征提取,進行肝細胞癌的生存亞群聚類。Wang等人[12]提出了基于圖卷積網絡和組學間相關性的MOGONET融合方法。Hao等人[13]提出了基于基因通路的稀疏深度網絡模型Cox-PASNet。Kim等人[14]提出了基于變分自編碼器的VAECox模型,將Cox比例風險回歸嵌入到深度學習架構中,并利用遷移學習和微調技術進行網絡的訓練。Zhang等人[15]提出一種端到端的深度網絡分類模型OmiVAE,使用變分自編碼器進行特征提取,實現基于多組學數據融合的癌癥分類。
基于多組學數據融合的生存分析模型,可以充分利用不同組學數據的互補信息,但同時加劇了高維小樣本特性帶來的過擬合問題。在Zhang等人[15]提出的OmiVAE癌癥分類模型和Hao等人[13]提出的稀疏編碼思想的啟發下,本文結合變分自編碼器和稀疏編碼,提出一種新的生存分析模型——VAESCox模型。VAESCox對生存分析的主要貢獻是:a)模型將無監督和有監督訓練進行結合,將預訓練后的權重轉移到生存預測模型中,提升了模型的泛化能力;b)在監督階段,運用微調技巧和稀疏編碼,即固定組學層之間的預訓練權重限制搜索空間,修剪子網絡中沒有貢獻的連接,對編碼器進行稀疏化,從而使得生存分析的損失函數降到最低;c)將多組學數據集成到深度學習模型中,通過多視角信息的融合提升生存預測的準確性。
1 相關工作
1.1 變分自編碼器
其中:θ={β,W},β是Cox比例風險系數,W是編碼器的權重;μ是編碼器的輸出;λ是正則化參數。
在生存模型的訓練過程中,對傳遞的權重進行了微調,將組學層和第一隱藏層之間的權重固定,第一隱藏層和第二隱藏層以及第二隱藏層和潛在層之間進行稀疏編碼。具體地,隱藏層最初設置為全連接,使用無監督階段傳遞的權重,首先通過dropout技術隨機選擇一個子網絡,丟棄的連接和節點用虛線標記(如圖1D所示);然后通過反向傳播優化子網絡的權重,利用稀疏編碼修剪子網絡中沒有貢獻的連接來最小化損失。
3 實驗結果分析
3.1 數據集和預處理
在本研究中,從癌癥基因組圖譜(TCGA)數據庫中選取八種癌癥類型:BRCA (乳腺浸潤癌),COAD (結腸癌),KIRC (腎透明細胞癌),LUAD (肺腺癌),LUSC (肺鱗狀細胞癌),PRAD (前列腺癌),STAD (胃癌)和UCEC (子宮內膜樣癌)。利用UCSC Xena數據庫下載數據集(https://xenabrowser.net/datapages/)。對于RNA-seq和miRNA數據,先進行對數轉換log2(x+1),再進行標準化,最后采用DEseq2進行差異表達分析[20]。預處理后各個數據集上的差異基因個數參見表1(閾值:FDR≤0.05)。基于多組學數據的生存分析工作流程如圖2所示。
3.2 模型參數的設置
在無監督階段中,根據VAE損失函數的變化情況,設置其訓練輪次為2 000輪。在監督階段中使用編碼器預訓練好的權重,根據微調經驗設置一個較小的訓練輪次100輪。優化器使用自適應矩估計(Adam)優化算法[21]。為了縮小搜索空間避免過擬合,對其設置了較小的學習率0.001,權重衰減設置為0.01。最后,模型在不同數據集上的性能受隱層節點數、學習率等參數的影響而不同。為了保證對比實驗的公平性,在每種癌癥數據集上進行網格搜索,得到各個模型的最優超參數。
C指數即一致性指數(concordance index,C-index),用于度量生存分析中預測值與真實值之間的區分度,常被用做生存分析預測性能的評估指標。具有較長生存時間和較低對數風險比,較短生存時間和較高對數風險比的患者被認為是一致的,C-index的計算公式如下:
通常C-index在0.5~1取值,C-index為0.5表示生存預測與隨機猜測效果相當,C-index為1表示生存預測結果與實際完全一致。
3.3 模型的性能比較
生存分析性能比較的實驗包括兩部分:第一部分驗證VAESCox模型架構中的無監督、監督學習和稀疏編碼相結合的有效性;第二部分將VAESCox與RSF、SSVM、GBM和Cox-EN等流行的生存分析模型進行性能比較。這些模型的對比實驗均在Python軟件平臺進行編程實現,四種基準模型是通過調用scikit-survival庫的相應函數來實現。
首先,針對八種癌癥類型的RNA-seq和miRNA兩種組學數據集,進行四種模型架構的對比實驗。模型架構1,無監督、監督和稀疏編碼的結合(記做UN+N+SP, 即VAESCox模型);模型架構2,無監督和監督學習的結合(記做UN+N);模型架構3,監督學習和稀疏編碼的結合(記做N+SP);模型架構4,僅監督學習(記做N)。四種模型架構取得的C-index值如表2所示。表2中的C-index結果顯示,在八種癌癥類型中的七種類型(除了KIRC),無監督、監督學習和稀疏編碼相結合的VAESCox模型總是獲得最高的C-index值。
其次,為了進一步驗證預訓練和稀疏編碼在提高模型泛化能力的優勢,考察了四種模型架構在LUAD訓練集和驗證集上的C-index變化曲線(圖3)。模型架構3和4沒有經過無監督階段的預訓練,導致訓練集上的性能表現佳而驗證集上的性能表現較差,產生了明顯的過擬合(圖3(c)和(d))。由于模型架構1引入了稀疏編碼,其在驗證集上的性能表現優于模型架構2(圖3(a)和(b))。此外,由于有監督微調過程中稀疏編碼插值的不穩定,導致訓練集上C-index曲線的波動,這也是未來需要進一步改進的方向。四個模型架構均采用了提前終止的優化策略,減輕過擬合的影響。因此,VAESCox模型中的無監督預訓練和稀疏編碼可以有效地提高模型的泛化能力。
最后,將本文提出的VAESCox與RSF、SSVM、GBM、Cox-EN四種基準模型進行性能的比較。表3列出了各個模型在八種癌癥數據集上的平均C-index值。VAESCox在所有數據集上均取得了最高的C-index值:0.679(BRCA)、0.638(COAD)、0.706(KIRC)、0.672(LUAD)、0.631(LUSC)、0.740(PRAD)、0.601(STAD)和0.728(UCEC)。GBM模型在六種癌癥類型上取得次優的性能,RSF模型次之,排名最后的是性能相差不大的SSVM和Cox-EN。因此,在多組學數據上的生存預測性能,VAESCox明顯優于其他四個基準模型。
圖4(a)展示了不同模型在多組學數據上的C-index箱線圖;圖4(b)展示了VAESCox模型在單組學和多組學數據的C-index柱狀圖。由此可見,相比基準模型,VAESCox模型不僅八種癌癥數據集上均取得了較優的預測性能,而且有效地挖掘了多組學數據的互補信息,進一步提高了生存模型的預測效果。
3.4 模型解釋
對于VAESCox模型的生物學解釋,以結腸癌COAD數據集為例展開說明。首先,根據所有樣本的預后指數(prognostic index,PI)的中位數,將樣本進行分組:高風險組和低風險組。圖5展示了各組樣本的預后指數PI值,水平虛線表示PI中位數,左邊展示了潛在層30個節點值的熱圖,并進行對數秩檢驗,紅色三角形標記統計顯著的節點(P<0.05)。
從潛在層節點中選取了絕對權重較高的六個節點,并繪制了Kaplan-Meier曲線(圖6)。根據潛在層節點的預后指數中位數,將樣本分成兩組,兩組之間的生存概率顯著不同。這表明選取的排名靠前的這六個基因可以作為COAD患者風險分層的判別因素。因此,這六個基因可以被視為COAD患者的潛在生存預后基因。
假設具有高方差的Cox層隱節點在患者風險分層方面起著重要的作用。首先,提取Cox層方差最高的隱節點,再計算每個節點值與所有樣本的基因表達值之間的Pearson相關性。圖7展示了Cox層隱節點相關性最高的前兩個基因。為了研究Cox層隱節點高度相關的基因與結腸癌的關系,本文對這些基因進行了文獻調查。這些基因中大部分是癌癥相關基因,部分基因與結腸癌患者的生存預后有明確的關聯。
TCN1(Transcobalamin 1)是一種維生素B12(鈷胺素)結合蛋白,調節鈷胺素穩態,維持細胞增殖和代謝的基本功能,尤其是在造血和神經系統中發揮各種作用[22]。最新的研究發現,TCN1在結腸癌組織中過表達,與腫瘤侵襲性和不良預后相關,TCN1可作為結腸癌預后和化療敏感性的生物標志物[23,24]。PLD5(phospholipase D family member 5)是一種蛋白質編碼基因。研究發現,在結腸癌中的體細胞突變中,基因PLD5位于SPP1過表達組,對結腸癌的腫瘤進展和預后有顯著影響[25]。KRT16(Keratin 16): 與KRT16相關的基因本體有結構分子活性和細胞骨架的結構成分。研究發現,KRT16是COAD患者分期相關的生物標志物[26]。COMP(cartilage oligomeric matrix protein):與COMP相關的疾病有假性軟骨發育不全和骨骺發育不良。研究發現,COMP在結腸癌腫瘤I期和IV期樣本中過表達。COMP是跨分期和亞型的更強的分子標記物,COMP的高表達與患者較差的生存預后相關[27]。COL11A1(collagen type X alpha 1 chain)在調節腸和結腸細胞的分裂、增殖、遷移、生長和凋亡中起著重要的作用。研究發現,COL11A1與THBS2, COL10A1, COL5A2和COL1A2基因表達呈正相關,COL11A1在COAD腫瘤組織的過表達,降低了患者的生存概率[28]。
4 結束語
本文提出了一種基于多組學數據和稀疏變分自編碼器的生存分析算法。該算法通過多個并行的變分自編碼網絡結構,從多種組學數據源中學習基因的低維表示,將訓練的權重遷移到生存分析模型,并對傳遞權重進行微調和稀疏編碼,減緩過擬合問題造成的影響。實驗結果表明,相比流行的生存分析方法,本文提出的VAESCox模型能夠利用多組學數據的互補性,同時有效緩解多組學數據融合產生的過擬合問題,進而提高了模型的生存預測性能。未來的工作將研究模型在代謝組學數據上的可行性,通過融合更豐富的多組學數據,進一步改善算法的性能。
參考文獻:
[1]Tibshirani R, Witten D M. Survival analysis with high-dimensional covariates[J]. Statistical Methods in Medical Research, 2010,19(1):29-51.
[2]何宗真. 基于多組學數據整合的癌癥分型及預后方法研究[D]. 西安:西安電子科技大學,2021. (He Zongzhen. Research on can-cer typing and prognostic methods based on multi-omics data integration[D]. Xi’an:Xidian University,2021.)
[3]桑浩凱,郭樹理,曲紅,等. 利用組學數據建立針對四種女性癌癥的基于機器學習方法的生存預測模型[J]. 中國科學:生命科學,2019,49(6):738-748. (Sang Haokai,Guo Shuli,Qu Hong,et al.Using omics data to build a machine learning-based survival prediction model for four female cancers[J]. Chinese Science:Life Sciences,2019,49(6):738-748.)
[4]Cox D R. Regression models and life-tables[J]. Journal of the Royal Statistical Society:Series B(Methodological),1972,34(2):187-202.
[5]Zou Hui,Hastie T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society,2005,67(5):768-768.
[6]Olivier B P,Zheng Jing,Kumardeep C,et al. DeepProg:an ensemble of deep-learning and machine-learning models for prognosis prediction using multi-omics data[J]. Genome Medicine,2021,13(1):1-12.
[7]Katzman J L,Shaham U,Cloninger A,et al. DeepSurv:personalized treatment recommender system using a Cox proportional hazards deep neural network[J]. BMC Medical Research Methodology, 2018,18(1):1-12.
[8]Yousefi S,Amrollahi F,Amgad M,et al. Predicting clinical outcomes from large scale cancer genomic profiles with deep survival models[J]. Scientific Reports,2017,7(1):1-11.
[9]Xie Gangcai,Dong Chengliang,Kong Yinfei,et al. Group lasso regularized deep learning for cancer prognosis from multi-omics and clinical features[J]. Genes,2019,10(3):240.
[10]Poirion O B,Chaudhary K,Garmire L X. Deep learning data integration for better risk stratification models of bladder cancer[J]. AMIA Summits on Translational Science Proceedings,2018,2018:197-206.
[11]Chaudhary K,Poirion O B,Lu Liangqun,et al. Deep learning based multi-omics integration robustly predicts survival in liver cancer[J]. Clinical Cancer Research,2018,24(6):1248-1259.
[12]Wang Tongxin,Shao Wei,Huang Zhi,et al. MOGONET integrates multi-omics data using graph convolutional networks allowing patient classification and biomarker identification[J]. Nature Communications,2021,12:1-13.
[13]Hao Jie,Kim Y,Mallavarapu T,et al. Cox-PASNet:pathway-based sparse deep neural network for survival analysis[C]//Proc of IEEE International Conference on Bioinformatics and Biomedicine. Pisca-taway,NJ:IEEE Press,2018:381-386.
[14]Kim S,Kim K,Choe J,et al. Improved survival analysis by learning shared genomic information from pan-cancer data[J]. Bioinforma-tics,2020,36(S1):i389-i398.
[15]Zhang Xiaoyu,Zhang Jingqing,Sun Kai,et al. Integrated multi-omics analysis using variational autoencoders:application to pan-cancer classification[C]//Proc of IEEE International Conference on Bioinforma-tics and Biomedicine.Piscataway,NJ:IEEE Press,2019:765-769.
[16]Ishwaran H,Kogalur U B,Blackstone E H,et al. Random survival fo-rests[J]. The Annals of Applied Statistics,2008,2(3):841-860.
[17]Ridgeway G. The state of boosting[J].Computing Science amp; Statistics, 1999,31:172-181.
[18]Plsterl S,Navab N,Katouzian A. Fast training of support vector machines for survival analysis[C]//Proc of European Conference on Machine Learning and Knowledge Discovery in Databases. 2015:243-259.
[19]Simon N,Friedman J,Hastie T,et al. Regularization paths for Cox’s proportional hazards model via coordinate descent[J]. Journal of Statistical Software,2011,39(5):1-13.
[20]Simon A,Huber W. Differential expression analysis for sequence count data[J]. Genome Biology,2010,11(10):1-12.
[21]Kingma D P,Ba J L. Adam:a method for stochastic optimization[EB/OL].(2014-12-22). https://arxiv.org/abs/1412.6980.
[22]Liu Guangjie,Wang Yaojie,Yue Meng,et al. High expression of TCN1 is a negative prognostic biomarker and can predict neoadjuvant chemosensitivity of colon cancer[J]. Scientific Reports, 2020,10(1):11951.
[23]Feodorova Y,Tashkova D,Koev I,et al. Novel insights into transcriptional dysregulation in colorectal cancer[J]. Neoplasma,2018,65(3):415-424.
[24]Li Meng,Zhao Lianmei,Li Suolin,et al. Differentially expressed lnc-RNAs and mRNAs identified by NGS analysis in colorectal cancer patients[J]. Cancer Medicine,2018,7(9):4650-4664.
[25]Wei Tengteng,Bi Guoshu,Bian Yunyi,et al. The significance of secreted phosphoprotein 1 in multiple human cancers[J]. Frontiers in Molecular Biosciences,2020,7:565383.
[26]Wang Haijun,Liu Jia,Li Jinsong,et al. Identification of gene modules and hub genes in colon adenocarcinoma associated with pathological stage based on WGCNA analysis[J]. Cancer Genetics,2020,242:1-7.
[27]Wusterbarth E,Chen Yuliang,Jecius H,et al. Cartilage oligomeric matrix protein,COMP may be a better prognostic marker than CEACAM5 and correlates with colon cancer molecular subtypes,tumor aggressiveness and overall survival[J]. Journal of Surgical Research,2022,270:169-177.
[28]Patra R,Das N C,Mukherjee S. Exploring the differential expression and prognostic significance of the COL11A1 gene in human colorectal carcinoma:an integrated bioinformatics approach[J]. Frontiers in Genetics,2021,12:60831.
收稿日期:2022-07-09;修回日期:2022-09-26 基金項目:國家自然科學基金資助項目(61872284,12001418);陜西省自然科學基礎研究計劃面上項目(2022JM-026)
作者簡介:殷清燕(1984-),女(通信作者),山東聊城人,副教授,碩導,博士,主要研究方向為機器學習算法及其應用(qingyanyin@outlook.com);武銳萍(1998-),女,陜西西安人,碩士研究生,主要研究方向為基于多組學數據的生存分析算法;陳旺旺(1996-),男,陜西商洛人,碩士研究生,主要研究方向為癌癥基因數據的生存分析算法;邊根慶(1968-),男,浙江金華人,碩導,博士,主要研究方向為智能信息處理、數據安全.